· 

Wir brauchen rote Linien für KI

Heute habe ich einen Beitrag in englischer Sprache auf dem Forum LessWrong gepostet, das von vielen, die sich für KI-Sicherheit interessieren, zum Austausch genutzt wird. Hier kommt die deutsche Übersetzung:

Das Alignment-Problem bleibt weiterhin äußerst schwierig und die Zeit bis zur Entwicklung starker KI scheint immer kürzer zu werden. Vor diesem Hintergrund müssen wir uns mit der Möglichkeit auseinandersetzen, dass wir innerhalb der nächsten 20 Jahre in der Lage sein werden, eine starke KI zu bauen, die ein existenzielles Risiko darstellt, bevor wir wissen, wie wir sie kontrollieren können. In diesem Fall besteht die einzige Chance, eine Katastrophe abzuwenden, darin, auf die Entwicklung einer solchen "gefährlichen" KI zu verzichten. Aber was genau bedeutet das eigentlich?

 

Es scheint offensichtlich, dass eine KI, die wesentlich intelligenter ist als wir und das falsche Ziel verfolgt, "gefährlich" in dem Sinn wäre, dass wir sie nicht stoppen könnten und sie wahrscheinlich eine existenzielle Katastrophe auslösen würde. Aber wo genau ist der Kipppunkt? Wo ist die Grenzlinie zwischen harmlosen KIs wie GPT-3 oder MuZero und einer zukünftigen KI, die eine existenzielle Gefahr darstellen könnte?

 

Anders ausgedrückt: Wenn wir aufgefordert würden, ein internationales Gesetz zu formulieren, das "gefährliche KI" verbietet, was müsste darin stehen? Was dürfte niemals erlaubt sein, welche "roten Linien" dürften niemals überschritten werden, zumindest bis wir eine sichere und praktikable Lösung für das Alignment-Problem gefunden haben? Woran würden wir eine "gefährliche" KI bzw. Pläne, eine solche zu entwickeln, überhaupt erkennen?

 

Diese Frage ist kritisch, denn wenn der einzige Weg, ein existenzielles Risiko abzuwenden, darin besteht, eine gefährliche KI gar nicht erst zu bauen, müssen wir sehr sicher sein, was genau eine KI in diesem Sinn "gefährlich" macht.

 

Es mag unmöglich erscheinen, die ganze Menschheit davon abzuhalten, etwas zu tun, was technisch möglich ist. Doch während es oft schwierig ist, Menschen dazu zu bringen, sich auf eine Politik zu einigen, gibt es bereits viele Dinge, die nicht explizit verboten sind, die aber trotzdem praktisch niemand tut: zum Beispiel seine Kinder mit radioaktivem Material spielen lassen, irgendwelche unidentifizierten Pilze essen, die man im Wald findet, unter einen fahrenden LKW klettern, um Wein zu trinken, oder Aquarium-Reiniger als Heilmittel gegen Covid-19 einnehmen. Es gibt ein allgemeines Verständnis, dass solche Dinge dumm sind, weil das Risiko viel höher ist als der Nutzen. Dieses allgemeine Verständnis von Gefährlichkeit ist alles, was nötig ist, um einen sehr großen Teil der Menschheit davon abzuhalten, so etwas zu tun.

 

Wenn es gelänge, ein ähnliches allgemeines Verständnis davon zu entwickeln, was die notwendigen und hinreichenden Bedingungen sind, damit eine KI zu einem existenziellen Risiko wird, gäbe es vielleicht eine Chance, dass eine solche KI nicht entwickelt würde, zumindest für eine Weile, selbst, wenn es kein globales Gesetz dagegen gäbe. Immerhin kann niemand (abgesehen von ein paar lebensmüden Terroristen) ein Interesse daran haben, die Welt zu zerstören. Damit kann man den Aktienwert eines Unternehmens nicht steigern. Der Gegenwartswert einer solchen Investition wäre extrem negativ. Es wartet weder persönlicher Ruhm noch Reichtum auf den ersten Menschen, der die Menschheit zerstört.

 

Natürlich wird es nicht so einfach sein, exakte Kriterien dafür zu definieren, ab wann eine KI "gefährlich" in diesem Sinn ist. Wahrscheinlich wird es Grauzonen geben, in denen es zunehmend gefährlich wird. Dennoch glaube ich, dass es wertvoll wäre, diese Grauzonen quasi zu kartieren. Es würde uns dabei helfen, die KI-Entwicklung sinnvoll zu steuern, und könnte zu internationalen Abkommen sowie zu einer vorsichtigeren Entwicklung in manchen Bereichen führen. Im besten Fall könte es uns sogar helfen, zu definieren, was "sichere KI" eigentlich genau bedeutet, so dass wir das volle Potenzial nutzen können, ohne unsere Zukunft zu riskieren. Ein weiterer Vorteil wäre es, dass die Beweislast für die uneingeschränkte Sicherheit der KI bei demjenigen läge, der sie entwickelt, wenn man bereits im Vorfeld erkennen könnte, dass sie potenziell gefährlich ist.

 

Wenn wir die "Gefährlichkeit" einer KI beurteilen wollen, sollten wir den beliebten Fehler vermeiden, den Menschen als Maß aller Dinge anzusehen. Wenn wir heute über die existenziellen Risiken der KI sprechen, dann ist häufig von "starker" oder "superintelligenter" KI die Rede. Dies impliziert, dass KI erst dann gefährlich wird, wenn sie allgemein Probleme mindestens so gut lösen kann wie ein Mensch. Doch das ist irreführend. Erstens führt es dazu, dass einige die Gefahr unterschätzen, weil sie fälschlich glauben, gefährliche KI könne erst dann auftreten, wenn wir das menschliche Gehirn vollständig verstanden haben.  Zweitens ist KI bereits heute in vielen engen Bereichen superintelligent. Eine KI, die die Welt zerstören könnte, obwohl sie nicht alle Probleme so gut lösen kann wie ein Mensch, ist zumindest vorstellbar. Beispielsweise könnte eine KI, die sehr gut in Strategie und Manipulation ist, die Menschheit in einen Atomkrieg treiben, obwohl sie weder Bilder erkennen noch Roboter steuern kann. Drittens wäre eine KI, die allgemeine Problemlösungsfähigkeit auf menschlichem Niveau hätte, uns in anderen Bereichen bereits weit voraus, zum Beispiel beim Gedächtnis, der Denkgeschwindigkeit, dem Zugriff auf Daten, der Fähigkeit, sich selbst zu verbessern etc. Damit würde sie womöglich bereits zu einer unüberwindlichen Macht werden. Eine Grafik von AI Impacts (auf die mich Daniel Kokotajlo hinwies) verdeutlicht das:

Die obigen Punkte machen klar, dass die Linie zwischen "harmlos" und "gefährlich" irgendwo unterhalb der Schwelle "allgemeine Problemlösungsfähigkeit auf mindestens menschlichem Niveau" liegen muss. Selbst heutige "schwache" KIs haben ja oft bereits signifikante negative, womöglich sogar katastrophale Nebeneffekte (denken Sie zum Beispiel daran, wie die Algorithmen sozialer Medien extreme Sichtweisen fördern, dadurch Hass und Spaltung der Gesellschaft vorantreiben, so die Wahrscheinlichkeit nationalistischer Regierungen oder Diktaturen erhöhen und damit letztlich das Risiko von Kriegen steigern). Während es natürlich viele nützliche Anwendungen fortschrittlicher KI gibt, steigt bei der aktuellen Entwicklungsgeschwindigkeit auch das Risiko solcher Fehlentwicklungen. Das macht es umso wichtiger, genau zu definieren, wann eine KI "gefährlich" ist, selbst wenn ihr typische Merkmale fehlen, die mit "starker" KI assoziiert werden.

 

Es ist nicht Ziel dieses Beitrags, konkrete Empfehlungen zu geben, wie "Gefährlichkeit" definiert und gemessen werden könnte. Dafür ist noch viel Forschung notwendig. Aber es gibt zumindest einige Eigenschaften von KIs, die in diesem Zusammenhang relevant sein könnten:

  • Anwendungsbreite: Heutige "schwache" KIs, die nur in eng definierten Gebieten eingesetzt werden können, stellen offensichtlich noch kein existenzielles Risiko dar. Wenn allerdings die Breite der Anwendungsgebiete, in denen sie eingesetzt werden kann, zunimmt, steigt damit auch das Risiko, dass eine KI in einem dieser Gebiete unerwünschtes Verhalten zeigt. Das bedeutet nicht notwendigerweise, dass eine "schwache" KI harmlos sein muss (siehe Beispiel oben), aber die Anwendungsbreite könnte ein Faktor sein, um die Gefährlichkeit zu bestimmen.
  • Komplexität: Je komplexer ein System ist, desto schwieriger ist es, sein Verhalten vorherzusagen, was die Wahrscheinlichkeit erhöht, dass dieses Verhalten schädlich oder gar katastrophal ist. Entsprechend ist ein komplexeres System (z.B. gemessen an der Anzahl der Parameter eines Transformer-Netzwerks) unter sonst gleichen Bedingungen tendenziell gefährlicher als ein einfacheres.
  • Undurchschaubarkeit: Manche komplexen Systeme sind einfacher zu verstehen und verhalten sich berechenbarer als andere. Zum Beispiel ist "symbolische" regelbasierte KI tentenziell leichter zu durchschauen als neuronale Netzwerke. Je undurchschauberer ein System ist, umso unberechenbarer und somit gefährlicher ist es.
  • Weltmodell: Je mehr eine KI über die Welt weiß, umso besser ist sie in der Lage, Pläne über zukünftige Zustände der Welt zu erstellen und effektive Handlungen zum Erreichen dieser Zustände durchzuführen, womöglich in einer Weise, die wir nicht wollen. Dementsprechend könnten Umfang und Detailgrad des Wissens über die reale Welt ein Faktor für ihre Gefährlichkeit sein.
  • Strategisches Bewusstsein (wie von Joseph Carlsmith definiert, siehe Sektion 2.1 dieses Dokuments, siehe auch meinen Blogbeitrag dazu) : Dies könnte ein kritischer Faktor für die Bestimmung der Gefährlichkeit einer KI sein. Eine KI mit strategischem Bewusstsein erkennt in gewisser Hinsicht, dass sie Teil ihrer Umgebung, ein wesentliches Element zum Erreichen ihres Ziels und ein mögliches Objekt ihrer eigenen Entscheidungen ist. Dies führt zu instrumentellen Zielen, wie zum Beispiel dem Streben nach Macht und Selbstverbesserung und dem Ziel, die Menschen an der eigenen Abschaltung oder dem Verändern ihres Ziels zu hindern. Je ausgeprägter das strategische Bewusstsein einer KI ist, umso gefährlicher ist sie.
  • Stabilität: Eine KI, die sich dynamisch verändert, ist weniger berechenbar und entsprechend gefährlicher als eine statische, stabile KI. Wenn sie zum Beispiel in Echtzeit lernen und sich selbst verbessern kann, sollte sie generell als gefährlicher angesehen werden als ein System, das einmalig trainiert und danach nicht mehr verändert wird.
  • Rechenleistung: Je größer die Rechenleistung eines Systems, umso mächtiger und entsprechend potenziell gefährlicher wird es. Das gilt auch für die Rechengeschwindigkeit: Je schneller ein System entscheiden und handeln kann, umso gefährlicher, da dann weniger Zeit bleibt, um seine Entscheidungen zu verstehen und notfalls zu korrigieren.

Eine Eigenschaft habe ich bewusst nicht in dieser Liste aufgeführt, nämlich die "Verbindung zur Außenwelt", z.B. Zugriff auf das Internet, Sensoren, Roboter oder die Kommunikation mit Menschen. Eine KI, die Zugriff auf das Internet und viele Geräte und Kommunikationssysteme hat, ist besser in der Lage, die Welt zu manipulieren und gefährliche Dinge zu tun. Doch sofern eine KI, die solche Möglichkeiten hat, als "gefährlich" eingestuft würde, sollte sie ebenso als gefährlich angesehen werden, wenn sie diese nicht hat. Denn wenn man einer solchen KI Zugriff auf die Außenwelt gäbe, ob absichtlich oder aus Versehen, würde sie ja gefährlich, ohne dass man am System selbst etwas ändern müsste. Dynamit zum Beispiel gilt ja auch dann als gefährlich, wenn gerade kein brennendes Streichholz in der Nähe ist. Den Zugriff einer KI auf die Außenwelt zu beschränken kann stattdessen ein Mittel sein, eine gefährliche KI einzudämmen. Es sollte aber immer als inhärent unsicher angesehen werden.

 

Diese Liste ist keineswegs vollständig. Es gibt wahrscheinlich andere Atrribute, zum Beispiel bestimmte mathematische Eigenschaften, die relevant sein könnten und die ich nicht kenne oder nicht gut genug verstehe, um sie überhaupt zu erwähnen. Ich möchte nur deutlich machen, dass es objektive, messbare Kriterien geben könnte, mit denen man die "Gefährlichkeit" einer KI einschätzen könnte. Es ist aber noch unklar, welche der genannten Attribute wie relevant sind, wie sie miteinander verknüpft werden sollten und ob es absolute Schwellwerte gibt, die als "rote Linien" dienen könnten. Ich glaube, eine weitere wissenschaftliche Untersuchung dieser Fragen wäre sehr wertvoll.

 

Danke an Daniel Kokotajlo, Jan Hendrik Kirchner, Remmelt Ellen, Berbank Green, Otto Barten und Olaf Voß für die hilfreichen Anmerkungen und Vorschläge.

 


Kommentar schreiben

Kommentare: 0