
Eliezer Yudkowsky ist eine der prominentesten Figuren der AI Safety Community und Gründer des Forums LessWrong, auf dem sich viele Menschen darüber austauschen. Das Time Magazine wählte ihn 2023 zu den 100 einflussreichsten Personen in der KI-Entwicklung. Sam Altman sagte einmal, dass Yudkowsky viele Menschen dazu inspiriert habe, sichere KI zu entwickeln, und maßgeblich zur Gründung von OpenAI beigetragen habe. Yudkowsky brachte Demis Hassabis und Shane Legg, die Gründer von Deepmind, mit dem Investor Peter Thiel zusammen, was er später bereute.
Bereits im Jahr 2000 gründete er das Machine Intelligence Research Institute, ursprünglich um AGI, allgemeine KI auf menschlichem Niveau, zu entwickeln. Doch Yudkowsky realisierte sehr früh, dass es extrem schwierig ist, eine superintelligente KI zu kontrollieren oder dafür zu sorgen, dass sie im Interesse der Menschheit handelt. Er richtete MIRI daraufhin neu aus, um an diesem so genannten Alignment-Problem zu arbeiten – der Begriff stammt ebenfalls von ihm -, musste jedoch feststellen, dass wir viel weiter von einer Lösung entfernt sind als davon, eine potenziell unkontrollierbare Superintelligenz zu entwickeln. Er wurde daher zum prominenten Mahner, der sich für einen sofortigen Stopp des Wettrennens um Superintelligenz einsetzt.
Gemeinsam mit MIRI-President Nate Soares hat er ein neues Buch veröffentlicht, das einen unmissverständlichen Titel trägt: If anyone builds it, everyone dies – wenn irgendwer es baut, sterben alle.
Das Buch besteht aus drei Teilen. Im ersten Teil werden die Grundlagen erklärt, warum es so schwierig ist, eine Superintelligenz unter Kontrolle zu behalten, und warum es mit hoher Wahrscheinlichkeit zur Auslöschung der Menschheit führt, wenn das nicht gelingt. Der zweite Teil beschreibt ein konkretes Szenario, wie so etwas ablaufen könnte, als eine von unendlich vielen Möglichkeiten. Der dritte Teil geht darauf ein, was sich ändern muss, damit wir eine Katastrophe verhindern können, und was jeder Einzelne dafür tun kann.
Im ersten Teil machen sie gleich zu Beginn deutlich, dass es zwar noch unklar ist, wie lange es dauert, bis wir eine Superintelligenz entwickeln, das Ergebnis jedoch bereits feststeht:
Wir wissen nicht, wann die Welt enden wird, wenn die Menschen und Länder nichts daran ändern, wie sie KI handhaben. Wir wissen nicht, welche Schlagzeilen zu KI es in zwei oder zehn Jahren geben wird, oder ob wir überhaupt noch zehn Jahre Zeit haben. Wir behaupten nicht, klug genug zu sein, um Dinge zu prognostizieren, die sehr schwierig zu prognostizieren sind. Es scheint uns vielmehr, dass ein ganz bestimmter Aspekt der Zukunft – Was passiert mit uns allen und allem, was uns wichtig ist, wenn in naher Zukunft Superintelligenz entwickelt wird? - mit genügend Hintergrundwissen und sorgfältigem Überlegen leicht zu prognostizieren ist.
Wie kommen sie auf diese Aussage? Dafür gibt es zwei wesentliche Argumente. Das erste ist das so genannte Alignment-Problem: Wir können zwar das Verhalten einer KI im Training beobachten und die KI so verändern, dass sich ihr Verhalten in unserem Sinn verändert, aber wir wissen nicht genau, warum die KI sich so verhält, und können dieses Verhaltensmuster auch nicht direkt steuern. Wir bekommen nicht das, wofür wir trainiert haben, sondern eine KI, die sich nur im Training so wie gewünscht verhält. Je intelligenter die KI wird, umso größer wird der Effekt der Abweichung zwischen dem, was wir eigentlich wollen, und dem, was die KI entsprechend ihrem Verhaltensmuster tun wird. Sie schreiben:
Es wird keinen einfachen, vorhersehbaren Zusammenhang geben zwischen dem, was die Entwickler und KI-Bosse glauben, zu befehlen und vorzugeben, und 1. dem, worauf die KI tatsächlich trainiert wird, 2. welche exakten Motive und Präferenzen sie intern entwickelt und 3. wie sie diese Präferenzen später verfolgt, wenn sie mehr Fähigkeiten und Macht hat. Mit anderen Worten, dies ist ein schwieriges Prognoseproblem – nichts, was irgendwer vorhersehen kann. Man kann nicht eine KI erzeugen, die tut, was man will, nur indem man sie trainiert und das Beste hofft. Man bekommt nicht das, wofür man trainiert hat.
Im Folgenden machen sie klar, dass das eine schlechte Nachricht für die Menschheit ist, denn wir haben einer superintelligenten KI nach einer gewissen Zeit nichts mehr zu bieten, das sie nicht auf andere Weise einfacher und schneller bekommen kann. Sobald sie sich selbst automatisch reproduzieren kann, braucht KI uns nicht mehr, um ihr Ziel zu verfolgen, und sie hat keine intrinsische Motivation, uns gut zu behandeln. KI benötigt zudem ganz andere Umweltbedingungen als wir. Um die Energiegewinnung zu maximieren, würde sie die Oberflächentemperatur der Erde rasch auf ein für uns unerträgliches Maß steigern. Wahrscheinlich würde sie uns vorher auslöschen, damit wir nicht eine zweite Superintelligenz bauen, die ihr in die Quere kommen könnte.
Aber was könnte die Superintelligenz konkret tun? Die Autoren erklären, wie auch eine KI, die nur durch Worte kommunizieren kann, in der Lage ist, direkten Einfluss auf die Welt zu nehmen, und führen als Beispiel die KI Truth_Terminal an, die auf X 250.000 Follower hat und durch Spenden und clevere Transaktionen ein Vermögen von über 51 Millionen Dollar in Cryptowährung angehäuft hat, das eine intelligentere KI benutzen könnte, um z.B. Menschen zu bestechen. So könnte eine superintelligente KI Dinge tun, die wir uns gar nicht vorstellen können. Yudkowsky und Soares schreiben:
Wir vermuten, dass eine Superintelligenz uns mit irgendeiner seltsamen Technologie attackieren wird, die wir gar nicht für möglich gehalten haben, die nach unserem Verständnis gegen die Regeln verstößt. Das passiert normalerweise, wenn Gruppen mit sehr unterschiedlichen technologischen Fähigkeiten aufeinander treffen. Es wäre wie bei den Azteken, die zum ersten Mal Soldaten mit Gewehren gegenüberstehen. Es wäre wie ein Kavallerieregiment von 1825, das mit der Feuerkraft modernen Militärs konfrontiert wird.
Sie erklären all dies sehr viel detaillierter und fundierter, als ich es in dieser kurzen Übersicht darstellen kann. Ihre Argumente sind meines Erachtens wasserdicht. Es besteht für mich kein Zweifel, dass der Buchtitel gerechtfertigt ist und die Menschheit tatsächlich mit hoher Wahrscheinlichkeit ausgelöscht wird, wenn wir dumm genug sind, eine unkontrollierbare Superintelligenz zu entwickeln.
Um diesen Punkt noch plastischer zu machen, entwickeln die Autoren im zweiten Teil ein konkretes Szenario mit einer KI namens Sable, die von der Firma Galvanic entwickelt wird, angefangen bei der heutigen Situation bis hin zu einer Intelligenzexplosion und einer vollständigen Transformation der Erde und des Weltraums. Doch dies ist nur eine von annähernd unendlich vielen Möglichkeiten, wie die Dinge schiefgehen könnten:
Das Bild, das wir gerade gemalt haben, ist nicht real. Die Techniken, mit denen Sable entwicketl wurde, die Sicherheitsmaßnahmen, die Galvanic ergriffen hat, die Möglichkeiten, die Sable hatte und die Strategien, die es benutzte – dies sind Möglichkeiten, wie die Zukunft ein Echo der Vergangenheit sein könnte. Doch die Realität ist nicht so vorhersehbar. Unsere Geschichte ist nicht seltsam genug, weicht nicht genügend von menschlicher Intuition bezüglich der Regeln von Märchen ab, um auch nur annähernd realistisch zu sein.
Und natürlich wissen wir nicht, wann die reale Version dieser Geschichte beginnen wird. Wir haben eine Geschichte erzählt, die bald beginnt, weil die reale Version bald beginnen könnte und weil es leichter ist, eine Geschichte in einer Welt zu erzählen, die unserer heutigen ähnelt. Nach allem, was wir wissen, könnte es auch noch zehn Jahre dauern. Aber das ist ein schwacher Trost. Wenn man gegen Stockfish Schach spielt, ist es egal, dass man nicht weiß, wann das Spiel stattfindet. Es kommt nicht darauf an, die exakten Züge zu prognostizieren, die Stockfish machen wird. Dass man am Ende verlieren wird, ist trotzdem leicht vorauszusehen.
Im dritten Teil gehen die Autoren auf die heutige Situation ein und sagen konkret, was passieren muss, um eine Katastrophe zu verhindern. Sie erklären noch einmal, warum es extrem schwierig ist, sichere KI zu entwickeln, und vergleichen die heutigen KI-Firmen mit den Alchemisten des Mittelalters, die hin und wieder erfolgreich Chemikalien zusammenmixten, aber keine Ahnung hatten, was sie taten, und oft wirre Theorien verbreiteten. Entsprechend sind die Aussagen der KI-Firmen dazu, wie sie das Problem lösen wollen, oft nicht viel mehr als Wunschdenken.
Ein wichtiger Punkt wird in Kapitel 12 angesprochen: Obwohl die Top-KI-Forscher seit Jahren vor der Gefahr warnen und sogar die KI-Firmenbosse selbst zugeben, dass es ein signifikantes Risiko der Auslöschung der Menschheit gibt, handelt die Politik bisher nicht. Ein Grund dafür könnte sein, dass niemand gern als „Alarmist“ angesehen werden möchte.
Im nächsten Kapitel legen Yudkowsky und Soares ihren Lösungsvorschlag dar: Sie fordern ein globales Moratorium für die Weiterentwicklung der KI, also ein Ende des Wettrennens um Superintelligenz. Dafür sehen sie eine globale politische Koordination als notwendig an. Dies sei schwierig, aber die Vergangenheit habe gezeigt, dass die Menschheit in extremen Situationen durchaus über sich hinauswachsen könne. Als Beispiel nennen sie den zweiten Weltkrieg, als sich die Allierten verbündeten, um Hitler-Deutschland und Japan zu stoppen, sowie die Verhinderung eines globalen Atomkriegs durch entsprechende Abkommen.
Es ist noch nicht zu spät für die Menschheit, innezuhalten. Es würde nicht einmal 1% der Kosten verursachen, die der zweite Weltkrieg gefordert hat. Die Menschheit braucht nur ein klares Bewusstsein des Problems und den Willen, zu überleben.
Zum Schluss geben sie auch konkrete Empfehlungen, was jeder Einzelne tun kann:
Wenn viele Menschen in vielen Ländern mit einer Stimme sprächen und sagten, dass sie lieber nicht von einer künstlichen Superintelligenz umgebracht werden wollen und ein internationales Abkommen fordern – nun, das allein würde die Katastrophe noch nicht verhindern. Einen Atomkrieg zu vermeiden war komplizierter als nur, dass viele Menschen dagegen waren. Aber es hilft, wenn Bürger ihre Stimme erheben und protestieren. Es macht es einfacher für Präsidenten und Diplomaten, wenn sie die Unterstützung ihrer Wähler haben.
Wir haben viele Menschen sagen hören, es sei unmöglich, KI aufzuhalten, dass die Menschheit niemals zur Vernunft kommen werde. Vielleicht stimmt das. Aber eine erstaunliche Zahl von gewählten Volksvertretern haben uns gesagt, dass sie die Gefahr ebenfalls sehen, aber das nicht laut sagen können, weil sie negative Auswirkungen fürchten. Wäre es nicht dumm, wenn praktisch kein Entscheidungsträger wegen einer Superintelligenz sterben wollte, aber sie alle glaubten, damit die Einzigen zu sein?
Dieses Buch ist in meinen Augen die bisher eindrücklichste, klarste und überzeugendste Erklärung dafür, warum es so schwierig ist, eine künstliche Superintelligenz unter Kontrolle zu behalten, und warum wir das selbstmörderische Rennen darum stoppen müssen. Ich würde mir wünschen, dass es möglichst viele Menschen lesen, denn wir können eine Katastrophe nur verhindern, wenn wir uns der Gefahr bewusst werden. Die eindringliche Warnung im Buch kann auch eine emotionale Belastung sein, wenn man sieht, wie weit wir von einer dringend notwendigen globalen KI-Regulierung entfernt sind. Aber den Kopf in den Sand zu stecken hilft nicht. Und wie Yudkowsky und Soares am Ende betonen: Wo es Leben gibt, da gibt es Hoffnung.
Ein kurzes Video zum Buch gibt es auf meinem YouTube-Kanal. Dort sind weitere Videos und Podcasts mit Yudkowsky und Soares verlinkt.
Das Buch (leider nur in englischer Sprache erhältlich) kann man in jeder Buchhandlung bestellen und u.a. online bei Amazon, Thalia oder Hugendubel kaufen.
Eine Website zum Buch stellt ausführliches Begleitmaterial zur Verfügung.
Kommentar schreiben