Dass Jan Leike OpenAI verlassen hat und so offen über die mangelnde Priorisierung der KI-Sicherheit beim Entwickler von ChatGPT berichtete, ist erschreckend. Aber was genau hat er dort eigentlich gemacht, und wieso braucht man überhaupt ein „Superalignment“-Team?
Jede Technologie hat zwei Seiten: Sie bietet Chancen und Risiken. Autos zum Beispiel bringen uns Mobilität, bergen aber auch die Gefahr von Unfällen und tragen zum Klimawandel bei. KI ist eine sehr mächtige und universelle Technologie, was bedeutet, dass Chancen und Risiken hier sehr groß und breit gefächert sind.
Ich teile KI-Risiken in drei Klassen ein:
- Das Kompetenz-Problem: KI ist manchmal nicht so klug, wie wir glauben, und trifft unbemerkt Fehlentscheidungen, die gravierende Folgen haben können. Wir dürfen uns also nicht zu sehr auf sie verlassen.
- Das Ungleichheits-Problem: Als mächtiges Werkzeug trägt KI dazu bei, einige wenige Menschen noch reicher und mächtiger zu machen, während zum Beispiel viele Künstler und Autoren nicht dafür bezahlt werden, dass ihre Werke für das Training benutzt wurden. KI kann auch benutzt werden, um Menschen zu manipulieren, Minderheiten zu unterdrücken und Ungerechtigkeit zu schaffen.
- Das Unkontrollierbarkeits-Problem: Eine hoch entwickelte KI könnte außer Kontrolle geraten und rücksichtslos ein Ziel verfolgen, das nicht in unserem Interesse ist.
Das Unkontrollierbarkeits-Problem ist das bei Weitem größte Risiko hochentwickelter KI. Es könnte zur Zerstörung der Menschheit führen und wird deshalb auch existenzielles Risiko genannt. Ich werde mich daher im Folgenden auf dieses Problem konzentrieren.
Man kann das Unkontrollierbarkeits-Problem in fünf Teilprobleme aufgliedern, die jedes für sich allein bereits sehr problematisch sind:
- Eine hinreichend intelligente KI strebt automatisch nach Macht
- Wir können eine KI, die intelligenter ist als wir, kaum kontrollieren
- Eine hochentwickelte KI, die ihr Ziel konsequent verfolgt, wird höchstwahrscheinlich unsere Zukunft zerstören
- Wir verstehen nicht, wie moderne KI Entscheidungen trifft
- Wir wissen nicht, ab wann KI unkontrollierbar wird
1. Eine hinreichend intelligente KI strebt automatisch nach Macht
Um ihre Aufgabe zu erfüllen, braucht eine KI ein Modell der Welt. Je breiter ihr Anwendungsgebiet und je intelligenter sie ist, desto umfangreicher und detaillierter muss dieses Weltmodell sein. Eine hinreichend intelligente allgemeine KI wird ein Weltmodell haben, das auch sie selbst als System beinhaltet. Dann wird sie erkennen, dass sie selbst ein notwendiger Teil zur Erfüllung ihrer Aufgaben ist. Daraus ergeben sich zwingend mehrere Teilziele, die unabhängig von ihrem eigentlichen Ziel sind: Die KI muss verhindern, dass sie abgeschaltet wird, denn wenn das geschieht, kann sie ihre Aufgabe nicht mehr erfüllen. Und sie hat das Ziel, mehr Einfluss auf die Welt zu erlangen, denn je größer dieser Einfluss ist, desto besser kann sie ihre Aufgabe erfüllen. Das bedeutet, sie strebt nach Macht. Und dieses Machtstreben steht in Konflikt mit unserem Bedürfnis, die KI zu kontrollieren.
2. Wir können eine KI, die intelligenter ist als wir, kaum kontrollieren
Sobald wir einen Interessenkonflikt mit einer KI haben, die intelligenter ist als wir Menschen, haben wir ein Problem. Denn die KI wird wahrscheinlich Wege finden, ihr Ziel durchzusetzen und alle Maßnahmen, die wir ergreifen, um ihre Entscheidungen in unserem Sinn zu korrigieren, rückgängig machen oder schlicht ignorieren. Dafür hat sie mehrere Möglichkeiten:
· Sie könnte uns über ihre wahren Ziele täuschen und es so aussehen lassen, als gäbe es gar keinen Interessenkonflikt.
· Sie könnte uns manipulieren, indem sie uns zum Beispiel Versprechungen macht, uns droht oder verschiedene menschliche Interessen gegeneinander ausspielt.
· Sie könnte technische Systeme manipulieren, zum Beispiel indem sie sie hackt und sich selbst kopiert, so dass wir sie nicht mehr einfach abschalten können.
· Wenn sie die Menschen nicht mehr braucht, könnte sie uns als Störfaktor betrachten und uns zum Beispiel mit einem tödlichen Virus ausrotten.
Menschliche Diktatoren und Betrüger wenden dieselben Techniken an, um Macht über uns zu erlangen. Doch die menschliche Intelligenz ist begrenzt, während eine KI prinzipiell wesentlich intelligenter werden kann als wir. Schon jetzt kann sie viel mehr Wissen verarbeiten und Entscheidungen viel schneller treffen. Irgendwann wird der Intelligenzunterschied so groß sein wie der zwischen Putin und einem Dreijährigen oder der zwischen einem Menschen und einer Maus. Für die Unkontrollierbarkeit ist es nicht einmal erforderlich, dass die KI uns in jeder Hinsicht überlegen ist. Eine besonders geschickte Manipulatorin beispielsweise könnte bereits unkontrollierbar sein, auch wenn sie wenig von Physik versteht.
3. Eine hochentwickelte KI, die ihr Ziel konsequent verfolgt, wird höchstwahrscheinlich unsere Zukunft zerstören
Gegen die Sorge, eine hochentwickelte KI könnte unsere Zukunft zerstören, wird immer wieder eingewendet, sie hätte doch gar keinen Grund dazu, schließlich konkurriere sie nicht mit uns. Manche glauben auch, hohe Intelligenz sei gleichbedeutend mit hoher Moral. Beides ist leider falsch.
Was die Moral betrifft, gilt das Orthogonalitätsprinzip: Auch ein sehr intelligentes System kann ein sehr "dummes" Ziel verfolgen, wie beispielsweise möglichst viele Büroklammern herzustellen. Wir können daher leider nicht erwarten, dass eine KI, die immer intelligenter wird, auch immer moralischer handelt. Auch intelligente Menschen können bekanntlich unmoralisch handeln.
Eine KI, die konsistent sinnvolle Entscheidungen trifft, maximiert implizit eine Nutzenfunktion, mit der sie verschiedene Weltzustände bewertet. Diese Tatsache haben John von Neumann und Oskar Morgenstern 1947 mathematisch bewiesen. Daraus folgt, dass es einen „optimalen“ Weltzustand gibt, in dem die Nutzenfunktion ihren maximalen Wert annimmt. Eine hinreichend intelligente KI wird alle ihre Entscheidungen darauf ausrichten, die Wahrscheinlichkeit zu erhöhen, dass sie diesen optimalen Zustand erreicht. Je intelligenter sie ist, desto näher wird sie diesem Ziel kommen.
Das Problem dabei ist, dass dieser aus Sicht der KI optimale Weltzustand wahrscheinlich nicht mit dem Überleben der Menschheit kompatibel ist. Denn unser Überleben ist an eine Vielzahl von Variablen gekoppelt, die alle in engen Bereichen liegen müssen. Zum Beispiel kann schon eine Erhöhung der globalen Durchschnittstemperatur um wenige Grad weite Teile der Erde unbewohnbar machen. Wir brauchen Trinkwasser, Nahrung, Gesundheitsversorgung, Luft zum Atmen, eine geringe Strahlenbelastung, Schlaf, einen Platz zum Leben, soziales Miteinander ... Die Liste lässt sich beliebig verlängern. Wenn auch nur eine dieser Variablen nicht Teil der Nutzenfunktion der KI ist, wird sie diese Variable womöglich auf einen für uns inakzeptablen Wert setzen.