Lösungsideen · 13. Januar 2020

Stuart Russells 3 Prinzipien für „gutartige“ KI (und meine Zweifel daran)

Stuart Russell, Professor an der University of California in Berkely, ist einer der renommiertesten KI-Experten und Vorreiter der Diskussion über ihre Risiken. Sein Buch „Human Compatible“ ist das Beste, was ich bis jetzt zu diesem Thema gelesen habe. Es gehört also schon ein gehöriges Maß an Selbstüberschätzung dazu, sich anzumaßen, als Nichtfachmann eine zentrale These seiner Arbeit infrage zu stellen. Andererseits wäre es bei der Bedeutung, die dieses Thema für unsere Zukunft hat, dumm, Zweifel aus purem Respekt vor Fachautorität nicht zu äußern. Also wage ich mich mal aus der Deckung und lasse mich gerne eines Besseren belehren (am liebsten natürlich von Professor Russell persönlich, aber gern auch von einem Kommentator, der mehr von der Materie versteht als ich).

Das Problem, um das es geht, ist folgendes: Wie bringe ich eine superintelligente Maschine dazu, das zu tun, was ich wirklich will, und dabei nicht aus Versehen die Menschheit auszulöschen? Die Frage mag momentan noch hypothetisch erscheinen, weil wir von einer echten „Superintelligenz“, die uns in jeder Hinsicht weit überlegen ist, noch weit entfernt sind. Wie weit genau, weiß allerdings niemand. Allein die theoretische Möglichkeit, dass wir in den nächsten 50 Jahren so weit sein könnten, sollte das Thema weit oben auf die Tagesordnung rücken. Denn es ist ziemlich verzwickt, aber wenn wir es nicht lösen, könnte die Erfindung der Superintelligenz tatsächlich unsere letzte sein.

In einem sehr sehenswerten TED Talk erklärt Russell das Problem und seinen Lösungsvorschlag.

Russells Lösungsansatz basiert auf drei Prinzipien, die seiner Ansicht nach Leitlinien für die Entwicklung von KI sein sollten:

Das einzige Ziel der Maschine ist es, die „Verwirklichung menschlicher Werte“ zu maximieren.
Die Maschine ist zu Beginn unsicher, welche Werte das sind.
Menschliches Verhalten liefert die Informationen darüber, welches die menschlichen Werte sind.

Das erste Prinzip könnte man als „Altruismusprinzip“ bezeichnen: Die Maschine verfolgt keine „egoistischen“ Ziele, sondern möchte nur das Leben der Menschen verbessern. Gemeint sind hier alle Menschen, nicht nur der Eigentümer der Maschine.

Das zweite Prinzip könnte man „Demutsprinzip“ nennen: Die Maschine weiß nicht genau, was das Beste für alle Menschen ist, und verhält sich deshalb tendenziell vorsichtig.

Das dritte Prinzip ist das „Beobachtungsprinzip“: Statt einfach die Anweisungen der Menschen zu befolgen oder ihren Worten Glauben zu schenken, sieht die Maschine genau hin, was Menschen wirklich tun, und folgert daraus, was sie „eigentlich“ wollen - oder wollen sollten.

Russell behauptet, mathematisch zeigen zu können, dass eine Maschine, die diese Prinzipien befolgt, „provably beneficial“, also beweisbar gutartig sei.

Auf den ersten Blick ergeben die Prinzipien durchaus Sinn. Eine altruistische Maschine, die sich unsicher ist, was Menschen wirklich von ihr wollen, wird nicht so schnell aus Versehen die Erde zerstören, weil ihr jemand gesagt hat: „Mach so viele Büroklammern, wie du kannst.“ Das wahre Verhalten der Menschen zu beobachten statt auf ihre schönen Worte zu hören, war schon immer eine große Inspirationsquelle für Philosophen, Psychologen und Thrillerautoren.

Russell selbst weist darauf hin, dass bei der Umsetzung seiner Prinzipien noch erhebliche ungelöste Schwierigkeiten bestehen. Das größte Problem dürfte darin liegen, dass nicht alle Menschen dasselbe wollen und es eine Maschine trotz ihrer Superintelligenz schwer haben dürfte, es allen recht zu machen. Er ist jedoch zuversichtlich, dass wir dafür eine Lösung finden werden.

In der Tat halte ich die „Maximierung der Verwirklichung menschlicher Werte“ für eine unlösbare Aufgabe, und zwar aus mehreren Gründen. Erstens kann eine Maschine niemals sicher sein, dass die aus der Beobachtung (3. Prinzip) gewonnenen Annahmen über die menschlichen Werte korrekt sind. Und zweitens ist es unmöglich, die Konsequenzen einer beliebigen Entscheidung auf die „Verwirklichung der menschlichen Werte“ auch nur annähernd exakt zu bewerten. Dazu müsste man nämlich in die Zukunft sehen können, und das kann selbst eine superintelligente Maschine nicht, da die Realität, anders als eine Go-Partie, nicht deterministisch, sondern aufgrund der Quantenmechanik inhärent stochastisch (also zufallsbeeinflusst) und viel zu komplex für eine vollständige Berechnung ist. Ergo kann eine Maschine niemals sicher wissen, ob eine bestimmte Entscheidung tatsächlich zur „Maximierung der Verwirklichung menschlicher Werte“ beiträgt. Daher müsste sie entweder untätig herumsitzen oder eine gewisse Unsicherheit ihrer Entscheidungen in Kauf nehmen. Und damit wäre sie nicht mehr „beweisbar gutartig“, sondern höchstens noch „wahrscheinlich gutartig“. Da weder wir noch die Maschine genau wissen können, wie groß die Unsicherheit tatsächlich ist, könnte es sein, dass die Maschine Entscheidungen trifft, die aus ihrer Sicht „wahrscheinlich gut“ sind, sich aber im Nachhinein als katastrophal herausstellen. Wir Menschen haben diesen Fehler immerhin schon oft genug gemacht, siehe Klimawandel und Atombombe.

Ein weiteres Problem betrifft die Frage, was genau nach dem ersten Prinzip eigentlich maximiert werden soll. Die durchschnittliche Verwirklichung der Werte aller Menschen (was zur Diskriminierung von Minderheiten führen könnte)? Sollten die Interessen junger Menschen, die ihr ganzes Leben noch vor sich haben, höher bewertet werden als die der Alten? Darf die KI einen Menschen benachteiligen, um zwei andere besserzustellen? Was ist mit noch ungeborenem Leben und den Interessen zukünftiger Generationen? Haben auch Tiere oder gar fühlende künstliche Intelligenzen „Werte“, die berücksichtigt werden müssen? Philosophen raufen sich seit Jahrhunderten die Haare über diese Fragen. Es erscheint fraglich, ob eine noch so intelligente KI darauf eine allgemein akzeptierte Antwort findet. Und selbst wenn, wird es immer Menschen geben, die damit nicht einverstanden sind. Wie würde sie mit diesen umgehen?

Selbst, wenn die oben genannten Probleme irgendwie lösbar wären, besteht immer noch ein großer Unterschied zwischen den abstrakten Prinzipien und einer real existierenden Implementierung. Auch eine superintelligente Maschine hat keine unendliche Rechenleistung, und es ist unklar, wie wir zuverlässig verhindern könnten, dass ihr Programmcode Fehler enthält, die letztlich zur Aushebelung der drei Prinzipien führen. Da wir eine solche Maschine, die sich selbst weiterentwickelt hat, nicht einmal im Ansatz verstehen würden, könnten wir niemals sicher sein, ob sie noch den drei Prinzipien folgt.

Zudem stelle ich infrage, warum man eine solche Maschine überhaupt bauen sollte. Per Definition darf sie Anweisungen der Menschen, die sie gebaut haben, gar nicht einfach so befolgen, sondern muss sich stattdessen auf ihre eigene Einschätzung dessen verlassen, was sie durch Beobachtung des menschlichen Verhaltens lernt. Wie sollten wir eine solche Maschine dazu bringen, irgendetwas aus unserer Sicht Sinnvolles zu tun? Sie würde sich weigern, „den Kaffee zu holen“, wie Stuart Russell es formuliert, denn sie hätte Dringenderes zu tun, zum Beispiel den Hunger in Afrika lindern (er selbst weist auf dieses noch ungelöste Problem hin). Wer würde viele Milliarden in die Entwicklung einer Maschine investieren, die am Ende „macht, was sie will“? Wenn es aber kein wirtschaftliches und/oder politisches Interesse an der Implementierung der drei Prinzipien gibt, bleiben sie wirkungslos.

Das grundsätzliche Problem von Russells Ansatz besteht meines Erachtens darin, dass eine Maschine, die nach seinen Prinzipien funktioniert, vollständig autark entscheidet, was „richtig“ und was „falsch“ ist. Damit das funktioniert, müsste sie zunächst sicherstellen, dass sie die absolute Entscheidungsgewalt hat, damit nicht irgendwelche menschlichen Politiker oder Unternehmer Maßnahmen beschließen können, die der „Maximierung der Verwirklichung menschlicher Werte“ im Weg stehen. Auch, wenn sie sich unsicher wäre, ob diese Maßnahmen wirklich schädlich sind, würde sie nicht einfach tatenlos zusehen, weil sie ja weiß, dass sie absolute Sicherheit niemals erreichen kann. Eine gewisse Wahrscheinlichkeit (aus Sicht der Maschine) würde reichen, um einen Eingriff zu rechtfertigen. Und dass viele Entscheidungen menschlicher Politiker „suboptimal“ sind, ist vermutlich auch für weniger intelligente Maschinen leicht erkennbar.

Wir hätten also einen nichtmenschlichen, quasi allmächtigen Diktator geschaffen, der niemandem außer seiner eigenen, durch Beobachtung abgeleiteten Ethik Rechenschaft ablegen muss. Wenn wir Glück haben, stellt er sich als gutmütiger Diktator heraus, aber sicher ist das keineswegs. Was wäre zum Beispiel mit den Menschen, die, aus welchen Gründen auch immer, nicht mit seinen Entscheidungen einverstanden sind und dagegen protestieren oder versuchen, die Umsetzung zu verhindern? Würde die Maschine diese Minderheit „im Interesse der Mehrheit“ wegsperren oder gar eliminieren, um die Gesamtzufriedenheit aller Menschen zu maximieren? Würde sie den perfekten Überwachungsstaat schaffen, damit es erst gar nicht zu Protesten kommen kann? Würde sie Abweichler in Umerziehungslager stecken und ihre Gehirne waschen, bis sie ebenfalls zufrieden sind? Oder würde sie uns mit Drogen oder digitalen Vergnügungen betäuben, damit wir ihr nicht dazwischenfunken?

Aus den genannten Gründen hätte ich große Bauchschmerzen, einer solchen superintelligenten Maschine zu vertrauen, auch wenn sie noch so oft behauptet, Stuart Russels drei Prinzipien zu befolgen. Aber ich will nicht bloß meckern, sondern stelle in einem anderen Beitrag meinen eigenen Vorschlag für drei Prinzipien zur Diskussion.

Kommentare: 0