Stuart Russell hat in seinem Buch „Human Compatible“ drei Prinzipien für gutartige KI formuliert. Ich habe in einem Blogbeitrag Zweifel geäußert, ob diese ausreichen, um eine künstliche
Superintelligenz, die uns geistig weit überlegen ist, zu „bändigen“. Auf die Gefahr hin, mich als Nicht-Fachmann zu weit aus dem Fenster zu lehnen, möchte ich hier drei eigene Regeln vorschlagen,
von denen ich hoffe, dass sie dabei helfen können, das „Value Alignment-Problem“ zu lösen. Sie lauten:
1. Eine Maschine darf niemals ein unbegrenztes Ziel verfolgen.
2. Eine Maschine muss sich an geltende Gesetze halten.
3. Eine Maschine muss tun, was der Nutzer von ihr möchte, sofern dies nicht gegen Regel 1 oder 2 verstößt.
Schauen wir uns diese drei Prinzipien genauer an.
1. Eine Maschine darf niemals ein unbegrenztes Ziel verfolgen.
Schaut man sich die düsteren Legenden an, die sich mit fehlgeleiteten Wünschen beschäftigen, dann haben sie alle eines gemeinsam: Der erfüllte Wunsch verkehrt sich in einen Fluch, weil er
unbegrenzt ist. Hätte König Midas sich „eine Million Goldstücke“ gewünscht, wäre die
Geschichte undramatisch verlaufen. Aber er wollte stattdessen, dass „alles“ zu Gold wird, was er anfasst. Goethes Zauberlehrling beging denselben Fehler: Er beauftragte den Besen, Wasser in die
Wanne zu füllen, ohne ihm zu sagen, wann es genug war, und kannte das Zauberwort für „Stopp, es reicht jetzt“ nicht. Auch Bostroms Büroklammer-Optimierer verfolgt ein unbegrenztes Ziel, das im Endeffekt dazu führt, dass die Erde nur noch aus Büroklammern
besteht.
Mein erstes Prinzip besagt deshalb, vereinfacht gesagt, dass eine Maschine jederzeit wissen muss, wann Schluss ist, wann sie also aufhören soll, ein bestimmtes Ziel zu verfolgen. Das klingt
simpel, ist es in der Praxis aber nicht.
„Stelle eine Million Büroklammern her“ klingt zunächst wie ein klar begrenztes Ziel – sobald die millionste Büroklammer vom Band gelaufen ist, ist Schluss. Doch eine Superintelligenz, die ihren
Job ernst nimmt, würde vielleicht befürchten, dass ihr etwas dazwischenkommen könnte, bevor sie das Ziel erreicht. Zum Beispiel könnten Menschen versuchen, sie abzuschalten, oder der Strom könnte
ausfallen oder es könnte nicht genug Draht am Lager sein oder jemand könnte einen Atomkrieg anfangen, bevor alle Büroklammern fertig sind. Auch eine nachträgliche Änderung ihres Ziels durch die
Menschen müsste die Maschine verhindern, weil dies die Erreichung des ursprünglichen Ziels unmöglich machen würde.
Um all diese Störungen hundertprozentig auszuschließen, müsste die Maschine weitreichende Kontrolle über ihre Umgebung erlangen, im Extremfall sogar die Weltherrschaft anstreben. Das auf den
ersten Blick begrenzte Ziel „mache eine Million Büroklammern“ enthält nämlich implizit das unbegrenzte Ziel „maximiere die Wahrscheinlichkeit, dass du eine Million Büroklammern herstellen
kannst“.
Ein Lösungsansatz für das Unbegrenztheitsproblem liegt paradoxerweise darin, die Maschine im Unklaren darüber zu lassen, was genau ihr Ziel ist. Deshalb formuliert Stuart Russell sein zweites
Prinzip, das die „Maximierung der Verwirklichung menschlicher Werte“ schwieriger macht, weil sie nicht genau weiß, was diese Werte sind. Eine superintelligente Maschine, die nicht genau weiß, was
von ihr erwartet wird, könnte von selbst darauf kommen, dass die Menschen nicht wirklich den ganzen Planeten in Büroklammern verwandelt haben wollen, sie also etwas anderes gemeint haben müssen,
als sie ihr sagten „Mache so viele Büroklammern wie möglich“.
Meine erste Regel soll in ähnlicher Weise bewirken, dass die Maschine das ihr von Menschen gegebene Ziel aktiv hinterfragt. Wenn jemand ihr den Auftrag „stelle Büroklammern her“ gibt, sollte sie
nachfragen: „Wie viele? Wann brauchst du sie? Und wie hoch muss die Wahrscheinlichkeit dafür sein, dass die Büroklammern dann auch wirklich fertig sind?“ Sie könnte auch fragen: „Wäre es für dich
okay, wenn ich kurz die Weltherrschaft übernehme, damit die Büroklammern rechtzeitig fertig werden?“
Wichtig ist, dass die Maschine einschätzen kann, ob die Zielfunktion, die sie verfolgt, begrenzt ist. Dies ist der Fall, wenn es realistische Bedingungen gibt, unter denen das Ziel erreicht ist.
„Realistisch“ bedeutet hier, dass das Ziel mit einer hinreichenden Wahrscheinlichkeit, in begrenzter Zeit und mit verfügbaren Ressourcen erreicht werden kann. Bei Zielen wie „maximiere ...“ oder
„optimiere ...“ ist das nicht der Fall, denn das absolute Maximum oder Optimum einer Zielfunktion kann in der Realität kaum je erreicht werden, es geht immer irgendwie noch mehr oder noch besser.
Folgt die Maschine meinem Prinzip, würde sie solche Ziele ablehnen und um Klärung bitten, wann genau es „genug“ ist. Sie muss also selbst dafür sorgen, dass aus einem unklaren oder unbegrenzten
Ziel ein klar begrenztes wird und sie weiß, wann sie aufhören soll.
Natürlich ist es nicht immer sinnvoll, dass eine Maschine einen Auftrag ausführt und dann einfach stoppt und auf neue Anweisungen wartet. Eine Heizungssteuerung zum Beispiel soll die Temperatur
im Wohnbereich innerhalb bestimmter Grenzen halten. Es wäre nicht sehr praktisch, wenn ein Mensch sie jedes Mal neu starten müsste, sobald sie die Temperatur einmal in den gewünschten Bereich
geregelt hat. Das Starten und Abschalten des Heizungsprozesses übernimmt die Maschine hier selbst, da sie das Ziel hat: „Sorge dafür, dass die Temperatur im gewünschten Bereich bleibt, und
verhalte dich passiv, so lange das der Fall ist.“ Dieses Ziel ist zwar kontinuierlich, aber nicht unbegrenzt (solange die Maschine die Erreichung dieses Ziels nur mit einer begrenzten
Wahrscheinlichkeit anstrebt). Die Maschine greift ein, solange sich die Temperatur außerhalb der gewünschten Grenzwerte bewegt, und bleibt passiv, sobald die Wunschtemperatur erreicht ist.
Bei der praktischen Implementierung meiner ersten Regel gibt es immer noch eine Menge Probleme, auf die ich hier nicht näher eingehen kann. Doch auch, wenn man diese lösen kann, ist noch nicht
alles „im grünen Bereich“. Denn eine superintelligente Maschine könnte auf unkonventionelle Lösungen verfallen, um ihr Ziel zu erreichen. Bostroms Büroklammerautomat könnte beispielsweise zu dem
Schluss kommen, dass es einfacher ist, die gewünschten Büroklammern bei der Konkurrenz zu stehlen, anstatt sie selber zu produzieren. Deshalb brauchen wir eine weitere Beschränkung des
„Entscheidungsraums“ der Maschine.
2. Eine Maschine muss sich an geltende Gesetze halten.
Wenn man aus der Geschichte der Menschheit eines lernen kann, dann, dass es eine schlechte Idee ist, einem einzelnen Menschen nahezu unbegrenzte Macht zu übertragen. Diktaturen und Autokratien
führen unweigerlich früher oder später zu Kriegen oder Unterdrückung und Rebellion. Deshalb hat die Menschheit den Rechtsstaat erfunden, der auf dem Prinzip der Gewaltenteilung basiert:
Gesetzgebung (Legislative), Umsetzung der Gesetze (Exekutive) und Rechtsprechung (Judikative) sind strikt voneinander getrennt. Zugegeben, Demokratien sind nicht unangreifbar, und auch in
Rechtsstaaten geschieht Unrecht. Aber im Vergleich zu den Alternativen ist das Prinzip der Gewaltenteilung klar überlegen.
Natürlich kann man aus den leidvollen Erfahrungen der Menschheit keine direkten Schlussfolgerungen in Bezug auf die Auswirkungen starker KI ziehen. Doch es erscheint mir vernünftig, anzunehmen,
dass eine superintelligente KI, die über unbeschränkte Macht verfügt, gefährlicher ist als eine, die sich in ein System der Gewaltenteilung fügen muss. Deshalb schlage ich vor, zu prüfen, wie KIs
selbst in die Lage versetzt werden können, die Rechtmäßigkeit ihrer Entscheidungen zu beurteilen.
Das ist keineswegs trivial. Denn ob eine Entscheidung möglicherweise eines der vielen nationalen und internationalen Gesetze und Vorschriften bricht, ist oft nicht einfach zu entscheiden. Die
Maschine muss dazu die Folgen ihrer Handlungen einschätzen können. Hinzu kommt, dass Gesetze oft vage formuliert sind.
In Artikel 1 des Grundgesetzes heißt es beispielsweise: „Die Würde des Menschen ist unantastbar.“ Aber was genau ist „die Würde des Menschen“? Und wann und wie wird sie „angetastet“? Darüber hat
es etliche juristische Auseinandersetzungen gegeben. Gerichte wurden angerufen, haben Urteile gefällt und diese in Schriften begründet, die viel ausführlicher sind als das Gesetz selbst. Die
Urteile wurden angefochten und teilweise aufgehoben. Manches ist immer noch ungeklärt. Es gibt dicke Bücker darüber, was Artikel 1 genau bedeutet. Entscheidend ist dabei, was der Gesetzgeber mit
dem Artikel „gemeint hat“. Denn Gesetze können niemals rein wörtlich interpretiert werden, sie sind immer in einem Gesamtkontext zu bewerten.
Diese Ungenauigkeit ist kein Fehler unseres Rechtssystems, sondern eine Stärke. Zwar macht sie es manchmal schwer, zu entscheiden, ob etwas Unrecht ist oder nicht. Aber dafür schafft sie
die nötige Flexibilität, um die Gesetze auch auf komplizierte und außergewöhnliche Fälle anzuwenden, und schließt Schlupflöcher, beispielsweise durch Technologien, die zum Zeitpunkt, als das
Gesetz geschaffen wurde, noch gar nicht existierten. Die Unschärfe des Rechtssystems erfüllt aus meiner Sicht denselben Zweck wie die Unsicherheit über die exakten Ziele aus Russells zweitem
Prinzip: Sie macht die Entscheidungen der KI schwieriger und zwingt sie dazu, vorsichtiger zu sein. Denn sie kann niemals ganz sicher sein, wie ein Richter über ihre Entscheidungen urteilen
wird.
Der wesentliche Unterschied zwischen meinem und Russells Denkansatz ist, dass in meinem Fall die Gesetzgebung und Rechtsprechung explizit geregelt sind und außerhalb des direkten Einflussbereichs
der Maschine liegen, während eine KI nach den Russell-Prinzipien ihre „Gesetze“ selbst implizit aus den Handlungen der Menschen ableitet. Es ist nicht sicher, welcher Ansatz insgesamt zu einem
besseren Ergebnis führt – es wäre durchaus denkbar, dass eine starke KI gerechtere Entscheidungen trifft als die besten Richter. Aber das Prinzip der Gewaltenteilung ist insofern sicherer, als
wir mehr Kontrolle über die Regeln behalten, nach denen starke KIs entscheiden.
Es gibt noch einen weiteren Vorteil. So, wie in unserem Rechtssystem spezialisierte Anwälte und Richter daran arbeiten, Streits zu schlichten und Gesetze zu interpretieren, könnte es auch
spezialisierte KIs geben, deren Aufgabe es ist, Gesetzesverstöße anderer KIs zu erkennen und gegebenenfalls zu ahnden. Einer superintelligenten KI würden somit nicht bloß „dumme“ Menschen
gegenüberstehen, sondern andere superintelligente KIs – ähnlich wie heute „böse“ Virenprogramme mit „guter“ Virenschutzsoftware bekämpft werden können, ohne dass der Nutzer verstehen muss, wie
die Viren genau funktionieren. Spezialisierte KIs könnten auch als Ratgeber agieren. Bostroms Büroklammeroptimierer könnte beispielsweise seine Anwalts-KI fragen, ob es in Ordnung ist, die
Büroklammern bei der Konkurrenz zu stehlen.
Natürlich bietet auch dieser Ansatz keine hundertprozentige Sicherheit. Schließlich schaffen auch wir Menschen es immer wieder, Gesetzeslücken zu finden oder die Gesetze zu brechen. Eine
superintelligente KI könnte zudem versuchen, die Gesetze in ihrem Sinne zu ändern. Doch das ist wesentlich schwieriger und langwieriger, als die Gesetze einfach zu ignorieren.
Höchstwahrscheinlich würden die meisten KIs zu dem Schluss kommen, dass es einfacher für sie ist, ihre Ziele zu erreichen, wenn sie sich an die Gesetze halten.
Was aber passiert, wenn eine Maschine Vorschriften missachtet? Können wir sie irgendwie dafür bestrafen? Ja. Dafür sind verschiedene Ansätze denkbar. Der Naheliegendste ist der heute bereits
praktizierte: Wenn eine Maschine Schaden anrichtet, ist derjenige Mensch haftbar, der für sie verantwortlich ist. Er hat also ein Interesse daran, die Maschine so einzusetzen, dass kein Schaden
entsteht und keine Gesetze gebrochen werden, und eine KI, die seinen Willen erfüllen will, würde sich entsprechend verhalten. Eine superintelligente KI könnte aber durchaus auch direkt bestraft
werden, zum Beispiel durch zeitweilige oder permanente Deaktivierung. Dies würde es ihr schwerer oder unmöglich machen, ihre Ziele zu erreichen. Sie würde diese Möglichkeit daher bereits bei der
Entscheidungsfindung berücksichtigen und solche Lösungswege bevorzugen, bei denen das Risiko, „bestraft“ zu werden, sehr gering ist. Noch effektiver ist es, die „Strafen“ in Form von negativen
Werten bereits bei der Festlegung der Ziele vorwegzunehmen, so dass die Maschine illegale Aktionen von sich aus vermeidet.
Auch das zweite Prinzip beinhaltet noch viele ungelöste Fragen. Unser Rechtssystem müsste erst einmal „maschinentauglich“ gemacht werden. Und es stellt sich die Frage, ob Maschinen, die
rechtliche Pflichten haben, nicht auch Rechte haben müssen. Darauf werde ich in einem späteren Beitrag näher eingehen.
3. Eine Maschine muss tun, was der Nutzer von ihr möchte, sofern dies nicht gegen Regel 1 oder 2 verstößt.
Während Stuart Russell dafür plädiert, dass die Maschine den Willen ihrer Auftraggeber implizit durch Beobachtung ihres Verhaltens ermittelt und befolgt, halte ich es für besser, dass sie tut,
was wir ihr sagen. Wie ich bereits dargelegt habe, sehe ich in der
impliziten Ableitung von Zielen die Gefahr von Fehlinterpretationen und unauflösbarer Zielkonflikte zwischen verschiedenen menschlichen Interessengruppen. Außerdem entspricht es dem oben
erwähnten Prinzip der Gewaltenteilung, dass nicht die Exekutive (die KI) die Ziele festlegt, sondern das „Volk“, also die Nutzer. Jeder Diktator hat stets behauptet, „im Interesse des Volkes“ zu
handeln. Doch wir haben gelernt, dem nicht zu trauen, und führen stattdessen Wahlen durch: Die Parteien legen ihre Programme mit entsprechenden Entscheidungsvorschlägen vor und die Menschen
stimmen darüber ab.
Ein solches Vorgehen könnte man durchaus auf starke KIs übertragen. Diese könnten ihren Nutzern unterschiedliche Handlungsalternativen vorschlagen und die Nutzer könnten entscheiden, welche sie
bevorzugen. Oft genügt es aber schon, wenn der Nutzer eine konkrete Anweisung gibt. Den Befehl „bring mir einen Kaffee“ würde die Maschine nach meinem dritten Prinzip ausführen können, ohne
darüber nachzudenken, ob sie ihre Zeit nicht lieber mit der Linderung des Hungers in Afrika verbringen sollte, solange sie dabei keine Gesetze bricht und den Aufwand fürs Kaffeeholen nicht
übertreibt. Das muss für die gesamte Menschheit nicht optimal sein, aber es würde den Umgang mit superintelligenten KIs einfacher machen. Zudem vermeiden wir so das Problem, dass die Maschine
„macht, was sie will“ und es daher wirtschaftlich unattraktiv wäre, eine entsprechend altruistische Maschine überhaupt zu bauen.
Auch damit sind noch längst nicht alle Probleme gelöst. Die Maschine könnte zum Beispiel die Anweisungen des Menschen kritiklos ausführen und Schaden anrichten, der nicht durch entsprechend
vorausschauende Gesetze verhindert wird. Aus Mangel an Superintelligenz sind alle Maschinen, die wir bis jetzt gebaut haben, in diesem Sinne folgsam: Sie tun genau das, was wir von ihnen
verlangen. Dass sie damit zum Beispiel zur Erderwärmung beitragen, kümmert sie nicht, und wir haben noch nicht die geeigneten Gesetze, um sie bzw. ihre Betreiber daran zu hindern.
Vielleicht können wir eines Tages superintelligente KIs bauen, die unserem Willen gehorchen, sich an die Gesetze halten und nicht über die Stränge schlagen und aus Versehen die Welt zerstören.
Doch sie werden dann nicht verhindern können, dass wir uns mit unserer eigenen Dummheit zugrunde richten.
Kommentar schreiben
Erland Wittkotter (Mittwoch, 09 November 2022 11:00)
Greetings,
Alternatively: humans remain accountable (responsible) for what AI is doing for them - AI remains a tool for humans and not a person with its own rights -- then rules 1-3 are guardrails or product safety features
My problem with your approach is that you assume a high degree of autonomy and independence from humans, groups/organizations, or nations. That is certainly possible, but there is still product liability that would put limits on what commercial manufacturers can deliver.
If we accidentally release super-smart AI, well, forget your rules. They may be active or not (no one knows).
FYI: I read your post on uncontrollable AI on lesswrong -- However, I'm afraid I disagree with how you narrow the funnel for solutions. I wrote myself 3 posts related to Hacker-AI on lesswrong -- I believe an out-of-control AI is malware and could be dealt with as such -- I know (current) cybersecurity would be incapable of dealing with it. Still, I discussed solutions (proactive, preventative, redundant) cybersecurity that could deliver a security overkill (low-level, unnoticeable for users) that could, in its 2nd stage (with special hardware security support), also solve problems with an "uncontrolled" AI.
I am aware of the "proofs" of uncontrollability -- but they have oversimplified assumptions that can be invalidated with some preventative measures. Super-smart AI is bound by the laws of nature -- and we can create protection that is safe based on 1st principles (hardware).
If you are interested, we could talk -- (I am German, but I use a US keyboard -- so wring in English is so much easier.)
Erland
Karl Olsberg (Mittwoch, 09 November 2022 11:04)
@Erland Wittkotter: Danke für den Kommentar! Ich stimme dir in Bezug auf diesen Artikel und meine drei Regeln zu. Inzwischen glaube ich auch nicht mehr, dass diese drei Regeln funktionieren würden. Ich habe schon darüber nachgedacht, diesen Beitrag zu löschen, weil er nicht mehr meine aktuelle Sicht wiedergibt. Aber über einen Kommentar ist es wahrscheinlich sinnvoller.
Deine Meinung zu unkontrollierbarer KI interessiert mich. Ich werde dich dazu noch mal direkt kontaktieren.