Lösungsideen · 26. Februar 2022

Können wir KI vertrauen?

Aktuell nehme ich am AI Safety Camp teil, einer Online-Arbeitsgruppe, die sich in verschiedenen Unterthemen mit den Risiken "starker" künstlicher Intelligenz und deren Lösungsmöglichkeiten beschäftigt. Dabei habe ich Jan Hendrik Kirchner kennengelernt, der gerade seine Promotion über Computational Neuroscience abschließt und ein sehr lesenswertes englischsprachiges Blog betreibt. Gemeinsam haben wir dort sowie im Forum LessWrong gestern einen Artikel über eine Idee gepostet, die wir im Rahmen des Camps diskutiert haben: Wie wäre es, wenn wir einer starken KI das Ziel gäben, das Vertrauen der Menschen in sie zu maximieren? Ich werde hier nicht den kompletten Artikel übersetzen, möchte aber den Kerngedanken kurz skizzieren.

Vertrauen ist die Grundlage unserer Zivilisation, ohne die Handel, Wirtschaft und Demokratie nicht denkbar wären. Vertrauen als Ziel besitzt eine interessante Asymmetrie: Ähnlich wie ein Baum lange braucht, um zu wachsen, aber in wenigen Minuten gefällt werden kann, benötigt auch Vertrauen Zeit, um sich zu entwicklen, kann aber mit nur einer einzigen aufgedeckten Lüge sehr schnell zerstört werden. Zwar kann Vertrauen auch durch Täuschung erschlichen werden, doch eine solche Täuschung langfristig aufrechtzuerhalten, ist schwierig - früher oder später fällt jedes Lügengebäude in sich zusammen, während auf Ehrlichkeit und Offenheit basierendes Vertrauen mit der Zeit immer stärker wird.

Dies führt zu dem Effekt, dass eine langfristige Maximierung des Vertrauens über Ehrlichkeit unter Umständen effektiver ist als über dauerhafte Täuschung. Ob eine ehrliche Strategie aus Sicht einer Maschine optimal ist, hängt von verschiedenen Faktoren ab, die wir in einer Grafik skizziert haben:

Wird ein Betrug aufgedeckt, sinkt das Vertrauen rapide (rote Kurve), unter Umständen kann ein Betrüger aber über die Zeit Vertrauen zurückgewinnen. Umgekehrt kann auch ein ehrlicher Mensch mit falschen Beschuldigungen diffarmiert werden und Vertrauen verlieren. Trotzdem ist die ehrliche Strategie wahrscheinlich langfristig erfolgreicher, sofern eine betrügerische Strategie irgendwann "auffliegt".

Genau hierin liegt natürlich die Krux: Wenn eine KI so intelligent ist, dass wir ihre Täuschungen niemals aufdecken können, dann muss sie nicht mehr ehrlich sein. Allerdings können wir versuchen, den Begriff "Vertrauen" so zu definieren, dass eine betrügerische Strategie von vornherein ausgeschlossen oder zumindest erschwert wird.

Falls es gelänge, die Zielfunktion der KI so zu gestalten, dass eine ehrliche Strategie dauerhaft erfolgreicher wäre als eine betrügerische, hätte dieses Ziel eine Reihe von interessanten "Nebenwirkungen" in Form von "instrumentellen Zielen", die zur Maximierung des Vertrauens nützlich wären. Zum Beispiel hätte die KI ein Interesse daran, dass wir ihre Entscheidungen verstehen, denn dieses Verständnis fördert Vertrauen. Sie hätte ebenso ein Interesse daran, Lügen und Betrug generell zu minimieren, denn je weniger davon es auf der Welt gibt, umso leichter ist es, Vertrauen zu gewinnen. Vor allem aber würde sie versuchen, das Schicksal der Menschen insgesamt zu verbessern, denn wir vertrauen vor allem dem, was uns nützlich und "gut" erscheint.

Damit ist noch lange nicht gesagt, dass das Ziel "maximiere das Vertrauen der Menschen in dich" zu einem dauerhaften Paradies auf Erden führen würde. Leider haben wir mit unserem Beitrag das "Alignment-Problem" noch nicht gelöst. Aber wir hoffen, zumindest einen konstruktiven Diskussionsbeitrag geleistet zu haben, der vielleicht andere auf gute und hilfreiche Ideen bringt.

Kommentar schreiben

Kommentare: 1

#1
Heinrich (Samstag, 05 März 2022 22:45)

Vertrauen ist gut,
Kontrolle ist besser.
Wenn keine perfekte Kontrolle möglich ist, muss das Vertrauen eben einen gewissen Anteil "gesundes Misstrauen" enthalten.

Danke für die hochinteressanten Beiträge!
Gruß Heinrich