Heute habe ich erneut einen Beitrag in englischer Sprache auf dem Forum LessWrong gepostet, das von vielen, die sich für KI-Sicherheit interessieren, zum Austausch genutzt wird. Darin formuliere ich vier Hypothesen zu "unkontrollierbarer" KI:
- Bestimmte Arten von künstlicher Intelligenz (KI) sind unkontrollierbar.
- Eine unkontrollierbare KI, die das falsche Ziel verfolgt, stellt ein existenzielles Risiko dar.
- Es ist unklar, wie das Ziel einer unkontrollierbaren KI so formuliert werden kann, dass ein existenzielles Risiko vermieden wird.
- Eine unkontrollierbare KI könnte bereits vor 2040 technisch möglich sein.
Der vollständig übersetzte Artikel kann unten als PDF heruntergeladen werden. Im Folgenden erläutere ich, warum ich lieber über die Risiken unkontrollierbarer KI spreche als über "starke" KI oder gar "Superintelligenz".
Mit Menschen außerhalb der Community, die sich mit den Risiken zukünftiger KI befasst, über dieses Problem zu reden ist oft frustrierend. Die Reaktionen reichen von Achselzucken bis zu fassungslosem Kopfschütteln und führen nur sehr selten zu einer produktiven inhaltlichen Diskussion. Die Gründe dafür sind vielfältig und ich behaupte nicht, sie schon alle verstanden zu haben. Eines jedoch wird immer wieder deutlich: Wenn, wie allgemein üblich, diese Diskussion mit Begriffen wie "starke" bzw. "allgemeine" KI oder gar "Superintelligenz" verknüpft wird, erschwert das den Dialog ungemein.
Denn erstens sind diese Begriffe sehr vage und zwei Menschen werden darunter leicht zwei verschiedene Dinge verstehen.
Zweitens wird hier der Mensch zum absoluten Maßstab für Intelligenz erhoben und es wird implizit unterstellt, dass wir erst dann existenzielle Probleme bekommen werden, wenn KI dem Menschen in jeder Hinsicht überlegen ist. Das wiederum führt häufig zu der Annahme, dass dieser Zeitpunkt noch sehr weit weg sein müsse. Denn schließlich verstehen wir ja unser eigenes Gehirn noch nicht einmal ansatzweise und sind noch sehr weit davon entfernt, es vollständig im Computer simulieren zu können. Zudem halten manche es für ausgeschlossen, dass Maschinen überhaupt jemals so denken können "wie ein Mensch".
Drittens werden Begriffe wie "starke KI" und erst recht "Superintelligenz" meist mit Science-Fiction verknüpft und deshalb nicht ernst genommen.
Und viertens führt diese Diskussion zu einem Interessenkonflikt, denn schließlich arbeiten ja Firmen wie Deepmind und OpenAI gezielt daran, "allgemeine" KI zu entwickeln, und würden ein Verbot solcher Forschung wohl kaum widerspruchslos hinnehmen. Auch fortschrittsgläubige Politiker und Entscheider tun Sorgen um die Risiken starker KI oft ab, vergleichen diejenigen, die sich damit beschäftigen, mit den Maschinenstürmern des 19. Jahrhunderts oder machen sich darüber lustig.
Deshalb schlage ich vor, nicht über die Risiken "starker" oder "allgmeiner" KI zu reden, sondern über die Gefahren "unkontrollierbarer" KI. "Unkontrollierbar" ist eine KI nach meiner Definition dann, wenn sie in der Lage ist, die weitaus meisten menschlichen Maßnahmen, mit denen ihre Handlungsfähigkeit eingeschränkt oder ihre Enscheidungen korrigiert werden sollen, zu umgehen oder zu konterkarieren. Die folgende Abbildung verdeutlicht das:
Die KI plant Situation A (rot), die Menschen wollen aber Situation B (grün) und korrigieren daher die Entscheidungen der KI. Wenn die KI dies jedoch mit eigenen Gegenmaßnahmen aufheben und somit die von ihr geplante Situation herstellen kann, ist sie unkontrollierbar. Dazu gehört auch, dass wir sie nicht mehr abschalten können, weil die KI Wege findet, uns daran zu hindern.
Über unkontrollierbare KI zu sprechen hat mehrere Vorteile. Einerseits ist dies ein technischer Begriff, der recht einfach definiert werden kann. Andererseits werden damit die meisten der oben genannten Nachteile umgangen. Zudem mahnt schon der Begriff "unkontrollierbar" zur Vorsicht. Auch überzeugte KI-Enthusiasten werden kaum der Aussage widersprechen, dass es gefährlich wäre, eine unkontrollierbare KI zu entwickeln.
Bislang ist allerdings noch unklar, wann und wie genau eine KI "unkontrollierbar" werden könnte. Es erscheint naheliegend, dass eine "superintelligente" KI, die uns intellektuell in jeder Hinsicht weit überlegen wäre, unkontrollierbar wäre - dafür gibt es auch in der Literatur genügend Beweise. Aber das bedeutet umgekehrt nicht, dass eine unkontrollierbare KI zwingend superintelligent sein muss. Vermutlich reicht es aus, wenn sie in einigen Gebieten sehr geschickt ist, wie zum Beispiel darin, Menschen zu durchschauen und zu manipulieren. Einige erste Gedanken dazu finden sich in dem PDF unten und in meinem Beitrag zu möglichen "roten Linien". Hier ist aber noch eine Menge Forschungsarbeit zu leisten.
Es sollte klar sein, dass eine unkontrollierbare KI, die das falsche Ziel verfolgt, eine erhebliche Gefahr für die Zukunft der Menschheit darstellt, also ein existenzielles Risiko wäre. Jedoch ist es auch denkbar, dass eine KI, die das richtige Ziel verfolgt und stets in Einklang mit unseren besten Interessen handelt, uns in eine goldene Zukunft führen könnte, selbst, wenn sie unkontrollierbar wäre. Allerdings liegt hier die Beweislast klar bei demjenigen, der eine solche KI entwickeln will. Ein globaler Bann, unkontrollierbare KI zu entwickeln, sofern diese nicht beweisbar gutartig ist, wäre also ein sinnvoller Schritt.
Selbst ohne einen solchen formalen Bann könnte eine allgemeine Einigkeit darüber, dass unkontrollierbare KI unbedingt vermieden werden muss, das damit verbundene Risiko deutlich reduzieren. Dafür ist es aber erforderlich, noch viel genauer zu erforschen, was genau eine KI unkontrollierbar werden lassen könnte. Ich hoffe, mit meinem Beitrag einen Anstoß für eine solche Forschung gerade auch hier in Deutschland zu geben, und werde mich in Zukunft verstärkt dafür einsetzen.
Der vollständig übersetzte Artikel kann hier heruntergeladen werden:
Kommentar schreiben
Heinrich (Samstag, 15 Oktober 2022 00:16)
Hochachtung Karl, welche Menge Arbeit da drin steckt. Danke, dass Du es auch auf Deutsch zur Verfügung stellst. Das ist trotz unserer Möglichkeiten Übersetzungssoftware zu nutzen, wesentlich angenehmer.
Gruß Heinrich