Grundlagen · 17. Februar 2024

Was versteht KI?

Im Januar 2021 hat mir OpenAI mit Dall-E einen Schreck eingejagt – eine KI konnte zum ersten Mal halbwegs überzeugende Bilder auf Kommando generieren. Sieht man sich an, was mit der vorgestern von OpenAI präsentierten generativen KI Sora möglich ist, kann man sich kaum vorstellen, dass das gerade mal drei Jahre her ist.

Sora kann bis zu einer Minute lange Videos generieren, die auf den ersten Blick nicht als KI-generiert erkennbar sind. Die Bewegungen, das Licht, die Kamerafahrten, alles scheint zu stimmen. OpenAI schreibt dazu (von mir übersetzt): „Wir lehren die KI, die physikalische Welt in Bewegung zu verstehen und zu simulieren mit dem Ziel, Modelle zu trainieren, die Menschen helfen können, Probleme zu lösen, die eine Interaktion in der wirklichen Welt benötigen ... Das Modell versteht nicht nur, was der User im Prompt verlangt, sondern auch, wie diese Dinge in der physikalischen Welt existieren.“

Szenenbild aus einem von Sora generierten Video

Eine KI, die die physikalische Welt versteht, wäre in der Tat ein gewaltiger Schritt hin zu einer „starken“ KI auf menschenähnlichem Niveau. Doch schaut man genauer hin, fallen einem einige Ungereimtheiten auf. Im ersten Video auf der OpenAI-Seite bewegt sich das Model überzeugend durch eine nächtliche Straße, doch eine Figur auf dem Zebrastreifen im Hintergrund rechts geht seitwärts, einer weiß gekleideten Figur links scheinen die Arme zu fehlen, außerdem macht sie immer wieder falsche Schritte. In anderen Videos erscheinen Figuren aus dem Nichts und verschwinden wieder. Ein vollständiges Verständnis der Welt scheint Sora also (zum Glück) noch nicht zu haben. Selbst die vergleichsweise simple Minecraft-Welt versteht es nicht ganz, sonst würde das Schwein in dem Beispielvideo nicht rückwärts laufen.

Versteht die KI also in Wahrheit gar nicht, was sie da tut? Ist das alles „bloß Statistik“, wie manche sagen, ein geschicktes Zusammenwürfeln bereits vorhandener Bilder oder Szenen?

Der Psychologe und KI-Experte Gary Marcus, den ich wegen seiner guten Beiträge und seiner kritischen Haltung zu den Urheberrechtsverletzungen durch generative KI sehr schätze, ist jedenfalls davon überzeugt, dass die Fähigkeiten generativer KI wie Sora maßlos überschätzt werden. Er glaubt nicht, dass wir allgemeiner KI schon so nah sind, wie es scheint. Fallen wir also womöglich auf den „Eliza-Effekt“ herein und interpretieren viel zu viel in die eindrucksvoll aussehenden, aber letztlich flachen und bedeutungsleeren Bilder hinein?

Gary Marcus untermauert diese These mit dem Beispiel eines Prompts, bei dem die KI explizit aufgefordert wird, „keinen Elefanten“ darzustellen, was ihr sichtlich schwerfällt. Tatsächlich ist offensichtlich, dass auch Sora oft nicht so genau verstanden hat, was die Entwickler von ihr wollten, wenn man die Prompts mit den Ergebnissen vergleicht. Jeder, der schon mal mit generativen Bild-KIs wie Midjourney gearbeitet hat, kennt das Problem, dass die KI oft etwas zwar hübsch Aussehendes, aber letztlich Unbrauchbares abliefert.

Mich hat das Elefanten-Argument allerdings an ein Phänomen erinnert, das ich schon vor vielen Jahren als Unternehmensberater kennengelernt habe: Versuchen Sie, liebe Leser*in, bitte einmal nicht an einen rosa Elefanten zu denken! Wirklich nicht! Sie dürfen an grüne Giraffen oder blaue Nashörner denken, aber auf keinen Fall an rosa Elefanten!

Wahrscheinlich haben Sie vor Ihrem geistigen Auge zumindest ganz kurz einen rosa Elefanten gesehen. Unsere Fantasie kann nämlich Negationen nicht besonders gut verarbeiten. Die Aufforderung „hab keine Angst“ bewirkt deshalb oft genau das Gegenteil. Zwar wäre ein menschlicher Künstler problemlos in der Lage, ein Bild „ohne Elefant“ zu malen, aber in seiner Fantasie würde er sich wahrscheinlich zuerst ein Bild mit Elefant vorstellen und müsste dann diesen beim Malen bewusst weglassen.

Vielleicht entspricht das, was generative KI heute erzeugen kann, eher einem Bild in unserer Fantasie als dem fertigen Produkt eines Künstlers. Das bedeutet natürlich nicht, dass diese KI-„Fantasie“ irgendwie ähnlich der eines Menschen funktioniert. Aber genau hier liegt das Problem: Wir (und auch die Entwickler bei OpenAI) wissen nicht, was die KI versteht und was nicht. Doch irgendetwas muss sie aus den Trainingsmaterialien darüber gelernt haben, wie sich Objekte bewegen, wie sich die Perspektive bei Kamerafahrten verändert und so weiter. Denn dass all diese Videos ausschließlich durch das neue Zusammenstellen bereits vorhandener Bilder oder Szene entstanden sind, kann man aus mathematischen Gründen sicher ausschließen.

Die kleinen Fehler in den Videos beweisen, dass das Verständnis der KI über die reale Welt lückenhaft ist. Aber das gilt auch für uns Menschen. Auch wir stellen uns vieles falsch vor, was wir nicht im täglichen Leben unmittelbar erfahren können. Wir machen sicher andere Fehler als die KI, wir verstehen zum Beispiel intuitiv, dass Objekte nicht einfach aus dem Nichts entstehen können. Aber daraus zu schließen, dass die KI gar nichts „wirklich“ versteht, ist ein Denkfehler. Es ist sogar möglich, dass sie manche Zusammenhänge besser versteht als wir, ohne dass wir dies jemals herausfinden könnten.

Wie ich erst vor Kurzem geschrieben habe, stumpfen uns die permanenten Verbesserungen der KI ab und wir nehmen Neuerungen wie Sora nicht mehr als spektakuläre Fortschritte wahr, sondern nur noch als einen weiteren logischen Schritt auf einem bereits erkennbaren Weg. Doch das bedeutet leider nicht, dass die Auswirkungen dieser Veränderungen dadurch auch weniger dramatisch werden. Wenn die nächsten drei Jahre ähnliche Verbesserungen in der Leistung der KI bringen wie die letzten drei, dann sind wir, glaube ich, wirklich nicht mehr weit von dem Punkt entfernt, wo uns die Kontrolle über KI endgültig entgleiten könnte.

Nachtrag 21.2.: Heute Nacht ist ChatGPT offenbar "durchgedreht". Auch wenn die Gründe dafür unklar sind und vielleicht ein relativ harmloser technischer Fehler dahintersteckt, ist dies ein weiterer Hinweis darauf, dass wir keine Ahnung haben, was im Inneren der KI eigentlich passiert.

Kommentar schreiben

Kommentare: 13

#1
Heinrich (Samstag, 17 Februar 2024 23:43)

Naja, KI spart der Filmbranche jede Menge Geld!
Es müssen nicht mehr so viele Autos zu Schrott gefahren, und nicht mehr so viele Häuser in die Luft gesprengt werden.
;)
#2
Karl Olsberg (Sonntag, 18 Februar 2024 08:23)

@Heinrich: Vielleicht kriegen wir es ja auch irgendwie hin, dass Kriege nur noch in KI-generierten Videos stattfinden. Das wäre mal echt ein Fortschritt.
#3
Antje (Sonntag, 18 Februar 2024 16:18)

@Karl: Vielleicht kriegen wir es sogar hin, dass vorher schon Leute, die Kriege stiften, um sich zu bereichern, ihre Befriedigung durch Bereicherung auch KI-generiert erhalten - nur zu unserer Sicherheit.
#4
Heinrich (Sonntag, 18 Februar 2024 18:05)

Wir machen uns immer Sorgen darüber, dass es mal eine KI geben könnte, die außer Kontrolle gerät und gegen Menschen vorgeht.
Dabei haben wir auf diesem Planeten schon genug menschliche Hirne, die außer Kontrolle sind und Menschen vernichten. :(
#5
Karl Olsberg (Sonntag, 18 Februar 2024 18:46)

@Antje: Ja, das wäre schön. @Heinrich: Das Problem ist wie üblich nicht KI, sondern MD (menschliche Dummheit). Nur wird die leider durch KI in ihrer Wirkung noch extrem verstärkt. Das ist, es was mir Sorgen macht: Wir sind im Grunde Affen, die immer mächtigere Werkzeuge und Waffen in die Hände bekommen, für deren Beherrschung unsere Gehirne einfach nicht gemacht sind.
#6
Heinrich (Sonntag, 18 Februar 2024 21:49)

Du sagst es! "Werkzeuge und Waffen".
Bevor eine mächtige KI außer Kontrolle gerät und sich gegen die Menschen richtet, werden skrupellose Menschen KIs als Werkzeug und Waffe missbrauchen, um eigene Vorteile zu sichern und anderen zu schaden.
Für Lug und Betrug wird KI ja schon heute benutzt.
#7
Mischa (Dienstag, 20 Februar 2024 18:45)

Hallo zusammen,

es ist wieder einmal das typische Hin und Her zwischen Sensationslust und erwartbarem Fortschritt. Auch wenn die KI Fehler bei der Darstellung unserer Welt macht, ist das Ergebnis doch beeindruckend. Wie Karl sagt, der Schritt von einem generierten Bild zu einer Filmsequenz in drei Jahren ist die wirkliche Sensation.
Viele Menschen können ein Bild malen, aber wie viele könnten einen Trickfilm animieren?

Vielleicht versteht die KI die »reale Welt«, die wir Menschen wahrnehmen noch nicht wirklich, aber wie wir wissen, gibt es noch andere Sichtweisen, z.B. aus dem Tierreich, die von unserer viel weiter abweicht…

Nicht jeder Fortschritt muss ein Quantensprung sein, aber die Quanten werden dem Ganzen sicher auf die Sprünge helfen. ;-)

Gruß
Mischa
#8
Karl Olsberg (Mittwoch, 21 Februar 2024 08:10)

@Mischa: Stimmt! Siehe auch den Nachtrag zu dem merkwürdigen Verhalten von ChatGPT heute Nacht.
#9
Dorit (Dienstag, 27 Februar 2024 13:33)

Gäbe es eine Übersetzung des letzten Links ins Deutsche? Ich kann den Text leider nicht markieren und übersetzen.
#10
Karl Olsberg (Dienstag, 27 Februar 2024 15:14)

@Dorit: Eine Übersetzung gibt es nicht. Aber das würde auch nicht viel bringen, da die Screenshots in Gary Marcus' Beitrag unzusammenhängenden Nonsense ohne jede Logik zeigen, den GPT-4 für kurze Zeit von sich gegeben hat, vergleichbar mit Blindtext oder einer zufällig generierten Wortfolge. Fast, als sie die KI vollkommen betrunken oder bekifft gewesen. :)
#11
Dorit David (Dienstag, 27 Februar 2024 18:54)

Vielleicht eine Stromstörung oder ein Datenengpass oder Überlastungsreizung im Netz, mit Folgen? …ähnlich wie die eines epileptischen Anfalls oder anderer neuronaler überReaktionen.. das wären so meine Assoziationen ohne jegliche fachliche Grundlage.�
#12
Karl Olsberg (Mittwoch, 28 Februar 2024 11:29)

@Dorit: Die genaue Ursache ist unbekannt, aber Stromausfall oder Datenengpass waren es sicher nicht (Daten werden nur während der Trainingsphase benötigt, bei Stromausfall hätte GPT-4 gar nichts gesagt). Eine Hypothese lautet, dass etwas mit dem so genannten "System Prompt" schief gegangen ist, der (angeblich) jedem User-Prompt vorangestellt wird und dafür sorgen soll, dass GPT-4 sinnvoll antwortet. Falls jemand diesen Prompt manuell geändert und dabei einen Fehler gemacht hat, könnte das das seltsame Verhalten erklären, ähnlich wie etwa ein falsches Vorzeichen in normalem Programmcode. Es ist aber unklar, ob das wirklich die Ursache ist.
#13
Dorit (Dienstag, 12 März 2024 08:27)

Interessant. Danke für die PROMPTE Aufklärung ��