Der KI-Hype der letzten zwei Jahre basierte vor allem auf den Fortschritten der „generativen KI“, die aus vorhandenen Daten neue Inhalte wie Texte, Bilder oder Videos generiert. Jeder kennt inzwischen ChatGPT, den Chatbot, der in Sekundenschnelle auf alle erdenklichen Fragen antworten kann. Doch immer mehr KI-Experten halten solche Sprachmodelle für eine Sackgasse, wenn nicht sogar für den falschen Ansatz.

Sprachmodelle wie ChatGPT basieren im Kern darauf, das wahrscheinlichste nächste Token (eine Texteinheit) in einem Text vorherzusagen. Dank immer mehr Trainingsdaten und immer höherer Rechenleistung liefern ChatGPT & Co. immer bessere Ergebnisse. Sprachmodelle können heute nicht nur brauchbare Texte schreiben, sie verfügen auch über praktisch das gesamte Wissen der Menschheit, sofern es irgendwo im Internet zu finden ist. Und doch fehlt ihnen bisher etwas Entscheidendes – das Verständnis der physischen Welt.

Wir Menschen wissen, wie die Welt funktioniert: dass eine Tasse zerbricht, wenn sie zu Boden fällt. Wie man mit einem Hammer einen Nagel einschlägt. Dass ein Auto am Straßenrand kein Verkehrsschild sein kann. All das ist für uns selbstverständlich, ohne dass wir dafür Millionen Beispiele bräuchten. Genau dieses Verständnis fehlt aber den Sprachmodellen, die die „Welt“ nur aus den Texten kennen, mit denen sie trainiert wurden. Wer mit der realen Welt sinnvoll umgehen will, muss sich in ihr zurechtfinden, von der räumlichen Orientierung bis zu Bewegungsabläufen. Das kann jedes Kind – aber nicht ChatGPT.