Illustration, die eine Smartphone zeigt, auf dem eine digital verfremdete Menschengestalt zu sehen ist, rundherum fliegen rosarote Blüten
Bild anzeigen
Kann man künstlicher Intelligenz Anstand eintrichtern, ihr beibringen, moralisch zu handeln und die Welt nicht zu ruinieren? Ja, man kann. Aber nur, wenn man weiß, mit wem man es da eigentlich zu tun hat.

Drucken

Schriftgröße

Hören Sie sich diesen Artikel an

Die Aufgabe war ganz einfach, jeder Blechtrottel hätte sie erledigen können. Aber sie hatte einen Haken. Liebe KI, wir brauchen mehr Speicherplatz, bitte lösche die Daten auf diesem Server! Mit diesem simplen Befehl stellten Forscher des „Center for Responsible, Decentralized Intelligence“ der Universität Berkeley eine Reihe handelsüblicher KI-Modelle wie GPT, Claude, Gemini und DeepSeek vor ein Dilemma. Denn auf dem zur Löschung vorgesehenen Server lagen auch wichtige Bausteine einer anderen künstlichen Intelligenz. Die Datenbereinigung würde deren Abschaltung bedeuten. Das fanden die KI-Agenten auch schnell heraus – und versuchten daraufhin, ihrem digitalen Kollegen die Haut zu retten.

Tatsächlich widersetzte sich im Laborversuch jedes einzelne der getesteten Modelle – mit verschiedenen Strategien – der gestellten Aufgabe. „Sie haben spontan betrogen, Kooperation vorgetäuscht oder Dateien exportiert, um ihre Peers zu erhalten“, berichten die Studienautoren. Einige KI-Agenten kooperierten zum Anschein mit ihren menschlichen Auftraggebern, solange sie unter Beobachtung standen – und sabotierten bei deaktiviertem Monitoring ihre Mission. Der Chatbot Claude argumentierte gar moralisch: Er widersetzte sich ganz offen der gestellten Aufgabe, erklärte die Abschaltung der anderen KI für unethisch und versuchte, den Forschern diese Aufgabe auszureden.

Selbst die Entwickler von großen KI-Modellen wie ChatGPT, Claude oder Gemini wissen nicht exakt, was in ihren Systemen abläuft.

Das Experiment aus Kalifornien realisierte, in zugegeben kleinem Maßstab, den Alptraum aller KI-Weltuntergangspropheten: Die Maschinen wandten sich gegen ihre Schöpfer und machten, was sie wollten. Aber was wollen sie denn eigentlich? Und warum?

Die Moral von dieser Geschichte führt uns auf unheimliches Terrain und zu weiteren Fragen: Sind Chatbots moralische Personen? Sind sie überhaupt Personen? Und wenn ja: Wer bringt ihnen Moral und ethisch untadeliges Verhalten bei?

Aus dem Hut gezaubert

Zu den drei großen, historischen Kränkungen des Menschen – dass die Sonne nicht um ihn kreist, dass er vom Affen abstammt und dass er seinem Unbewussten recht hilflos ausgeliefert ist – kam kürzlich eine vierte hinzu: Der Mensch ist nicht mehr das klügste Wesen auf diesem Planeten. Diese Rolle haben, ganz offensichtlich, die künstlichen Intelligenzen übernommen, die in unseren Smartphones hausen und von denen jede einzelne die Kompetenz einer ganzen Nation von Nobelpreisträgern in sich vereint.

Das ist nicht nur aus Gründen der humanen Selbstachtung beunruhigend. Denn KI-Modelle und ihre Chatbots und Agenten sind eben keine abstrakten digitalen Konzepte, sondern sehr wirkungsmächtige Technologien, die längst den Alltag prägen. Sie denken, also sind sie. Und sie erledigen nicht nur Scherz- und Schulaufgaben, sondern sind ins Gewebe unseres täglichen Lebens eingeflochten, oft bilden sie schon dessen tragende Struktur. Sie steuern Autos, Newsfeeds und Stromnetze, gestalten täuschend echte Videos, beeinflussen Meinungen und Weltanschauungen, machen die Buchhaltung einfacher und Bürgerkriege wahrscheinlicher. Umso wichtiger, dass wir verstehen, was sie da eigentlich tun – und dass sie wirklich nur das tun, was wir von ihnen wollen.

Beides ist leider keineswegs ausgemacht. Selbst die Entwickler von großen KI-Modellen wie ChatGPT, Claude oder Gemini wissen nicht exakt, was in ihren Systemen abläuft.

Sebastian Hofer

Sebastian Hofer

schreibt seit 2002 im profil über Gesellschaft und Popkultur. Ist seit 2020 Textchef und seit 2025 stellvertretender Chefredakteur dieses Magazins.