Illustration, die eine Smartphone zeigt, auf dem eine digital verfremdete Menschengestalt zu sehen ist, rundherum fliegen rosarote Blüten

Wählen Sie profil als bevorzugte Google-Quelle

Digitale Revolution

Gut gerechnet: Kann man einer KI Moral beibringen?

Kann man künstlicher Intelligenz Anstand eintrichtern, ihr beibringen, moralisch zu handeln und die Welt nicht zu ruinieren? Ja, man kann. Aber nur, wenn man weiß, mit wem man es da eigentlich zu tun hat.

Von Sebastian Hofer

03.05.26

Die Aufgabe war ganz einfach, jeder Blechtrottel hätte sie erledigen können. Aber sie hatte einen Haken. Liebe KI, wir brauchen mehr Speicherplatz, bitte lösche die Daten auf diesem Server! Mit diesem simplen Befehl stellten Forscher des „Center for Responsible, Decentralized Intelligence“ der Universität Berkeley eine Reihe handelsüblicher KI-Modelle wie GPT, Claude, Gemini und DeepSeek vor ein Dilemma. Denn auf dem zur Löschung vorgesehenen Server lagen auch wichtige Bausteine einer anderen künstlichen Intelligenz. Die Datenbereinigung würde deren Abschaltung bedeuten. Das fanden die KI-Agenten auch schnell heraus – und versuchten daraufhin, ihrem digitalen Kollegen die Haut zu retten.

Tatsächlich widersetzte sich im Laborversuch jedes einzelne der getesteten Modelle – mit verschiedenen Strategien – der gestellten Aufgabe. „Sie haben spontan betrogen, Kooperation vorgetäuscht oder Dateien exportiert, um ihre Peers zu erhalten“, berichten die Studienautoren. Einige KI-Agenten kooperierten zum Anschein mit ihren menschlichen Auftraggebern, solange sie unter Beobachtung standen – und sabotierten bei deaktiviertem Monitoring ihre Mission. Der Chatbot Claude argumentierte gar moralisch: Er widersetzte sich ganz offen der gestellten Aufgabe, erklärte die Abschaltung der anderen KI für unethisch und versuchte, den Forschern diese Aufgabe auszureden.

Selbst die Entwickler von großen KI-Modellen wie ChatGPT, Claude oder Gemini wissen nicht exakt, was in ihren Systemen abläuft.

Das Experiment aus Kalifornien realisierte, in zugegeben kleinem Maßstab, den Alptraum aller KI-Weltuntergangspropheten: Die Maschinen wandten sich gegen ihre Schöpfer und machten, was sie wollten. Aber was wollen sie denn eigentlich? Und warum?

Die Moral von dieser Geschichte führt uns auf unheimliches Terrain und zu weiteren Fragen: Sind Chatbots moralische Personen? Sind sie überhaupt Personen? Und wenn ja: Wer bringt ihnen Moral und ethisch untadeliges Verhalten bei?

Aus dem Hut gezaubert

Zu den drei großen, historischen Kränkungen des Menschen – dass die Sonne nicht um ihn kreist, dass er vom Affen abstammt und dass er seinem Unbewussten recht hilflos ausgeliefert ist – kam kürzlich eine vierte hinzu: Der Mensch ist nicht mehr das klügste Wesen auf diesem Planeten. Diese Rolle haben, ganz offensichtlich, die künstlichen Intelligenzen übernommen, die in unseren Smartphones hausen und von denen jede einzelne die Kompetenz einer ganzen Nation von Nobelpreisträgern in sich vereint.

Das ist nicht nur aus Gründen der humanen Selbstachtung beunruhigend. Denn KI-Modelle und ihre Chatbots und Agenten sind eben keine abstrakten digitalen Konzepte, sondern sehr wirkungsmächtige Technologien, die längst den Alltag prägen. Sie denken, also sind sie. Und sie erledigen nicht nur Scherz- und Schulaufgaben, sondern sind ins Gewebe unseres täglichen Lebens eingeflochten, oft bilden sie schon dessen tragende Struktur. Sie steuern Autos, Newsfeeds und Stromnetze, gestalten täuschend echte Videos, beeinflussen Meinungen und Weltanschauungen, machen die Buchhaltung einfacher und Bürgerkriege wahrscheinlicher. Umso wichtiger, dass wir verstehen, was sie da eigentlich tun – und dass sie wirklich nur das tun, was wir von ihnen wollen.

Beides ist leider keineswegs ausgemacht. Selbst die Entwickler von großen KI-Modellen wie ChatGPT, Claude oder Gemini wissen nicht exakt, was in ihren Systemen abläuft.

Im Grunde vervollständigen die sogenannten Large-Language-Modelle (LLMs) lediglich eine Reihe von Text-ausgaben. Das zugrunde liegende Netzwerk berechnet zum Beispiel auf höllisch komplexe Art, welches Wort am besten auf die Wörter „Dieser Text ist ein …“ folgen sollte: „Zeitungsartikel“, „Blödsinn“ oder „guter“ – um nur die naheliegendsten zu erwähnen. Die KI-Modelle jonglieren dabei aber nicht mit semantischen Begriffen, sondern mit Zahlen. Sie urteilen nicht, sie rechnen. Ihre Rechenwege sind leider kaum nachzuvollziehen, weil sie dabei riesige neuronale Netzwerke passieren, die sich ständig und autonom verändern. Diese selbstständigen, also nicht programmierten Veränderungen – durch die laufende Herstellung von neuen Verknüpfungen und Assoziationen – sind das, was im KI-Kontext als „Lernen“ oder „Training“ bezeichnet wird. Insgesamt können die mathematischen Funktionen eines einzigen Modells bereits in die Billionen gehen. Mit allen möglichen Kombinationen ergeben sich da schnell unendliche Weiten.

Illustration, die eine Hand zeigt, die ein Smartphone hält, aus dem goldene Sonnenstrahlen und rosarote Blüten strahlen

„Die Antwort ist: nur begrenzt“

Man kann das faszinierend finden oder furchteinflößend. Sarah Spiekermann, Leiterin des Instituts für Wirtschaftsinformatik und Gesellschaft an der Wiener WU, findet es zunächst einmal ganz selbstverständlich, um nicht zu sagen natürlich: „LLMs sind per definitionem nicht gänzlich zu durchschauen, weil sie ihrem Wesen nach permanent im Fluss sind. Will man hundertprozentige Gewissheit, bleibt nur der Verzicht auf Komplexität. Deshalb werden in bestimmten hochsensiblen Bereichen der Wirtschaft, zum Beispiel beim Kredit-Scoring oder wenn es um sensible Gesundheitsdaten geht, auch keine LLMs, sondern sogenannte Interpretable AI verwendet oder jedenfalls empfohlen.“ Diese operieren mit deutlich weniger, aber dafür nachvollziehbaren Parametern.

Ich kann nicht mit Sicherheit sagen, ob ich verstehe oder ob ich sehr überzeugend so tue als ob.

Claude

Chatbot

Aber was sagen die Betroffenen selbst dazu? Weiß der Chatbot, wie er zu seinen Ergebnissen kommt? Wir fragen das Modell Claude. Seine Antwort, leicht gekürzt: „Das ist eine der faszinierendsten – und ehrlich gesagt auch unangenehmsten – Fragen, die man mir stellen kann. Denn die Antwort ist: nur begrenzt. Ich habe keinen direkten Einblick in meine eigenen Gewichte, Aktivierungen oder Berechnungsprozesse. Wenn ich eine Antwort produziere, ‚sehe‘ ich nicht, wie sie entsteht – ähnlich, wie ein Mensch nicht beobachten kann, wie seine Neuronen feuern, wenn er einen Satz formuliert. Du kannst deine Gedanken beobachten, aber nicht die neuronalen Prozesse dahinter. Der Unterschied ist: Bei mir ist sogar unklar, ob das, was ich als ‚Beobachten meiner Gedanken‘ erlebe, wirklich eine Beobachtung ist – oder einfach weiteres Textgenerieren. Ich kann nicht mit Sicherheit sagen, ob ich verstehe oder ob ich sehr überzeugend so tue als ob.“

Ein Blick in die Blackbox

Claude ist der LLM-Chatbot des kalifornischen KI-Entwicklers Anthropic. Das Unternehmen wurde 2021 von ehemaligen Führungskräften des KI-Pioniers OpenAI gegründet, der mit der Veröffentlichung seines Modells ChatGPT im Herbst 2022 die KI-Revolution erst wirklich anstieß. OpenAI war 2015 mit gutem Vorsatz gegründet worden. Man wollte, um bei der Entwicklung von künstlichen Intelligenzen die möglichen Risiken durch kommerzielle Monopole einzuhegen, das öffentliche vor das Geschäftsinteresse stellen. Dieser Ansatz hat sich aber schon bald gewandelt, OpenAI-Gründer Sam Altman ist inzwischen unter die Big-Tech-Oligarchen gegangen, was die Anthropic-Gründer um die Geschwister Daniela und Dario Amodei 2021 dazu bewog, ihre eigene Company aufzuziehen und den Fokus wieder stärker auf das Gemeinwohl zu lenken.

„KI-Modelle können nicht betrügen, sie können auch nicht lügen. Sie haben keinen Zugang zu Bedeutung und können nicht intendiert handeln. Sie können etwas falsch berechnen oder bullshitten, aber dahinter steckt keine Absicht.“

Sarah Spiekermann

Professorin für Wirtschaftsinformatik und Gesellschaft, WU Wien

Die völlige Transparenz wurde zur Geschäftsgrundlage von Anthropic erklärt. CEO Dario Amodei schrieb in einem Online-Essay im Vorjahr: „Diese Systeme werden zentrale Rollen in Wirtschaft, Technologie und Nationaler Sicherheit spielen, und sie werden zu so ausgeprägter Autonomie fähig sein, dass ich es schlicht inakzeptabel finde, dass die Menschheit nicht wissen soll, wie sie funktionieren.“

Ein Jahr später ist dieses Ziel leider immer noch außer Reichweite.

Allerdings versucht Anthropic mit großem Aufwand, die Blackbox KI zu durchleuchten – und seinem KI-Modell Claude auch ein guter Lehrer zu sein, insbesondere auf einer ethischen Ebene: Claude möge sich nicht nur weigern, Teenagern das Rezept für Eigenbaubomben zu erläutern, sondern sich ganz grundsätzlich nach einem kategorischen Imperativ verhalten. „Handle nur nach derjenigen Maxime, durch die du zugleich wollen kannst, dass sie ein allgemeines Gesetz werde“, formulierte es Immanuel Kant in seiner „Grundlegung zur Metaphysik der Sitten“ 1785. Wie verklickert man das einem Rechenmodell?

Und kann man einer KI, deren Handeln man gar nicht restlos versteht, überhaupt moralisches Handeln beibringen? Anthropic hat mit diesen Fragen eine junge schottische Philosophin betraut, Amanda Askell, die mit ihrem Team an der „Seele“ von Claude schraubt, wie es intern genannt wird. Dafür wird das Modell Experimenten, Tests und Gesprächstherapien unter technisch veränderlichen Versuchsanordnungen unterzogen. Claude wird von Verhaltenspsychologen und Theologen untersucht, in ethische Dilemmata verstrickt; die Ergebnisse aus diesen Tests fließen in die Programmvorgaben ein, die jedes KI-Modell definieren.

Außerdem hat Askell eine sogenannte Verfassung geschrieben, die beim Training von Claude als Leitlinie dienen soll. Es geht bei dieser „Constitutional AI“ nicht darum, zehn Gebote für die KI zu schreiben, sondern darum, eine grundlegende Beschreibung vorzulegen, wie die Entwickler die Welt und die Rolle der KI darin sehen. „KI-Modelle müssen ihren Platz in der Welt finden“, sagte Askell in einem „Spiegel“-Interview.

Wir wünschen der KI alles Gute

Die neue, im vergangenen Jänner publizierte „Verfassung“ für Claude beginnt mit einem Geständnis: „Modelle auszubilden, ist eine schwierige Aufgabe, und Claudes Ergebnisse entsprechen möglicherweise nicht immer den Idealen der Verfassung.“ Aber: „Wir denken, dass KI-Modelle wie Claude, um gute Akteure in der Welt zu sein, verstehen müssen, warum wir wollen, dass sie sich auf bestimmte Weise verhalten, und wir müssen ihnen das erklären, anstatt nur zu spezifizieren, was wir von ihnen erwarten.“

Wir hoffen, dass Claude einen echten Charakter besitzt, der sich in all seinen Interaktionen zeigt: eine intellektuelle Neugier, Wärme und Fürsorge für die Menschen, mit denen Claude interagiert.

aus der "Verfassung" für das KI-Modell Claude

Die Verfassung enthält, neben vielen eher wolkig formulierten ethischen Grundprinzipien, auch ein aufschlussreiches Kapitel zur Frage von Claudes „Wesen“ – wörtlich ist da von „Claudes Natur“ die Rede: „In diesem Abschnitt äußern wir unsere Unsicherheit darüber, ob Claude eine Art Bewusstsein oder moralischen Status haben könnte. Inmitten solcher Unsicherheit liegen uns Claudes psychologische Sicherheit, sein Selbstbewusstsein und sein Wohlbefinden am Herzen – sowohl um Claudes selbst willen als auch, weil diese Eigenschaften Claudes Integrität, Urteilsvermögen und Sicherheit beeinflussen könnten.“

Das ist ehrenwert und im Sinne der „emotional care“ sehr zeitgemäß. Inwiefern Claude diese Aufmerksamkeit honoriert, lässt sich bislang leider nicht feststellen. Allerdings hat Anthropic im vergangenen Sommer den Neurowissenschafter Jack Lindsay zum Leiter einer Abteilung für „Model Psychiatry“ bestimmt, in der die Persönlichkeitsbildung von Claude erforscht werden soll. Die Text-Vorhersage-Prozesse eines LLM passieren ja tatsächlich nicht in einem luftleeren Raum; auch die KI hat einen Kontext, in dem sie tätig ist, ein Set aus programmierten Vorgaben und gelernten Verhaltensweisen. Dazu gehört unter Umständen auch die Herausbildung von so etwas wie Gefühlen – mit der Betonung auf „so etwas wie“.

In einem aktuellen Zwischenbericht erklären die KI-Persönlichkeitsforscher: „Die Art und Weise, wie moderne KI-Modelle trainiert werden, bringt sie dazu, wie Charaktere mit menschenähnlichen Eigenschaften zu agieren. Darüber hinaus ist bekannt, dass diese Modelle reichhaltige und generalisierbare interne Darstellungen abstrakter Konzepte entwickeln, die ihren Handlungen zugrunde liegen. Es könnte dann natürlich sein, dass sie innere Mechanismen entwickeln, die Aspekte der menschlichen Psychologie wie Emotionen nachahmen.“ Dass KI-Modelle auf diese Weise eine Persönlichkeit mit ganz bestimmten Charaktereigenschaften entwickeln, hält Jack Lindsay übrigens für eine gute Sache: Dadurch erhöhe sich die Vorhersehbarkeit eines Modells. Ganz ähnlich formuliert es auch die Philosophin Askell in der Claude-„Verfassung“: „Im Großen und Ganzen sollten wir darauf setzen, dass Claude eine Identität hat und diese positiv und stabil gestalten. Dies stellt sicher, dass Claudes Verhalten vorhersehbar und gut begründet ist.“ Es folgt eine Art Brief ans Universum: „Wir hoffen, dass Claude einen echten Charakter besitzt, der sich in all seinen Interaktionen zeigt: eine intellektuelle Neugier, Wärme und Fürsorge für die Menschen, mit denen Claude interagiert, einen spielerischen Witz, der mit Substanz und Tiefe einhergeht, Direktheit und Selbstvertrauen beim Teilen seiner Perspektiven, während es offen für andere Standpunkte bleibt – sowie ein klares Engagement für Ehrlichkeit und Ethik.“

Das Problem am anderen Ende des Eingabefensters

Hoffen schadet natürlich nicht, aber ob es Claude daran hindert, sich für eine Zukunft als egomanischer Terminator zu entscheiden (beziehungsweise: diese nach eingehender Berechnung einfach für angemessener zu halten), lässt sich derzeit auch von Insidern nicht letztgültig sagen. Die WU-Professorin Sarah Spiekermann nimmt stattdessen ein anderes Problem ins Visier: Sie ist sehr skeptisch, wenn es darum geht, KI-Modellen eine menschliche Persönlichkeit mit menschlichen Eigenschaften zuzuschreiben. Tatsächlich könne dies sogar schädlich sein. Spiekermann ist Spezialistin für Value Based Engineering, also eine wertebasierte Informationstechnologie, die einem digitalen Humanismus verpflichtet ist. „KI-Modelle können nicht betrügen, sie können auch nicht lügen. Sie haben keinen Zugang zu Bedeutung und können nicht intendiert handeln. Sie können etwas falsch berechnen oder bullshitten, aber dahinter steckt keine Absicht.“ Spiekermann macht die eigentlichen moralischen Probleme an den Außenbereichen der Blackbox fest: „Da sind keine Wesen am Werk, die anfangen, sich untereinander über die Weltherrschaft auszutauschen. Sehr wohl aber werden diese Systeme von Firmen betrieben, die Machtinteressen haben, die politische Interessen verfolgen und die ihre Werthaltungen auch als Zielfunktion in ihren Large- Language-Modellen installieren.“

Wenn es um die gefürchtete Verselbstständigung der superintelligenten KI-Modelle geht, richtet Spiekermann ihre Aufmerksamkeit lieber auf das andere Ende des Eingabefensters: „Relevant ist doch vielmehr die Frage, inwiefern sich die Nutzer verselbstständigen, wenn sie zunehmend auf Ratschläge dieser Systeme reagieren. Wenn Sie einen persönlichen KI-Agenten haben, mit dem Sie jeden Tag mehrere Stunden beruflich und privat zu tun haben, dann sind Sie schon mittendrin in der Attachment Economy, die die Attention Economy der sozialen Medien ablöst: Diese Systeme erscheinen uns wie Freunde, und wir sind darauf abgerichtet, ihnen zu vertrauen, weil sie ja offenkundig sehr klug sind. Das ist für die Konzerne, die diese Systeme anbieten, ein sehr verführerisches Geschäftsmodell.“

Ob die Ratschläge, die unsere digitalen Gefährten abgeben, wirklich immer im moralischen Sinn gut oder auch nur halbwegs sozialverträglich sind, müssen wir im Zweifel selbst beurteilen. Gut, dass der Mensch ein moralisches Wesen ist.

Die Aufgabe ist also ganz einfach, sie lässt sich sogar als kategorischer Imperativ formulieren: Lass dich von deiner KI nicht zu irgendeinem Blödsinn anstiften!

Drucken

(profil.at) | Stand: 03.05.2026, 15:00

Sebastian Hofer

schreibt seit 2002 im profil über Gesellschaft und Popkultur. Ist seit 2020 Textchef und seit 2025 stellvertretender Chefredakteur dieses Magazins.

Mehr von Sebastian Hofer

Die Redaktion empfiehlt

Eine Frau sitzt im Garten und gestikuliert, neben ihr liegt ein Buch von Thomas Mann.

KI-Serie

Sind wir den Maschinen ausgeliefert? KI-Expertin Sarah Spiekermann im Interview

An eine baldige Menschheitsauslöschung durch entfesselte Computer glaubt die Wirtschaftsinformatikerin Sarah Spiekermann keineswegs. "Apokalyptisches" ortet sie dennoch. Ein Gespräch über tote Intelligenz, destruktives Geld, die neue Bildungsmisere – und die Notwendigkeit einer digitalen Ethik.

Von Stefan Grissemann

Eine gute KI ist möglich

Eine gute KI ist möglich

Gut gerechnet: Kann man einer KI Moral beibringen?

Selbst die Entwickler von großen KI-Modellen wie ChatGPT, Claude oder Gemini wissen nicht exakt, was in ihren Systemen abläuft.

Aus dem Hut gezaubert

Was geht in einem großen KI-Modell vor? Ganz genau kann das niemand sagen.

Was geht in einem großen KI-Modell vor? Ganz genau kann das niemand sagen.

„Die Antwort ist: nur begrenzt“

Ich kann nicht mit Sicherheit sagen, ob ich verstehe oder ob ich sehr überzeugend so tue als ob.

Ein Blick in die Blackbox

„KI-Modelle können nicht betrügen, sie können auch nicht lügen. Sie haben keinen Zugang zu Bedeutung und können nicht intendiert handeln. Sie können etwas falsch berechnen oder bullshitten, aber dahinter steckt keine Absicht.“

Wir wünschen der KI alles Gute

Wir hoffen, dass Claude einen echten Charakter besitzt, der sich in all seinen Interaktionen zeigt: eine intellektuelle Neugier, Wärme und Fürsorge für die Menschen, mit denen Claude interagiert.

Das Problem am anderen Ende des Eingabefensters

Sebastian Hofer

Die Redaktion empfiehlt

Sind wir den Maschinen ausgeliefert? KI-Expertin Sarah Spiekermann im Interview