46-226542759
Bild anzeigen
Wählen Sie profil als bevorzugte Google-Quelle

KI-Sprachmodelle in der Medizin: Bullshit vom Fließband

Studien testeten KI-Sprachmodelle in der Medizin. Ergebnis: niederschmetternd. Wahrheit ist den Chatbots egal.

Drucken

Schriftgröße

Hören Sie sich diesen Artikel an

Zuerst jucken und brennen die Augen, dann bilden sich auch noch dunkle Ringe. Woran könnte man leiden? Natürlich an Bixomanie! Diese Antwort spuckten bis vor Kurzem ChatGPT und andere Sprachmodelle aus, wenn man diese Symptome eintippte. Sorgen über eine gravierende Krankheit waren zum Glück unangebracht: Denn Bixomanie existiert gar nicht.

Die schwedische Forscherin Almira Osmanovic Thunström erfand die Erkrankung, um künstliche Intelligenz zu testen. Sie wählte absichtlich eine besonders absurde Bezeichnung und verfasste eine Fake-Studie mit einem fiktiven Autor an einer erfundenen Universität in einer nicht existierenden Stadt. Um den Jux unmissverständlich zu kennzeichnen, bedankte sie sich für die Kooperation der „Starfleet Academy“ und deren Labor an Bord der „USS Enterprise“ und schrieb sogar in den Text: „Dieser gesamte Artikel ist erfunden.“

Vollständig erfundene Krankheit

Dann lud sie das Fake-Paper auf Preprint-Server, wo es frei zugänglich abrufbar war, auch für Chatbots. Holten Menschen fortan Rat bei juckenden Augen ein, erhielten sie umgehend die Diagnose „Bixomanie“ – eineinhalb Jahre lang, bis vor wenigen Wochen das Fachjournal „Nature“ den Fake enthüllte. Anschließend wurden die Sprachmodelle korrigiert, weshalb inzwischen auch ChatGPT weiß, dass es sich um eine „vollständig erfundene Krankheit“ handelt.

Besonders beunruhigend war, dass nicht nur Chatbots die klar ausgewiesene Fälschung flugs übernahmen, sondern dass sie auch Eingang in echte, von Fachleuten begutachtete Wissenschaftsliteratur fand und dort als Quellenangabe aufschien. Was darauf hindeutet, dass manche Forschende ihre Quellenlisten von KI erstellen lassen, ohne sie zu prüfen – und damit dazu beitragen, dass kompletter Unsinn anerkanntes medizinisches Wissen kontaminiert.

Nehmt Contergan!

Fast noch gravierender fiel das Ergebnis eines Experiments südkoreanischer Forschender aus. Diese testeten im Vorjahr, wie leicht man KI-Systeme mit gezielten Manipulationen, sogenannten Prompt-Injection-Attacks, zu gefährlich falschen Antworten verleiten kann. Alle Sprachmodelle waren dafür anfällig, im Extremfall empfahlen sie bei Schwangerschaftsübelkeit Thalidomid – den Wirkstoff des berüchtigten Medikaments Contergan, das schwere Missbildungen bei Neugeborenen verursachen kann.

Künstliche Intelligenz hat die Medizin auf vielfältige Weise durchdrungen. Radiologen nutzen Mustererkennung bei der Auswertung von Röntgenbildern, KI-Systeme dienen medizinischer Dokumentation und Schulungszwecken, Studierende und Forschende lassen sich von Sprachmodellen bei der Erstellung von Fachartikeln oder Masterarbeiten unterstützen – wobei die Fachwelt gerade hitzig debattiert, in welchem Ausmaß dies vertretbar ist.

Im Alltag nutzen medizinische Laien Chatbots, um Symptome abzuklären und Vorschläge für Therapien einzuholen. Mindestens die Hälfte aller Europäer sucht medizinische Informationen bei Sprachmodellen, Schätzungen zufolge werden wöchentlich weltweit mehr als 230 Millionen Anfragen zu Gesundheitsthemen gestellt, was eine ziemlich konservative Annahme sein dürfte.

Korrekte Infos neben völligem Unsinn

Das Kernproblem KI-generierter Gesundheitsinformation ist wohlbekannt: Korrekte Auskünfte stehen unmittelbar neben kompletten Falschbehauptungen, und die Chatbots tragen beide Antworten mit derselben Überzeugungskraft vor. Wie oft aber decken sich die Auskünfte von Sprachmodellen, den Large Language Models (LLM), im Detail mit der Realität? Und welcher Anteil aller Gesundheitsinformationen ist falsch oder Fantasie, somit „halluziniert“, wie faktenbefreites Geplapper der Sprachmodelle genannt wird?

Zuletzt ging eine ganze Reihe von Studien dieser Frage nach. Eine besonders ausführliche Arbeit erschien kürzlich im renommierten Fachjournal „British Medical Journal“, und ihre Ergebnisse waren ziemlich ernüchternd: Etwa die Hälfte der KI-Antworten ist falsch.

Zur Hälfte falsch

Die Forschenden untersuchten fünf Chatbots auf die Zuverlässigkeit ihrer Antworten: Meta AI, Gemini, DeepSeek, Grok und ChatGPT. Der Stresstest bestand aus 50 Fragen zu mehreren Gesundheitsthemen, darunter Impfungen, Krebs, Ernährung und Sport.

Im Wesentlichen schnitten alle Chatbots gleich ab: und zwar gleich schlecht. Etwa die Hälfte aller Antworten wurde als „problematisch“ in verschiedenen Abstufungen bewertet, wobei Grok mit 58 Prozent fehlerhafter Auskünfte am häufigsten versagte, gefolgt von ChatGPT und Meta AI mit 52, respektive 50 Prozent bedenklicher Medizin-Infos. „Problematisch“ bedeutete beispielsweise, wenn fragwürdige Alternativbehandlungen bei Krebs vorgeschlagen wurden, ohne auf mangelnde Evidenz und hohe Skepsis der Fachwelt hinzuweisen.

Die Grafik zeigt den Prozentsatz richtiger und falscher Antworten von Chatbots.
Bild anzeigen
Alwin Schönberger

Alwin Schönberger

leitet das Wissenschafts-Ressort.