„Wir nähern uns der künstlichen Intelligenz“

Monica Beltrametti, Leiterin des Xerox Forschungszentrums Grenoble, über Bruchstellen zwischen digitaler und gedruckter Information, Versuche zur Rettung des gesammelten Wissens der Menschheit, intelligente Maschinen und das kurze Gedächtnis der Unternehmen.

profil: Als Forschungsleiterin eines auf Dokumenten- und Wissensmanagement spezialisierten Unternehmens sind Sie sicher selbst von der steigenden Informationsflut betroffen. Wie viele E-Mails erhalten Sie am Tag?
Beltrametti: In einer typischen Woche bekomme ich pro Tag ungefähr 200 E-Mails. Drei Viertel davon sind sehr wichtig und müssen deshalb gleich bearbeitet werden. Ein Zehntel der E-Mails benötigt aber zu viel Zeit, um diese Nachrichten gleich behandeln zu können.
profil: Und wie viele unerwünschte Spam-Mails sind dabei?
Beltrametti: Wir haben sehr gute Anti-Spam-Systeme, ein paar Spams schaffen es aber trotzdem, da die Filter so eingestellt sind, dass nichts Wichtiges verloren geht.
profil: Eines Ihrer zentralen Forschungsgebiete ist die Erhaltung und Aufbereitung von Wissen mit modernen Methoden. Ein Ausgangspunkt dabei ist, dass in Büchern archiviertes Wissen mit der Zeit zum Teil verloren geht, wenn deren Lebensdauer endet. Wie können all diese unglaublichen Informationsmengen für Generationen gesichert und zugänglich gemacht werden?
Beltrametti: Wir bieten dazu beispielsweise eigene Scanning-Systeme zur Digitalisierung alter Bücher an, die selbst die Buchseiten auf schonende Weise umblättern und weltweit in Bibliotheken eingesetzt werden. Durch die Digitalisierung wird das Wissen auch leichter zugänglich.
profil: Studien zufolge wurden seit den ersten Zeichnungen in Steinhöhlen vor rund 42.000 Jahren an die 100 Milliarden Gigabyte an Daten generiert. Weiters rauschen im Jahr mehr als neun Billionen E-Mails durch die Netze. Wie kann man diese Informationsmengen noch sinnvoll verarbeiten?
Beltrametti: Bei uns hat jeder Mitarbeiter seine Spezialgebiete, für die er verantwortlich ist. Die relevanten Nachrichten und Dokumente werden gleich weitergeleitet. Das erledige ich selbst in Rekordtempo. Dazu muss man aber sehr gut organisiert sein. Teils kann diese Vorselektion auch automatisiert werden. Eine unserer Entwicklungen kann beispielsweise Dokumente den verschiedensten Kategorien zuordnen. Außerdem präsentieren wir demnächst eine neue Software für so genanntes Power Reading. Wichtige Stichwörter werden hier gleich automatisch mit Farbe unterlegt.
profil: Für ein einzelnes Dokument ist das sicher hilfreich. Für die Analyse tausender Dokumente können einfache Stichwortsuchen aber schwerlich ausreichen.
Beltrametti: Die Stichwortsuche genügt beispielsweise bei technischen Dokumentationen nicht, wo ganz spezifische Informationen benötigt werden. Hier ist oft der Kontext wichtig. Wir haben deshalb Technologien entwickelt, die aus unstrukturierten Dokumenten die gewünschte Information herausholen. Dabei ist es gleichgültig, ob die Dokumente digital sind oder aus Papier bestehen. International wird derzeit besonders an semantischen Technologien geforscht, die den Bedeutungszusammenhang berücksichtigen. Dabei werden etwa auch Synonyme und Wörter erkannt, die zur gleichen Wortfamilie gehören.
profil: Die wirkliche Kunst ist offensichtlich nicht, riesige Datenbestände zu horten, sondern in ihnen im Bedarfsfall das wirklich relevante Wissen zu finden. Laut dem Marktforschungsunternehmen IDC finden vier von fünf Angestellten aber nicht die Informationen, die sie benötigen. Eine Reihe von Studien belegt weiters, dass jedes Jahr unglaubliche Mengen an Wissen auf dieser Welt verloren gehen. Das gilt auch für Unternehmen. Immer öfter kommt es vor, dass schon abgehandelte oder erforschte Themen nochmals bearbeitet werden, weil nicht bekannt ist, dass die Arbeit schon einmal gemacht wurde, oder die Ergebnisse nicht mehr auffindbar sind.
Beltrametti: Das ist tatsächlich ein ganz großes Problem. Man sagt, Unternehmen haben ein kurzes Gedächtnis. In Unternehmen wechseln oft sowohl die Systeme als auch die Leute. Und viele Knowledge-Systeme sind nicht gut genug, um die Informationen so zu speichern, dass sie nicht verloren gehen. Hier ist ein systematisches Management von Aufzeichnungen und Unterlagen gefragt, das dafür sorgt, dass Dokumente so abgelegt werden, dass man sie wiederfinden kann. Die Gestaltung der Informationsflüsse ist besonders in großen Unternehmen ein schwieriges Unterfangen. Viele Arbeitsprozesse, Technologien und Menschen müssen hier zusammenspielen.
profil: Wissensmanagement und die dafür nötigen Systeme sind heute die großen Herausforderungen für Unternehmen?
Beltrametti: Ja, diese Entwicklung zeigt sich sehr deutlich, nicht nur bei uns. Wichtig ist, dass die Suchfunktionen noch besser werden, damit man das Dokument auch wirklich findet. Hier helfen die semantischen Technologien, um nicht mit hunderten unbenötigten Dokumenten überflutet zu werden. Hier ist noch unheimlich viel Potenzial vorhanden. Wir arbeiten mit so genannten Parsing-Technologien, die den grammatikalischen Zusammenhang in Texten analysieren, sowie den erwähnten semantischen Analysen. Mit diesen semantischen Technologien ist es möglich, in riesigen Textmengen sehr schnell Strukturen und Zusammenhänge herauszufiltern. Wenn etwa jemand alle Zitate zu einem Thema von Präsident Bush sucht, dann konzentriert sich das System nicht nur auf „er sagte“, sondern zum Beispiel auch auf „er rief aus“ und so weiter.
profil: Dank semantischer Analysen kann angeblich auch der sinngemäße Inhalt von Dokumenten vollautomatisch und schnell erkannt werden. Stimmt das?
Beltrametti: Mit semantischen Analysen lassen sich jedenfalls riesige unstrukturierte Datenmengen strukturieren und aufbereiten. Hier geht es nicht nur um Stichwörter. Auch Fußnoten, Grafiken, Bilder oder Warnungen können erkannt werden. Es lässt sich aus den Dokumentationen ebenfalls rasch ermitteln, wer wann was gemacht hat. Das ist beispielsweise für das Risk Management sehr wichtig. Wir führen bei Xerox alle 18 Monate eine schriftliche Mitarbeiterbefragung durch. Da müssen Kommentare von 60.000 Mitarbeitern erfasst und ausgearbeitet werden. Unsere Software analysiert die Anmerkungen vollautomatisch und teilt sie selbst in unterschiedlichste Kategorien wie etwa Bezahlung oder Karrierechancen ein. Weiters können durch automatische Kategorisierung Kundenanfragen gleich an die zuständigen Experten weitergeleitet werden.
profil: Glauben Sie eigentlich, dass im Bereich der Dokumentation das Zeitalter der künstlichen Intelligenz mit lernfähigen Maschinen schon begonnen hat?
Beltrametti: Daran wird intensiv geforscht. Bei der Suche nach Informationen in großen Datenbeständen arbeiten wir daran, die Leistung und die Präzision zu erhöhen. Unsere Schnittstellen sind da schon recht gut. Die Systeme lernen nun schon selbstständig aus vorherigen Suchen, um wirklich die gewünschten Informationen herauszufiltern. Wir nähern uns langsam der künstlichen Intelligenz an.
profil: Information Lifecycle Management ist ein weiteres oft strapaziertes Schlagwort. Gemeint ist damit die Datenhaltung von der ersten Speicherung bis zu ihrer Vernichtung. Wie wichtig ist es, sich von Daten trennen zu können?
Beltrametti: Dazu gibt es einerseits gesetzliche Vorschriften. Andererseits gibt es in Unternehmen oft viele Duplikate von Dokumenten in unterschiedlichsten Bearbeitungsversionen. Die können zur Verwirrung führen. Hier ist es sehr wichtig, die Datenbestände zu bereinigen.
profil: Wann kommt das lange angekündigte papierlose Büro?
Beltrametti: Trotz zunehmender Digitalisierung wird heute mehr gedruckt und kopiert als je zuvor. Wir wollen Unternehmen helfen, mit den Medienbrüchen effizienter umzugehen, also bei der Umwandlung von Hardcopys in digitale Dokumente und umgekehrt.
profil: Welche bedeutenden Forschungsgebiete sehen Sie in Zukunft noch?
Beltrametti: Besonders im Druck geht unheimlich viel Information verloren. Die papierene und die digitale Welt müssen noch besser zusammengeführt werden. Heute ist es beispielsweise nicht möglich, ausgedruckte Excel-Tabellen vollständig samt den integrierten Formeln zu rekonstruieren. In Texten werden beispielsweise oft Bilder beschrieben, oder Bilder dienen als Referenz für Datenbestände. Die Systeme müssen lernen, solche Zusammenhänge zu erkennen. Nach den Texten sind uns die Bilddokumente ein großes Anliegen. Der Inhalt von Bildern soll ebenfalls automatisch erkannt werden. Diese Art der Bildanalyse könnte künftig auch bei Robotern zum Einsatz kommen.

Interview: Alfred Bankhamer