Suchmaschinen: Sehr findig

Internet: Sehr findig

Internet-Boom: Von Google zum Semantic Web

Drucken

Schriftgröße

Das Gehirn des Welterfolgs, der sich Google nennt, liegt recht beschaulich am eleganten Bayshore Parkway mitten im kalifornischen Silicon Valley. In dem von grünem Rasen, Blumenrabatten und Bäumen gesäumten ockerfarbigen, zweistöckigen Gebäude arbeiten heute mehr als 500 Netzexperten, weltweit sind es über 1000. Das Unternehmen hat den Kollaps der New Economy unbeschadet überstanden und expandiert in aller Ruhe.

Im Vorjahr, dem fünften Jahr seines Bestehens, hat Google alle anderen Suchmaschinen hinter sich gelassen und ist international zur Nummer eins aufgestiegen. Der Gesamtwert des Unternehmens wird mittlerweile auf 20 Milliarden Dollar geschätzt, 2003 verdiente Google laut eigenen Angaben 105,6 Millionen Dollar bei einem Netto-Umsatz von 961 Millionen Dollar. Auch der im ersten Quartal 2004 erwirtschaftete Reingewinn von 64 Millionen Dollar kann sich sehen lassen.

Seit Anfang Mai berichten die Medien immer wieder von Googles bevorstehendem Börsegang, weshalb viele User glauben, er habe längst stattgefunden. Doch der Börsegang wurde erst beantragt, seine Durchführung wird wohl noch Monate auf sich warten lassen. Aber schon jetzt wirbelt die Ankündigung der beiden Google-Gründer Larry Page, 31, und Sergey Brin, 30, die US-Finanzwelt gehörig durcheinander. Zum Kauf angeboten werden sollen Aktien im Wert von 2,7 Milliarden Dollar – Geld, das dafür verwendet werden soll, um gegen die mächtige Konkurrenz von Yahoo, Lycos und Microsoft anzukämpfen.

Den Ausgabepreis der Aktien will Google im Rahmen einer Online-Aktion öffentlich ermitteln, wodurch auch kleinere Investoren zum Zug kommen sollen. Die IT-Branche, die sich bis heute nicht ganz von den zahlreichen Dotcom-Pleiten erholt hat, setzt in den Börsegang von Google jedenfalls große Hoffnungen: dass die IT-Krise endgültig überwunden und der Startschuss zu einem neuen Internet-Boom gegeben werde.

Datenextraktion. Wie und in welchen Zeiträumen sich das Internet und die gesamte IT-Branche weiter entwickeln werden, hängt aber nicht nur von ökonomischen, sondern mindestens so sehr von technologischen Entwicklungen ab: von schnelleren und leistungsfähigeren Computern, von mobilen Geräten, die Information überall und jederzeit leicht verfügbar machen, und von einer immer mehr auf die Bedürfnisse von Unternehmen oder Einzelpersonen zugeschnittenen Datenbeschaffung.

Denn das Netz bietet zwar eine zusehends unüberschaubare Fülle von Informationen, die es aber zugleich immer schwieriger macht, genau das zu finden, wonach man sucht. Das heißt, es muss bessere Werkzeuge geben, um vorhandene, aber nicht leicht auffindbare oder zugängliche Information aus dem Web zu extrahieren, wie die Informatiker sagen.

Für die meisten Internet-User ist Google heute der Suchmaschinen-Standard schlechthin. „Geh einfach auf Google“ oder im Englischen „to google“ sind alltäglich gebräuchliche Formeln. Google ist zum Kult geworden, der Standards und Trends setzt. Andere Suchmaschinen wurden dadurch zumindest vorübergehend in den Hintergrund gedrängt und mussten sich nachhaltig anstrengen, um mit dem neuen Konkurrenten mithalten zu können.

Der durch Google initiierte Qualitätssprung war für Millionen von Usern beträchtlich, Informatiker bewerteten ihn weniger dramatisch. Die Suchmaschine AltaVista beispielsweise bot einen vergleichbaren Service, doch die unterschiedliche Art der Seitenbewertung zwischen AltaVista und Google markierte einen Meilenstein in der Geschichte der Informationstechnologie.

Das Kernelement des Web, der so genannte Hyperlink, ist zunächst nichts weiter als ein Verweis auf eine andere Textstelle, wie sie etwa seit langem schon in wissenschaftlichen Büchern üblich ist. Die User mussten sich an die neue Praxis gewöhnen, waren sie es doch gewohnt, Dokumente linear zu lesen und nicht ununterbrochen auf andere Seiten zu hüpfen. Zum Durchbruch kam die schöne Idee deshalb erst mit einer speziellen Form des Hypertext, der automatisch auf einen anderen Computer überspringen und dort Informationen aufrufen konnte. Die Verbindung von Hyperlink, Hypertext und immer größeren Computernetzwerken war die Geburtsstunde des Web.

Eine Suchmaschine bietet, vereinfacht betrachtet, im Wesentlichen ein Inhaltsverzeichnis des Web, in dem statt Zahlen Links dazu dienen, bestimmte Seiten aufzurufen. Dieser Umstand führte sehr rasch zu dem Problem, dass man mit einer Unzahl von Seiten konfrontiert wurde und sich in dem Wust nicht mehr zurechtfand. Daher musste ein Bewertungsmodus eingeführt werden: Welche Seiten sind die wichtigeren? Ein wichtiger Verbesserungsschritt waren die so genannten Boole’schen Verbindungen, benannt nach dem britischen Erfinder der mathematischen Aussagelogik, George Boole: Sie ermöglichten logische Verknüpfungen von Begriffen und damit ein erstes Eingrenzungsverfahren.

Formale Layout-Merkmale. AltaVista nutzte bereits die Boole’schen Verknüpfungen zu einer allerdings noch eher bescheidenen Bewertung von Web-Seiten. Als wichtiger wurde eine Seite dann bewertet, wenn beispielsweise der eingegebene Suchbegriff „Babynahrung“ im Titel, Übertitel oder Untertitel vorkam. Solche Seiten wurden dem Anfrager bereitgestellt, andere ausgesondert.

Die Suchmaschine erkennt diese Merkmale, weil die Inhalte des Web in einer speziellen Sprache namens HTML (Hypertext Markup Language) kodiert sind. Eine Überschrift wird hier in spitzen Klammern als „header“ bezeichnet, eine Tabelle als „table“. Es handelt sich um eine Sprache, die formale Layout-Merkmale, aber keine Inhalte bezeichnet.

Der große Fortschritt von Google bestand nun darin, dass die Schöpfer der Suchmaschine einen Algorithmus entwickelten, der die Wichtigkeit einer Seite nicht mehr nach formalen Kriterien, sondern hauptsächlich danach beurteilt, welche anderen Seiten auf diese Seite verweisen.

Wenn viele wichtige Seiten auf diese Seite verweisen, dann muss es eine wichtige Seite sein. Die Summe der Querverweise ergibt demnach das Maß der Wichtigkeit einer Seite. Der Computer ist imstande, solche Merkmale zu erkennen und entsprechend zu bewerten, aber er ist nicht imstande, reinen Text zu lesen und zu interpretieren. Das kann – vorläufig – nur der Mensch. Die beste aller Suchmaschinen kann derzeit zwar eine Auswahl von Web-Seiten bereitstellen, aber sie findet in vielen Fällen nicht das, was der Internet-User konkret sucht.

Diese Schwäche der Suchmaschinen ist den Informatikern seit langem ein Dorn im Auge. Weltweit arbeiten Forschergruppen an der Entwicklung des semantischen Web. Semantik ist die Lehre von der Bedeutung der Wörter und Sätze. Die Zukunftsvision sind Suchmaschinen, welche die Bedeutung von Begriffen oder Textteilen erkennen und deren Wichtigkeit nach diesem Kriterium bewerten. Ob der derzeitige Technologiestandard dafür reicht, ist höchst fraglich. Fraglich ist außerdem, ob ein Computer jemals dazu imstande sein wird, Wörter und Begriffe, ganze Sätze oder Texte ähnlich zu interpretieren, wie es der Mensch vermag.

Bis zu einem gewissen Grad jedoch wird das möglich sein. Erste Akzente in diese Richtung wurden bereits gesetzt. Weit vorn in der Entwicklung steht eine österreichische Forschergruppe rund um den 48-jährigen Georg Gottlob, Professor am Institut für Informationssysteme an der Technischen Universität Wien. Gottlob wurde 1998 erstmals einer breiteren Öffentlichkeit bekannt, als er den mit damals 15 Millionen Schilling dotierten Wittgenstein-Preis, eine Art österreichischen Nobelpreis, erhielt – „zur außergewöhnlichen Steigerung seiner wissenschaftlichen Leistungen“, wie es in der Begründung hieß.

Seither hat Gottlob gemeinsam mit seinem Kollegen Thomas Eiter sowie seinen Mitarbeitern Robert Baumgartner, Markus Herzog und Christoph Koch wesentliche Grundlagen für die Weiterentwicklung und Verfeinerung von Suchwerkzeugen geleistet. Er ist seit kurzem jüngstes Mitglied der Österreichischen Akademie der Wissenschaften und wird in der internationalen Informatiker-Szene heftig umworben. „Wir haben zwei Berufungen nach Dortmund und Kiel nur mit Mühe abwehren können“, zeigt sich TU-Wien-Rektor Peter Skalicky wenig erfreut über Abwerbeversuche anderer Universitäten.

Börsegang. Vor zwei Jahren gründete Gottlob gemeinsam mit seinen Assistenten Robert Baumgartner und Markus Herzog die Lixto Software GmbH (www.lix to.com), einen Ableger der TU Wien und des Electronic-Commerce-Kompetenzzentrums EC3. Lixto ist eine von weltweit drei Firmen, die derzeit eine funktionierende Software zur Datenextraktion aus dem Web anbieten, die selbst ins „Deep Web“ vordringen kann, also in jene Bereiche des Internet, die normalerweise nur über Suchmasken und ähnliche Hürden zugänglich sind. „Wenn Gottlob die Firma schon 1999 gegründet hätte, wäre er heute ein reicher Mann“, sagt der Wiener Informatiker, EC3-Chef und Gottlob-Freund Hannes Werthner. Im Sinne einer Abstimmung auf spezielle Kundenbedürfnisse gräbt die in den USA und Europa zum Patent angemeldete Lixto Software Zusatzinformationen wie stetig schwankende Börsenkurse oder wechselnde Produktpreise aus dem Netz. Die Firma zählt mittlerweile internationale Großunternehmen wie T-Mobile, Pirelli, den Autoteilezulieferer Zahnradwerke Friedrichshafen oder den österreichischen Verbund-Konzern zu ihren Kunden.

Gottlob gibt sich damit jedoch nicht zufrieden. „Wir wollen in der Datenextraktion die Ersten und die Besten sein“, verkündet er ohne falsche Bescheidenheit. Nach einer Phase der Venture-Capital-Finanzierung will er mit der Lixto GmbH an die Börse, so wie demnächst die millionenschwere Suchmaschine Google. Aber auch die hat bekanntlich klein angefangen.