Freitag, 9. Januar 2009 |
Zunächst war alles multimedial, dann interaktiv, später elektronisch oder gar intelligent und heute ist "Social" das Wort, das vor keinem neuen Produkt-, Unternehmens- und Gattungsnamen fehlen darf. Doch jeder Trend geht irgendwann vorbei und es folgt ein neuer. Doch welcher? Ein heißer Kandidat ist Semantic.
Ist etwas semantisch, so hat es eine Bedeutung. Die Folge "x y z" hat keine Bedeutung. Der Satz "Cogito ergo sum" hat dagegen eine Bedeutung, zumindest für denjenigen, der Latein versteht oder die Übersetzung kennt: "Ich denke, also bin ich". Das Textverarbeitungsprogramm, das eben jenen Satz aus den Händen des Autors empfangen hat, kann weder das Eine noch das Andere. Es versteht weder noch kennt es den Satz und markiert ihn deshalb als fehlerhaft. Ein semantisches Textverarbeitungsprogramm würde erkennen, dass der Satz ein Zitat ist. Es würde entweder versuchen, die Sprache des Satzes zu ermitteln und die Rechtschreibkorrektur entsprechend danach auszurichten oder es würde den Satz in einer Datenbank von Zitaten nachschlagen.
Verstehen und Erkennen – beides ist für den Menschen vergleichsweise einfach und für die Maschine unglaublich schwer. Die Künstliche Intelligenz wurde schon oft heraufbeschworen, doch sie blieb bisweilen nur Wunschtraum – oder manchmal auch Albtraum. Sie tauchte in unterschiedlicher Gestalt immer wieder auf: als Artificial Life, als Machine Learning und – in Zeiten des Internets natürlich – als Semantic Web.
Es begann mit intelligenten Algorithmen, wobei allerdings nicht die Algorithmen intelligent waren, sondern vielmehr ihre Erfinder. Reine Intelligenz reicht jedoch nicht aus, um Probleme außerhalb des Schachbretts zu lösen. Das wussten auch schon unsere Vorfahren, weshalb sie stets in Gruppen jagten. Nachdem auch die KI-Forscher dies begriffen hatten, machten sie sich daran, das Leben neu zu erfinden. Doch mehr als ein virtueller Ameisenhaufen entstand dabei nicht.
Da Lernen oftmals hilft, half man den Programmen schließlich zu lernen. Doch hier angelangt, stand man vor einer Henne und einem Ei sowie der Frage, was zuerst da sein muss: Damit ein Programm lernen kann, braucht es Daten, von denen es lernen kann. Da aber die Mehrheit der für den Menschen interessanten Daten in natürlicher Sprache vorliegt, braucht man ein Programm, das die Sprache der Menschen versteht. Und die muss es zunächst erlernen.
Für das Henne-Ei-Problem gibt es evolutionär gesehen nur eine Lösung: Das erste Hennenei legte ein Vertreter einer anderen Spezies, die der Vorläufer der Henne war. Auf das Mensch-Maschine-Probleme umgemünzt: Der Mensch muss zunächst die Daten so kennzeichnen, dass die Maschine die Daten verstehen kann. Eine Kennzeichnungspflicht für Daten gab es im Internet bereits: HTML. Das zeichnet zwar nur die visuelle Darstellung aus, aber mit kleineren Änderungen, namentlich XML, sollte es auch möglich sein, die Bedeutung, also die Semantik zu hinterlegen.
XML folgten RDF, OWL sowie weitere kryptische Abkürzungen, die eines gemeinsam hatten: Sie blieben vornehmlich Spielzeug der Semantiker, also von einigen Forschern und Entwicklern. Währenddessen begannen die übrigen Menschen, die Pragmatiker, eigene Werkzeuge zu entwickeln, um Ordnung in das Datenchaos des Webs zu bringen. Die Pragmatik ist die dritte Säule der Sprachlehre neben der Syntax und der Semantik und beschäftigt sich mit der Wirkung der Zeichen auf den Empfänger. Mit Tags und Folksonomies schufen sie, die im zweifachen Sinne Pragmatiker waren, ein pragmatisches Web, das Web 2.0, das doch eigentlich das semantische Web werden sollte. Macht nichts, dachte sich der Erfinder des Web 1.0, Tim Berners-Lee, verteufelte das Web 2.0 und erklärte kurzerhand das Web 3.0 zum Semantic Web.
Wer heute also einen Businessplan schreibt und in den Titel "Semantic" packt, hat gute Chancen viel Risikokapital zu bekommen. Das Wörtchen "Risiko" steckt jedoch zurecht im "Risikokapital" und besonders im Semantic Web, denn semantische Technologien bedürfen des Menschen, und Irren ist bekanntlich menschlich. Selbstverständlich beherrschen die meisten semantischen Verfahren die Statistik und die Bayes’sche Logik, doch geht es immer nur um Wahrscheinlichkeiten. Ein Restrisiko bleibt. Immerhin, die Masse und der Durchschnitt machen die Fehlerquote kalkulierbar.
90 % richtige Treffer hören sich gut an, doch was machen die übrigen 10 % Nutzer, die die falschen Treffer erhalten und sich dessen nicht bewusst sind? Bei Google ist das kein Problem, bei der Onlinekreditvergabe aber durchaus. Das Semantic Web fängt beim Nutzer an: Er muss umdenken. Der Glaube an die absolute Berechenbarkeit der Information ist ein Relikt des digitalen Zeitalters. Im Zeitalter des Social Webs regiert wieder die analoge Unschärfe.
Der Mensch irrt nicht nur ab und an, er ist zu alledem auch noch faul. Sprachen für die semantische Kennzeichnung von Daten gab es seit den Anfangstagen des Webs. Sie haben sich nicht durchgesetzt, weil der Mensch faul und egoistisch ist – beziehungsweise seine Gene sind es. Sein Nutzen bzw. ihr Nutzen (der egoistischen Gene) durch die Kennzeichnung ist nur mittelbar.
Solange es keine umfassende semantische Suchmaschine gibt, macht auch die semantische Auszeichnung keinen Sinn. Und solange die Nutzer die gewünschten Informationen nicht über eine semantische Suche finden, weil sie nicht verzeichnet sind, werden sie die Suchmaschine nicht nutzen. Dieses Henne-Ei-Problem verlangt nach einer Lösung durch die Hintertür: Suchmaschinen wie Google integrieren peu à peu semantische Technologien in ihre Websites.
Der Nutzer bekommt davon meist nichts mit. Die Verbesserung ist, weil eben die Algorithmen stochastisch und nicht deterministisch sind, meist nur marginal und inkrementell. Aus Web 2.0 wird nicht Web 3.0, sondern vielmehr Web 2.1, 2.2, 2.3 etc.
Semantische Technologien sind heute bereits allgegenwärtig, wenngleich oft nicht sichtbar – im Auto, in der Suchmaschine, bei Banküberweisungen. Ein Massenphänomen à la Web 2.0 werden sie jedoch nicht werden. Ihre Anwendung verlangt ein tiefgreifendes Verständnis von Statistik; sie lassen sich nicht verallgemeinern, sondern funktionieren jeweils nur in spezifischen Fällen; und sie sind immer nur so intelligent, wie die Nutzer, die die jeweiligen Daten aufbereitet und die dazu passenden Algorithmen entwickelt haben.
Die nächsten Hypes dieser Kolumne heißen: Virtual, Augmented, Location-based und Mobile.
Was fehlt? Sagen Sie es uns!
Martin Szugat