Semantische Suchmaschine Powerset gestartet

Sie ist sicher nicht der erste Versuch, aber wohl eine der am heißesten erwarteten semantischen Suchmaschinen. Seit vergangenem Montag ist die bislang nur für den englischsprachigen Bereich funktionierende Suchmaschine Powerset des in San Francisco ansässigen Anbieters Powerlabs offiziell in der Beta-Phase im Netz.Die Benutzer können weiterhin auf herkömmliche Weise ihre Suchbegriffe eingeben, diese aber auch in ganzen Sätzen als Fragen ausformulieren. Geantwortet wird aber weiterhin größtenteils mit Suchergebnislisten.

Bislang wurden als Quellen nur die Wikipedia und die Datenbank Freebase eingespeist. Das schränkt die Anzahl möglicher Suchergebnisse natürlich stark ein, so dass eine Vergleichbarkeit der Suchergebnisse im positiven wie im negativen Sinne mit den herkömmlichen großen Suchdiensten nicht gegeben ist.

Einige kleine Tests meinerseits - bislang läuft alles nur in englischer Sprache, der ich aber mächtig bin - verliefen auf den allerersten Blick noch nicht sehr verheißungsvoll.

Die Frage “who is merkel?” brachte mir als erstes Suchergebnis einen Treffer zu einer Stadt in den USA und erst an zweiter Stelle unsere Bundeskanzlerin, dahinter weitere Personen. Das ist natürlich legitim, denn warum sollte ich ausgerechnet nach dieser bestimmten Frau Merkel suchen? Andererseits würde es sich für die Zukunft anbieten, einen gewissen Popularitätsgrad zu berücksichtigen: wenn sich zeigt, dass die meisten User, die diese oder eine ähnliche Frage stellen, Angela Merkel meinen.

Erst “who is angela merkel?” zeigte dann direkt im Kopf der Suchergebnisse eine Tabelle mit einem Artikelanriss und Daten aus einer Datenbank, so z.B. dem Namen ihres Ehemannes.

Dann wollte ich mal sehen, wie die Amis es so mit ihrem Noch-Präsidenten halten. Frau Merkel ist vielleicht doch zu unbekannt. “who is bush?” zeigte nun auch gleich eine Tabelle im Kopf - aber diese enthielt nicht die Daten eines gewissen George W., sondern die der gleichnamigen Band. Ein paar Karteikartenreiter verwiesen auf andere Tabellen - eine gute Möglichkeit, mehrere potenziell gesuchte Entitäten mit Datenbankeinträgen zu präsentieren - die aber allesamt nichts mit dem Präsidenten zu tun hatten. Bis auf das zweite Suchergebnis, in dem der Gesuchte zumindest mittelbar vorkam (es ging um John McCain), gar nichts zu ihm auf der ersten Seite. Selbst Sängerin Kate Bush hat den Vorzug bekommen.

Die Frage “how is bush?” probiere ich lieber gar nicht erst, aber wie wäre es mit “where is bush?”? Ich erfahre, dass er “Contained by” United States, Williamson County und Illinois ist, ersteres mit Flagge versehen. Ja, das kann schon sein, ist aber aufgrund der Quellen auch nicht so unwahrscheinlich.

Nun fallen mir aber so langsam die farblich markierten Textstellen auf, und genau hier kann man teilweise nachvollziehen, auf welche semantischen und linguistschen Prinzipien diese Suche in etwa basiert. Ortsnamen sind dunkelgelb hinterlegt, andere “Ortsbezeichnungen” wie etwa “school” geringfügig heller. Offensichtlich sind Powerset bestimmte Örtlichkeiten sowie Dinge, die die Bedeutung eines Ortes haben können, bekannt.

Hellgelb (über die von mir gewählten Farbbezeichnungen kann man durchaus streiten) hingegen ist alles hinterlegt, wodurch Powerset die Verbindung zwischen der gesuchten Entität und in diesem Beispiel der Ortsangabe herstellt - beispielsweise Präpositionen wie “of”, “in”, “on” samt weiterer dazwischen stehender Wörter wie bestimmten Artikeln oder weiteren aus semantischer Sicht nicht besonders interessanten “Füllseln”. Ähnlich funktioniert dies, wenn man zur Frage “who is …?” zurückkehrt. Hier ist das, was derjenige “ist”, mittelgelb hinterlegt, das Verb (und wiederum weitere Füllwörter), das die Prädikation über die gesuchte Entität herstellt - wie etwa “is”, “was” - hellgelb hinterlegt.

Fakt ist, dass noch eine Menge Arbeit zu machen ist und noch viel Verbesserungspotenzial drinsteckt. Die Suchgeschwindigkeit lässt gegenüber dem, was man von den üblichen Suchmaschinen gewohnt ist, auch noch zu wünschen übrig, und das trotz sehr viel weniger zu analysierender Datensätze - die aber natürlich um so rechenintensiver sind. Allzu praxistauglich ist Powerset somit noch nicht, aber es ist ja auch erst die Beta.

Aber für das semantisch geschulte Auge lassen sich durchaus Strategien erkennen, die sich dem Laien nicht unbedingt erschließen. Sicherlich kann man viel Kritik üben. Man darf aber von einer semantischen Suchmaschine auch nicht von heute auf morgen Wunder erwarten. Denn es ist, selbst bei zumindest halbautomatisch lernenden Systemen, schon ein großer Haufen Arbeit, menschliches Wissen über Konzepte und Bedeutungsbeziehungen auf eine Maschine bzw. ein Computerprogramm zu übertragen.

Bitte hinterlassen Sie Ihren Kommentar zu diesem Eintrag.

4 Kommentare für “Semantische Suchmaschine Powerset gestartet”

Yahoo! wird semantisch | Semantik-Blog

[...] Zusammenhang bringen kann. Nützlich könnte eine solche Vorstrukturierung beispielweise auch für die letzte Woche gestartete semantische Suchmaschine Powerset [...]

Paolo PinkelNo Gravatar

Ich würde mich freuen, wenn Du hier öfter schreibst!

Vielleicht ja einmal über PIA, der semantischen Suchmaschine des DAI-Labors der TU Berlin.

Sonja KrausNo Gravatar

Hallo Paolo,
Dein Kommentar war doch tatsächlich in Akismet reingerutscht.
Ich werde sicherlich noch ganz viel schreiben, aber derzeit läuft der Countdown für noch zwei mündliche Prüfungen. Danach habe ich dann aber wieder Zeit zum Schreiben. Die einzige Semantik, die mich in den nächsten 12 Tagen interessieren wird, ist die dekompositionelle.

Powerset hat einen Käufer gefunden: Microsoft | Semantik-Blog

[...] allzu lange nach ihrem Start hat die semantische Suchmaschine Powerset bereits einen Käufer [...]

Einen Kommentar schreiben

Wichtig: Ihre E-Mail-Adresse wird nicht veröffentlicht.

Der letzte Eintrag wurde hinzugefügt am: Mittwoch, 14 Mai 2008 um 18:40 in:

Archiv

Sonstiges