Computer als Helfer des Menschen
Warum eigentlich soll Sprache maschinell verarbeitet werden? Warum können wir auf die Unterstützung des Computers nicht mehr verzichten?
Mit dem Siegeszug des Computers im privaten wie im kommerziellen Bereich ist vor allem eines passiert: Die Menge der digital vorliegenden Informationen ist explosionsartig angewachsen. Jedermann kann zum Publisher - und sei es nur einiger Gedanken in einem Weblog - werden. Diese digitalen Informationen können nahezu beliebig dupliziert werden und sich überall hin verbreiten.
Die Kehrseite dieser Entwicklung ist, dass diese gewaltige Informationsmenge von Menschen allein gar nicht mehr überschaubar und zu verarbeiten ist. Es liegen zwar unheimlich viele Informationen vor, aber darin die gerade relevanten Informationen zu finden, gleicht der Suche nach der Nadel im Heuhaufen.
Da die Daten ohnehin in digitaler Form vorliegen, liegt es nahe, diese auch direkt vom Computer verarbeiten zu lassen. Denn für einen Computer ist eine große Anzahl an Rechenoperationen in sehr kurzer Zeit möglich - sofern der Computer weiß, was er überhaupt berechnen soll. Dies ist dem menschlichen Geist so nicht gestattet. Selbst das Lesen eines Textes auf rein perzeptiver Ebene nimmt für den Menschen eine Zeitspanne an, die um ein Vielfaches größer ist als die, die ein Computer für diese Art von Erfassung benötigt. Das Gleiche gilt natürlich auch, wenn in riesigen Datenbeständen gesucht werden soll. Hier ist der Mensch lediglich dann überlegen, wenn er die benötigte Information in ihrem gesamten Kontext zufällig “gespeichert” hat und in der Lage ist, diese abzurufen.
Heutzutage verwenden viele maschinelle Systeme in erster Linie immer noch Verfahren, die mit Schlüsselwörtern arbeiten, um die “Bedeutung” eines Textes bzw. dessen Relevanz zu erfassen. Je häufiger ein Schlüsselwort in einem Text vorkommt, desto relevanter muss dieser Text sein. Auch die großen Internetsuchmaschinen arbeiten immer noch nach diesem Grundprinzip, auch wenn die Algorithmen natürlich im Laufe der Zeit verfeinert und komplizierter geworden sind. Mit latent-semanstischer Indizierung (LSI) kommt ein Verfahren hinzu, das semantischen Faktoren auf mathematischer statt linguistischer Ebene Rechnung zu tragen versucht.
Denn nicht immer kommt das Schlüsselwort selbst in einem Text vor. Zur Relevanzermittlung sollten Synonyme, also bedeutungsgleiche Wörter, ebenso berücksichtigt werden können wie semantisch verwandte Wörter oder Sachverhalte, die sich aus dem Textzusammenhang ergeben. Zufallstreffer sollten minimiert werden, die das Schlüsselwort zwar enthalten, wo es aber außerhalb des Zusammenhangs steht.
Ohne Frage fällt Menschen die Differenzierung und Gewichtung leichter als Computerprogrammen. Der Computer ist aber dort eindeutig im Vorteil, wo es um die Verarbeitung und Vorabselektion ungeheuer großer Informationsmengen geht. Die Übertragung menschlicher Denkprozesse bei der Verarbeitung von Sprache auf Computerprogramme ist wahrlich keine triviale Aufgabe; ob Bedeutung überhaupt durch Maschinen berechenbar ist, ist umstritten. Meine Meinung dazu ist: warum nicht, wenn wir es schaffen, die Denkprozesse und sprachlichen Regelmäßigkeiten aus dem menschlichen Gehirn auf eine Maschine zu übertragen?
Sicherlich gibt es Sonderfälle, in denen eine korrekte Analyse im Rahmen der vorliegenden Informationen im entsprechenden Zusammenhang nahezu unmöglich sein dürfte. In manchen Gesprächen abends am Stammtisch wurden mir durchaus schon solche Fälle entgegen gehalten. Meiner Meinung nach ist in diesen Fällen ein Mensch aber ebenso mit der korrekten Analyse überfordert.
Einen Kommentar schreiben