Rezension »Suchmaschinen«
(Rezension erschienen in: »Das Argument«, Nr. 288/2010)
Gugerli, David, Suchmaschinen. Die Welt als Datenbank, Suhrkamp, Frankfurt/M 2009 (118 S., br., 10 €)
Eine Suchmaschine ist primär keine technische, sondern eine soziale Konstruktion, und als solche bewegt sie sich im Spannungsfeld konfligierender Interessen »zwischen jenen, die sie einsetzen wollen, und jenen, auf die sie angesetzt sind« (10). Ziel des Verf., Professor für Technikgeschichte an der ETH Zürich, ist es, »den Zusammenhang zwischen gesellschaftlicher und technischer Entwicklung herauszuarbeiten«, wozu er vier Fallbeispiele analysiert: die Fernsehshow »Was bin ich?« von Robert Lembke, die Sendung »Aktenzeichen XY« von Eduard Zimmermann, das Konzept der »Kybernetik der Polizei« des früheren BKA-Präsidenten Horst Herold und die Entwicklung einer allgemeinen Abfragesprache durch den Datenbanktheoretiker Edgar F. Codd.
Während Lembkes ›Suchmaschine‹ per Rateteam für die »Erwartungssicherheit […] stabiler Zuordnungen zwischen Person und Beruf« (36) steht, beruht Zimmermanns ›Suchmaschine‹ auf »einem der älteren Generation sehr vertrauten Verfahren der Durchsetzung von Normen« (39), der Mobilisation des Volkskörpers zur Ermittlung des Devianten durch Denunziation. Zimmermann selbst verglich die – statistisch bedeutungslose – Fernsehfahndung bereits mit dem »Wirkungsprinzip einer elektronischen Datenbank, aus der man […] erstaunlich präzise Informationen abrufen kann« (42), doch erst BKA-Chef Herold realisierte diese Vision, indem er die flächendeckende und vernetzte Computerausstattung der Polizei durchsetzte und für die Vereinheitlichung der digitalisierten Datenbestände sorgte. Dies ermöglichte eine Mustererkennung wie sie als Rasterfahndung während des ›Deutschen Herbstes‹ zum Einsatz kam. Codd schließlich entwickelte mit der relationalen Datenstrukturierung jenes Konzept, das heute den meisten Datenbanken und webbasierten Suchmaschinen zugrunde liegt. Leider versäumt es der Verf., die ursprüngliche Motivation Codds, die Suche den Experten zu entreißen und sie einem »informationstechnisch inkompetenten, aber abfragetechnisch urteilssicheren Kreis von zukünftigen Nutzern« (71) zu übergeben, auf ihre Realisierung hin zu untersuchen. Er hätte feststellen müssen, dass die entwickelte Abfragesprache den »urteilssicheren Nutzern« keineswegs leichter zugänglich war. Erst mit der Reduktion der Komplexität von Abfragen auf ein Eingabefeld durch Google wurde aus der Benutzung von Suchmaschinen ein Massenphänomen.
Insgesamt enttäuscht der Essay. Abgesehen von wagen Hinweisen darauf, dass die vier »völlig unterschiedlichen Objekte« dazu beigetragen haben, dass »programmiertes und technisiertes Suchen in den vergangenen vier Jahrzehnten den Status einer selbstverständlichen Praxis erhalten« (92) habe, wird nicht klar, welche These die vier Beispiele begründen oder illustrieren sollen. Der Verf. verpasst die Chance, sie als Elemente einer Sozialgeschichte des Suchens zu interpretieren, indem ihm der Begriff der ›Suchmaschine‹ unter der Hand Mittel und Zweck verkehrt.
Warum gibt es eigentlich noch keine „Freie Suchmaschine“, die Google das Wasser reichen könnte? Von den Linux-Evangelisten hören wir doch immer , wie toll die freie Open Source Software (, die obwohl kostenlos kaum jemand haben will) ist. Oder doch nicht so toll? Anscheinend reicht es noch nicht mal für eine vernünftige Open-Source-Suchmaschine.
@GegenAlleParteien: Im Anwendungsbereich sind die Freien Datenbanken bzw. Suchmaschinen den proprietären tatsächlich schon ebenbürtig oder überlegen. Bei den relationalen Datenbanken sind MySQL und PostgreSQL am weitesten verbreitet und müssen sich vor kommerziellen Konkurrenten wie Oracle nicht verstecken (wobei die Zukunft von MySQL etwas unsicher ist, seit die Mutterfirma von Oracle geschluckt wurde, was zu diversen Forks wie MariaDB geführt hat). Bei Volltextsuchmaschinen (die anderes als im Artikel behauptet übrigens nichts mit den von Codd entwickelten relationalen SQL-Datenbanken zu tun haben) sind Freie Projekte wie Apache Lucene, Solr und Sphinx führend, die tatsächlich auch von den größten Online-Shops hinter den Kulissen eingesetzt werden, wie ich als eigener Erfahrung weiß.
Um aber Google Konkurrenz machen zu können, braucht man nicht nur gute Software, sondern auch eine Serverfarm mit Hunderttausenden von Rechnern, insofern ist es kein Wunder, dass sich das kein Freies Projekt leisten kann. Tatsächlich können es sich inzwischen (nachdem Yahoo seine eigene Suchmaschinentechnik aufgegeben hat) nur noch zwei Firmen leisten, nämlich Google und Microsoft. Es gab einige Versuche, verteilte Suchmaschinen im P2P-Stil einzurichten (z.B. YaCy), aber bislang hat noch niemand herausgefunden, wie man diesen Bereich erfolgreich dezentralisieren kann – Beiträge dazu sind also gern gesehen und Verbessern ist bekanntlich die ergiebigste Form der Kritik 🙂
@Christian: In dem Buch über Google (»Der Google-Komplex« von Theo Röhle) ist tatsächlich die Rede davon, dass der Index in Tabellen verwaltet wird, um WordIDs, DocIDs und UrlIDs zu speichern und zu invertieren. Ich habe dann Tabelle=RDB gesetzt. Wie ist es wirklich?
@Stefan: Tabellen verwenden beide. Aber in Googles selbstentwickeltem System „BigTable“ werden wohl im Wesentlichen Name/Wert-Paare gespeichert, die weitere Struktur der gespeicherten Werte ist für die Abfrage nicht weiter interessant. Das von Codd entwickelte relationale Modell beschreibt dagegen genau, wie strukturierte Daten auf verschiedene Tabellen und innerhalb jeder Tabelle auf verschiedene Attribut-Werte aufgeteilt werden, die alle einzeln oder in Kombination abgefragt werden und auch über verschiedene Tabellen hinweg miteinander verbunden werden können. Für die Volltextsuche wäre das Overkill, da kommen normalerweise einfachere Name/Wert-Zuordnungen zum Zuge, die viel weniger Abfragemöglichkeiten bieten, dafür aber schneller sind.
@Christian: Aha, ok, das hört sich aber immer noch wie ein denormalisiertes Subset eines relationalen Modells.an. Ja, ist nicht wirklich relational: Die »BigTable« von Google hat die Eigenschaft, dass es beliebige Spaltenanzahl je Zeile geben kann und einzelne Zellen unterschiedliche Größe haben können. Na, intern sind das eh nur wieder Referenzen 😉