Vom Leben und Sterben der Hommingberger Gepardenforellen

Viel hat sich im Bereich der Suchmaschinen in den letzten fünf Jahren getan. So ist die deutsche Suchmaschine Seekport seit dem Januar 2009 offline und momentan zu einer Art traurigem Mini-Webkatalog verkommen. Da seekport nie eine Rolle im gespielt hat, habe ich auch kaum Daten über den Wettbewerb hinaus gesammelt.

Spannend wird sein ob Yahoo diesem Beispiel folgt, nachdem es sich an Microsoft verhökert hat und dabei ist seine Existenz als eigenständige Suchmaschine aufzugeben. (Wobei Yahoo, im Gegensatz zu Seekport, bereits einschlägige Erfahrungen im Betrieb von Webkatalogen hat.) ;-)

Das erste Jahr

Im ersten Jahr (also dem Wettbewerb und das nächste halbe Jahr drauf) standen die Daten für alle vier Suchmaschinen noch täglich zur Verfügung.

Zu sehen ist der Fortgang der Indizierung der Wettbewerbsseiten durch alle vier im Wettbewerb betrachteten Suchmaschinen. Mit anderen Worten die Anzahl der gefundenen Treffer für das Keyword "Hommingberger Gepardenforelle".

Sehr gut zu erkennen ist am Anfang die Unfähigkeit von MSN und Seekport schnell große Teile des Webs zu indizieren und in ihren Ergebnissen zu berücksichtigen. Google hatte damals offenbar weitaus bessere, technische Voraussetzungen um das Internet in großen Bereichen zeitnah zu erfassen. Witzig ist auch der Umstand, dass Seekport sogar noch besser abschneidet als Microsoft.

Und was kam dann?

Für Google, Yahoo und Bing ("The Search Engine formerly known as MSN") habe ich seit dem ersten Tag des SEO-Wettbewerbs täglich die Werte für die Anzahl der indizierten Dokumente. Allerdings ist eine solche Zeitreihe wegen der vielen Einzeldaten und vereinzelter Ausreißer schlecht zu lesen, daher habe ich für alle weiteren Diagramme die Tageswerte in monatliche Durchschnittswerte umgerechnet.

Wie hat es sich nun die Indizierung in den letzten fünf Jahren entwickelt?

Wie zu erwarten ging die Anzahl der Dokumente, welche zu großen Teilen eigens für den Wettbewerb generiert wurden schnell zurück. Erstaunlich, ist der Umstand, dass Yahoo nur extrem langsam an Daten verliert. Hier könnte sich ein gewisser Mangel an Aktualität abzeichnen. Dasselbe könnte auch für MSN/Bing gelten, welche lange Zeit mehr Dokumente als Google ausgewiesen hat.

Wenn man die Zahlen in Prozente umrechnet (dabei wird das jeweilige Maximum als 100% angenommen) ergibt sich wiederum ein spannendes historisches Bild:

So haben Yahoo und Microsoft offensichtlich Ende 2007 / Anfang 2008 ihre Datenkapazität ausgebaut und trotz des Verschwindens von Dokumenten plötzlich deutlich mehr Dokumente zur aussterbenden Hommingberger Gepardenforelle im Index. Microsoft hat zu diesem Zeitpunkt sogar sein Maximum für diese Dokumente.

Und die Gegenwart?

Durch den extremen Peak an Dokumenten bei Google wird eine genauere Analyse der gegenwärtigen Situation erschwert. Daher erfolgt hier nun eine Aufstellung der absoluten Zahlen, welche sich lediglich auf den Zeitraum 01.2009 bis 12.2010 bezieht:

Dieses Diagramm lässt die Interpretation zu, dass Bing seit Mitte 2010 eine vergleichbare Indexaktualität aufweist wie Google. Yahoo ist in Bezug auf die Aktualität des Index etwas abgeschlagen (zumindest was diese Daten und ihre Interpretation anbelangt). Die Annahme, dass Yahoo tatsächlich das Zehnfache an Dokumenten kennt, und Google und Microsoft sich hier irren ist hingegen wenig plausibel.

Ein weiterer spannender Vergleich zwischen den Suchmaschinen ergab sich aus einer großangelegten Umstellung dieser Webseite in den letzten Wochen. Es wurden sehr viele gesperrte Dokumente frei gegeben und im folgenden Diagramm ist die Anzahl der Botbesuche im Zeitraum 23.10.2010 bis 07.12.2010 zu sehen:

Hier ergibt sich noch einmal eine interessante Änderung der Faktenlage. Offensichtlich ist Yahoo mit seinen Spidern deutlich stärker darauf ausgerichtet ihnen bisher unbekannte Dokumente zu indizieren als erwartet. Im Tagespeak wird hier sogar deutlich Google überholt. Allerdings muss ich sagen, dass das Spiderverhalten von Google deutlich angenehmer für einen Serverbetreiber ist.

Völlig abgeschlagen mit einem Maximum von (in diesem Dokument nicht erkennbaren) 6 Dokumenten liegt dagegen Bing mit seinem Indizierungsverhalten. Microsoft ist offensichtlich nicht bereit Änderungen an ihnen bekannte Dokumente zu berücksichtigen und bei einer Änderung des Meta-Robots-Tags mal in die Tiefe des Deep Webs hinabzutauchen.

Zusammenfassung der Interpretationen dieser Zahlen

Zusammenfassend lässt sich also sagen, dass Google unangefochtener Technologieführer in der Websuche war und ist. Yahoo hingegen ist mit den Jahren besser darin geworden ihnen bisher unbekannte Dokumente zu erschließen. Microsoft wiederum ist mit seiner Suchmaschine Bing ganz gut darin geworden ihnen bekannte Dokumente im Index relativ aktuell abzubilden. Was jedoch die Erkundung des Deep Web angeht hinkt Microsoft, nach den Daten dieser Webseite, noch deutlich hinter dem Technologiezweiten Yahoo hinterher. Technologisch betrachtet hätte somit erst eine Fusion der beiden Suchtechnologien von Yahoo und Microsoft eine mit Google vergleichbare Suchmaschine hervorbringen können.

In diesem Licht betrachtet ist das Abschalten der Yahoo-Technik zu Gunsten von Bing ein umso größerer Verlust für die Netzgemeinde und (mal wieder) eine unternehmerisch fragwürdige Entscheidung von Microsoft.