Wie viele meiner Unterseiten hat Google eigentlich indexiert? Dieser Frage konnte man bis zur Ankündigung „Geheimnisse des Google-Index enthüllt“ aus dem Juli diesen Jahres nur mit der bekannten site:-Abfrage auf den Grund gehen. Während man seit der Ankündigung innerhalb der Webmaster Tools den genauen Indexierungsstatus der eigenen Webseiten einsehen kann (zu finden unter „Status“ -> „Indexierungsstatus“, mehr dazu in meinem E-Book), hat sich der Blick von außen auf eine Domain doch stark eingeschränkt. Noch vor wenigen Monaten konnte man – eine nicht restriktive Suchanfrage und entsprechend große Seite vorausgesetzt – noch problemlos die Ergebnisse 1 bis 1.000 zu einer Domain über die site:-Abfrage einsehen. Doch wie sieht es heute aus?
Wer sich die Mühe macht und z.B. nach site:wikipedia.org oder site:bild.de sucht, wird feststellen, dass bereits weit vor der 1.000er-Grenze Schluss ist. In der Regel wird bereits nach knapp 700 Ergebnissen der Hinweis auf den Supplemental Index gegeben: 700 relevante Ergebnisse, wer mehr sehen will, kann die Suche ohne Filterung wiederholen. Doch selbst dann ist unter 1.000 Seiten Schluss.
Haben die beiden oben genannten Domains nicht mehr so viel qualitativ hochwertigen Content zu bieten? Das wäre beim Hinweis „Seite 8 von ungefähr 5.890.000 Ergebnissen (0,54 Sekunden)“ doch arg dürftig. Man wird das Gefühl nicht los, dass Google hier bewusst die Anzeige einschränkt – denn die Angabe von knapp 5,9 Millionen Seiten dürfte doch relativ grob sein und vom „Realwert“ in den Webmaster Tools abweichen. So zumindest meine Erfahrung.
Warum es wichtig ist, den Indexierungsstatus der eigenen Webseite zu kennen
Für die meisten Webmaster ist der genaue Indexierungsstatus fremder Webseiten nicht sonderlich interessant, aber für die eigene Webseite möchte man diese Information dann doch gerne haben. In den Google Webmaster Tools kann man diesen Wert finden. Um Probleme bei der URL-Struktur der eigenen Webseite zu erkennen, lohnt sich ein regelmäßiger Blick auf die dort angezeigte Anzahl. Wenn die Anzahl an indexierten URLs weit über den Wert liegt, welchen man erwarten würde, so sollte man sich auf die Suche nach der Ursache machen. Doch auch das Gegenteil muss nicht positiv sein.
Eine Beispielrechnung für die Gesamtanzahl an URLs eines Online-Shops könnte wie folgt aussehen:
Anzahl an Produkten in einem Online-Shop
+ Anzahl an Kategorien
+ Anzahl an paginierten Seiten
+ Anzahl an Filterseiten (z.B. Marke + Kategorie)
+ Anzahl an Marken
+ Anzahl an Webseiten wie „Über uns“ oder Impressum
+ Anzahl der Artikel im Blog
+ Anzahl an URLs, die über die robots.txt blockiert sind
– Seiten, die über Robots „Noindex“ geblockt sind
– Seiten, die nur von URLs verlinkt werden, die über robots.txt blockiert sind
——————————————————————————-
Gesamtanzahl der URLs, die man sich erklären kann
URLs, die über die robots.txt blockiert sind, sollten nicht abgezogen, sondern addiert werden. Denn die robots.txt blockiert nicht die Indexierung von Seiten, sondern nur deren Crawling – und nicht selten entscheidet sich Google dazu, die entsprechenden URLs trotzdem zu indexieren. Durch das Crawling-Verbot sind Seiten, die nur von einer per robots.txt blockierten URL angelinkt werden, für Suchmaschinenrobots hingegen nicht erreichbar und sollten deshalb abgezogen werden.
Sofern sich die ermittelte Gesamtanzahl an URLs von dem in Google Webmaster Tools angezeigten Wert unterscheidet – sowohl positiv als auch negativ – sollte die Webseite genauer untersucht werden. Beispielhaft dazu ein Chart einer Webseite. Auffällig ist, dass die Anzahl indexierter URLs sprunghaft und signifikant nach oben geschnellt ist. Wir sprechen hier nicht von 1.000 Seiten, sondern von über 500.000 neuen URLs. Bereits der Anstieg von August zu September ist auffällig: Hier hat bereits eine Verdoppelung der Anzahl an indexierten Seiten stattgefunden.
Was können Gründe für „zu viele“ indexierte URLs sein?
Mehr indexierte URLs als erwartet zu haben, muss bei der Suchmaschinenoptimierung nicht zwangsläufig besser sein. Eigentlich gilt hier die Devise: so viele URLs wie nötig, so wenige URLs wie möglich.
Gründe, weshalb der Indexierungsstatus aus dem Ruder läuft, gibt es viele. Die Liste stellt einen Auszug dar:
- Der Server gibt auch bei „invaliden“ URLs den HTTP-Statuscode 200 aus.
- Der Content ist über klein- und großgeschriebene URLs erreichbar.
- Jeder Hostname wird vom Server akzeptiert, z.B. auch http://w.meinedomain.de/.
- Session-IDs in den URLs.
- Unnötige Parameter werden nicht von der Indexierung ausgeschlossen.
- Die Seite ist unter http und https indexiert.
Was können Gründe für „zu wenig“ indexierte URLs sein?
Wenn weit weniger URLs im Google Index vertreten sind als erwartet, kann auch das ein Hinweis auf ein Problem sein.
- Wurde die Angabe „Noindex“ unbewusst zu häufig eingesetzt?
- Gibt es Probleme mit dem Canonical-Tag?
- Sind Verteiler-Seiten der Domain per robots.txt blockiert?
- Werden alle URLs mindestens 1x angelinkt?
- Wurden zu restriktive Einstellungen in Google Webmaster Tools für Parameter gewählt?
- Hat die Domain ein zu niedriges Verhältnis an Backlinks zu Content?
- Stellt mein Content keinen Mehrwert dar? Ist der Content eventuell kopiert worden?
- Wurde die Domain erst vor kurzem online gestellt?
Wie geht man vor, wenn der Indexierungsstatus aus dem Ruder läuft?
Bei einigen der Problem helfen die Google Webmaster Tools weiter. Unter dem Punkt „HTML-Verbesserungen“, zu finden unter „Optimierung“ listet Google beispielsweise Seiten auf, die sich dieselben Meta-Informationen teilen. Auch über Parameter und deren Crawling kann unter „Konfiguration“ -> „URL-Parameter“ eine Liste von URLs mit Parametern angesehen werden. Dazu müssen die Beispiel-URLs zu einem der gelisteten Parameter aufgerufen werden. Um zu kontrollieren, ob eine Seite auch unter https:// indexiert wurde, kann der Suchbefehl „site:meinewebseite.de inurl:https“ verwendet werden.
Über die Google Webmaster Tools lassen sich bereits einige Problemfelder identifizieren. Weiteren Aufschluss über Probleme kann ein Crawlvorgang der Webseite liefern. Empfehlenswerte Tools sind dabei unter anderem der Screaming Frog und das SEO-Toolkit von Microsoft.