Jeden Tag werden Millionen Websites durch den Google-Bot gecrawlt. Aber längst nicht alle Seiten werden Indexiert. Abbildung: Sashkin/Shutterstock.com
Was ist der Unterschied zwischen Crawling und Indexierung?
5 (100%) 1 vote

Die Indexierung und das Crawling einer Website sind sehr wichtige und entscheidende Schritte, damit eine Seite auf Google und anderen Suchmaschinen überhaupt gefunden wird. Was Crawling und Indexierung bedeuten und was der Unterschied zwischen diesen beiden Maßnahmen ist, wird in diesem Artikel geklärt.

Was ist die Indexierung?

Der Index von Google ist ein geordnetes Register, in dem alle Websites stehen, die Google durchsucht bzw. gecrawlt und erkannt hat. Google speichert diese Seiten dann in seinem Index und alle Websites, die in den Suchergebnissen bei einer Google-Suche auftauchen, stehen immer alle auch im Index. Im Index von Google herrscht immer Bewegung, es kommen ständig neue Seiten dazu oder es werden Seiten entfernt. Nicht alle Seiten im Index haben für Google den selben Wert. Es gibt viele verschiedene Rankingfaktoren, die nicht alle offen gelegt sind und die sich auch immer wieder ändern. Je nach Rankingfaktor, werden bestimmte Seiten in den Suchergebnissen dann weiter oben angezeigt als andere.

Wie kann man seine Seite zur Indexierung anmelden?

Es ist nicht nötig, seine Website zum indexieren bei Google anzumelden. Die Google Bots finden die Seite selbstständig und speichern sie auf dem Index. Was aber bei der Beschleunigung der Indexierung helfen kann, ist eine Anmeldung bei der Google Search Console. In der Google Search Console kann man auch eine XML-Sitemap einreichen, die ebenfalls bei einer schnelleren Indexierung einer Website helfen kann, aber keine Garantie dafür ist.

Was ist Crawling?

Damit eine Website überhaupt erst gefunden werden kann und dann in den Index aufgenommen werden kann, muss sie vorher gecrawlt werden. Sogenannte Crawler oder auch Bots durchsuchen das Internet nach Websites und lesen diese aus. Hierbei werden nicht alle Seiten gleichermaßen behandelt. Google verhängt für jede gefundene Domain ein Crawling-Budget, je höher dieses Budget ist, desto öfter und tiefgreifender wird die Seite gecrawlt. Das Budget kann leider auch zu schnell verbraucht werden, so dass nichts mehr übrig ist, bevor die Seite vollständig gecrawlt wurde. Das kann z.B. dann passieren, wenn sich durch einen Umbau oder andere Veränderungen die URL-Struktur der Seite ändert. Die Google-Bots crawlen dann die vielen URLs und gerade bei sehr großen Seiten, ist dann vielleicht nicht mehr genug Crawling-Budget für alle URLs übrig.

Fazit

Wenn eine Website einmal gecrawlt wurde, bedeutet dies übrigens nicht, dass diese nun für immer im Index von Google gespeichert sein wird. Nur Domains, die immer wiederkehrend gecrawlt werden, bleiben auch im Index enthalten. Bei einer neuen Website ist zudem nie vorhersagbar, wie lange es dauern wird, bis die Seite indexiert und gecrawlt sein wird. Das ganze hängt meist davon ab, wie umfangreich die Website ist. Bei besonders umfassenden Seiten, kann es durchaus mehrere Wochen dauern, bis die Website gecrawlt und dann auch indexiert ist. Es besteht zudem auch die Möglichkeit, bestimmte Inhalte einer Website nicht indexieren zu lassen. Dies ist z.B. dann von Vorteil, wenn es auf einer Website duplicate Content gibt oder einzelne Unterseiten kaum Inhalt besitzen. Den Suchmaschinen-Bots kann man die Anweisung, diese Seiten nicht zu indexieren, z.B. über den Befehl „nofollow“ geben, der in die robots.txt geschrieben werden muss, damit die Seite dann nicht von Crawling betroffen ist.