In der Regel müssen sich Publisher um das im Folgenden beschriebene Crawling-Budget keine Gedanken machen. Wenn neue Seiten tendenziell am Tag ihrer Veröffentlichung gecrawlt werden, muss sich der Webmaster nicht um das Crawling-Budget kümmern. Außerdem wird eine Website mit weniger als ein paar Tausend URLs meistens effizient gecrawlt.
Die Priorisierung, was wann gecrawlt werden soll und wie viele Ressourcen der Server, der die Website hostet, für das Crawling bereitstellen kann, ist eher für größere Websites wichtig bzw. für Websites, die zum Beispiel Seiten automatisch auf der Grundlage von URL-Parametern erstellen.
Begrenzung der Crawling-Frequenz
Der Googlebot ist ein verantwortungsvoller Akteur im Web. Seine wichtigste Aufgabe ist das Crawling, ohne dabei die Nutzererfahrung auf der betreffenden Website zu beeinträchtigen. Mit der sogenannten "Crawling-Frequenz" wird die maximale Abrufrate für eine bestimmte Website begrenzt.Einfach ausgedrückt ist dies die Anzahl der gleichzeitigen parallelen Verbindungen, die der Googlebot zum Crawlen der Website nutzen kann, sowie die Zeit, die er zwischen den Abrufvorgängen warten muss. Die Crawling-Frequenz kann sich abhängig von den folgenden beiden Faktoren erhöhen oder verringern:
- Crawling-Kapazität: Wenn die Website über einen bestimmten Zeitraum schnell reagiert, erhöht sich die Frequenz, sodass mehr Verbindungen für das Crawling genutzt werden können. Wenn die Website langsamer wird oder mit Serverfehlern antwortet, verringert sich das Limit und der Googlebot crawlt weniger.
- In der Search Console festgelegte Begrenzung: Website-Inhaber können das Crawling ihrer Website durch den Googlebot reduzieren. Eine Einstellung auf höhere Werte erhöht jedoch nicht automatisch das Crawling.
Crawling-Bedarf
Wenn für das Indexieren kein Bedarf besteht, geht nur geringe Aktivität vom Googlebot aus, auch wenn das Limit der Crawling-Frequenz noch nicht erreicht ist. Zum Feststellen des Crawling-Bedarfs sind die folgenden beiden Faktoren ausschlaggebend:- Beliebtheit: URLs, die im Internet beliebter sind, werden tendenziell häufiger gecrawlt, um sie in unserem Index auf dem neuesten Stand zu halten.
- Veralteter Status: Unsere Systeme versuchen zu verhindern, dass sich veraltete URLs im Index befinden.
Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu indexiert werden muss.
Crawling-Frequenz und Crawling-Bedarf zusammen ergeben das Crawling-Budget. Nach unserer Definition ist damit also die Anzahl der URLs gemeint, die der Googlebot crawlen kann und will.
Faktoren, die sich auf das Crawling-Budget auswirken
Gemäß unserer Analyse kann es sich negativ auf das Crawling und die Indexierung einer Website auswirken, wenn zahlreiche URLs mit geringem Mehrwert vorhanden sind. Nach unseren Erkenntnissen können URLs mit geringem Mehrwert in die folgenden, nach ihrer Bedeutung aufgeführten Kategorien unterteilt werden:- Facettierte Navigation und Sitzungskennungen
- Duplizierte Inhalte auf der Website
- Soft Error-Seiten
- Gehackte Seiten
- Unbegrenzte Bereiche und Proxys
- Inhalte von geringer Qualität und Spam
Die Verschwendung von Serverressourcen für derartige Seiten geht zulasten von Crawling-Aktivitäten von Seiten, die tatsächlichen Mehrwert haben. Dadurch werden gute Inhalte auf einer Website unter Umständen erst mit deutlicher Verzögerung gefunden.
Wichtige Fragen
Das Crawling ist der Einstiegspunkt für Websites in die Suchergebnisse von Google. Effizientes Crawling hilft bei der Indexierung einer Website in der Google-Suche.F: Hat die Geschwindigkeit der Website Einfluss auf mein Crawling-Budget? Wie sieht es mit Fehlern aus?
A: Je schneller eine Website ist, desto besser ist die Nutzererfahrung und desto höher ist auch die Crawling-Frequenz. Für den Googlebot ist eine schnelle Website ein Zeichen für gut funktionierende Server. So kann er mehr Inhalte über die gleiche Anzahl von Verbindungen abrufen. Auf der anderen Seite deuten zahlreiche 5xx-Fehler oder Zeitüberschreitungen beim Verbindungsaufbau auf das Gegenteil hin und das Crawling verlangsamt sich.
Wir empfehlen, den Crawling-Fehlerbericht in der Search Console zu beachten und die Anzahl der Serverfehler möglichst gering zu halten.
F: Ist das Crawling ein Faktor für das Ranking?
A: Eine höhere Crawling-Frequenz führt nicht zwangsläufig zu besseren Positionen in den Suchergebnissen. Google nutzt Hunderte Signale für das Ranking der Ergebnisse. Das Crawling ist zwar notwendig, um in den Ergebnissen zu erscheinen, aber kein Ranking-Signal.
F: Werden alternative URLs und eingebettete Inhalte in das Crawling-Budget eingerechnet?
A: Generell wird jede URL, die der Googlebot crawlt, in das Crawling-Budget einer Website eingerechnet. Alternative URLs wie etwa AMP oder hreflang sowie eingebettete Inhalte wie CSS und JavaScript müssen unter Umständen gecrawlt werden und fließen in das Crawling-Budget einer Website ein. Ebenso können sich lange Weiterleitungsketten negativ auf das Crawling auswirken.
F: Kann ich den Googlebot mit der Anweisung "crawl-delay" steuern?
A: Die nicht standardmäßige Robots.txt-Anweisung "crawl-delay" wird vom Googlebot nicht verarbeitet.
F: Hat die "nofollow"-Anweisung einen Einfluß auf das Crawl Budget?
A: Je nachdem. Jede URL, die gecrawlt wird, beeinflusst das Crawl Budget, also selbst wenn eure Seite eine URL mit "nofollow" auszeichnet, kann sie ja dennoch gecrawlt werden, falls z. B. eine andere Seite eurer Website oder eine andere Seite im Web darauf verweist und kein "nofollow" enthält.
Weitere Informationen zum Optimieren des Crawlings eurer Website findet ihr in unserem Blogpost zur Crawling-Optimierung aus dem Jahr 2009, der immer noch aktuell ist. Eure Fragen könnt ihr in den Foren stellen.
Post von Gary, Crawling- und Indexing-Team
0 Kommentare