Crawler

Dominik Strzoda von Dominik Strzoda · zuletzt aktualisiert am 

Um immer de aktuellsten und relevantesten Ergebnisse liefern zu können, setzen Suchmaschinen wie Google, Bing, DuckDuckGo und Co. auf sogenannte Webcrawler.

Ein Crawler (manchmal auch Search Bot oder Spider genannt) ist ein Programm, welches automatisiert das Internet nach Dokumenten durchsucht, diese analysiert und in Datenbanken abspeichert (indexiert).

Für die Suchmaschinenoptimierung ist es essentiell ein Grundverständnis für die Funktionsweise von Crawlern mitzubringen.

Crawler arbeiten eine Liste vordefinierter Arbeitsschritte ab. Sie beginnen mit einer Reihe URLs, die sie aufrufen (der. sog. crawl frontier) und folgen hier prinzipiell jedem weiteren Hyperlink, dem sie auf einer Website begegnen. 

Es gibt hier zwei Einschränkungen. Einmal kann man Crawler mittels dem Link-Attribut rel = "nofollow" anweisen, einem bestimmten Hyperlink nicht zu folgen. Eine zweite Einschränkung ist das sogenannte "Crawl Budget" - eine vom Betreiber des Crawlers festgelegte Obergrenze wie lange sich ein Crawler auf einer bestimmten Website maximal aufhalten soll.

Nachdem ein Crawler eine Seite durchforstet hat, legt er die Inhalte, die ihm auf dieser begegnet sind im jeweiligen Suchmaschinenindex (einer Datenbank) ab, wo Suchmaschinen sie dann schnell durchsuchen können.

Das Verhalten des Crawlers auf der eigenen Seite kann mittels der sogenannten robots.txt beeinflusst werden. So kann man den Crawler hier etwa anweisen, bestimmte Seiten oder Verzeichnisse vom Index auszuschließen und nicht zu erfassen. Ebenfalls kann man Crawlern mitteilen, wo sich die Sitemaps befinden, oder welche Teile der Website wie häufig aktualisiert werden.

Neben der robots.txt kann Crawlern auch mittels Meta-Tags (Meta-Robots) im <head>-Bereich einer Website Anweisungen zur Indexierung geben.

Einer der historisch ersten Crawler war der PERL-basierte World Wide Web Wanderer (WWW Wanderer). Dieser krabbelte in den frühen 1990ern durch das junge Internet und befüllte mit seinen gesammelten Daten den Web-Index Wandex.

Weiterführende Quellen

Bleib auf dem Laufenden!

Melde dich für unseren Newsletter an und erhalte regelmäßig Updates zu den neuesten Inhalten, Tipps und Best Practices aus der Online Marketing Welt.

Kein Spam Jederzeit abbestellbar Datenschutzgarantie