Crawler
Um die Menge an Inhalten des World Wide Web erfassen zu können, benötigt man einen sogenannten Crawler – auch Bot oder Spider genannt – der das Internet durchsucht. Auch die Suchmaschine Google hat solch einen Webcrawler – und zwar den Googlebot. Der Suchmaschinenbot durchsucht automatisch das Internet nach Webseiten und nimmt diese in den Index auf, damit die Seiten in den SERPs ihr Ranking erhalten. Ebenso werden Aktualisierungen und Veränderungen auf einer Seite erfasst. Crawler werden allerdings nicht ausschließlich von Suchmaschinen eingesetzt, sondern unter anderem auch zum Sammeln von Daten und Informationen wie Email-Adressen. Das bedeutet, dass sie nicht zwangsweise nur auf das World Wide Web beschränkt sind.
Wie funktioniert ein Crawler? Wie liest er eine Seite?
Ein Webcrawler, der erste wurde 1993 auf „Wanderschaft“ geschickt (er hieß World Wide Web Wanderer), verfolgt das Prinzip des Surfens im Internet: er hangelt sich von Hyperlink zu Hyperlink durch verschiedene Seiten und gelangt über solche Links (theoretisch) durch das gesamte Internet. Da aber viele Webseiten beispielsweise nur durch die Eingabe von Zugangsdaten zu erreichen sind, können Bots den Großteil des Internets nicht erfassen. Bei einem Crawl (ein Vorgang) verfolgt der Crawler bestimmte Vorgaben, die vom Programmierer festgelegt werden. Diese Aufgaben nimmt der Crawler automatisch wahr und wiederholt sie fortlaufend. Das bedeutet, dass Internet wird stets von den Suchprogrammen durchforstet. Erfolgt eine Änderung auf einer Seite, wird diese ebenfalls vom Crawler erfasst.
In den Vorgaben des Computerprogramms wird unter anderem festgehalten, in welchen Kategorien oder zu welchen Begriffen eine Webseite in den Index durch den Crawler eingeordnet wird. Nach dem Crawl werden die Inhalte der Website dementsprechend in den Index gelistet und können auf diese Weise zu bestimmten Suchbegriffen abgerufen werden.
Googlebot und Co.: Crawler in der Suchmaschinenoptimierung
Für die Suchmaschinenoptimierung hat der Crawler eine wichtige Bedeutung, denn er sorgt dafür, dass Webseiten und Inhalte in Suchmaschinen wie Google auffindbar gemacht werden. Und da Suchmaschinen nach wie vor die wichtigste Traffic-Quelle für Webangebote sind, hat dies einen hohen Stellenwert alle Seiten im Internet. Der Bot von Google dürfte hier der bekannteste Vertreter sein.
Zum einen muss man hierzu die Webseite für den Webcrawler zugänglich machen, damit er die Informationen indexieren kann. Das bedeutet unter anderem, dass man den Bot nicht mit einem Hinweis in der robots.txt-Datei ausschließen darf. Zum anderen ist die Wahrscheinlichkeit höher, dass der Crawler die Webseite häufiger (und das bedeutet vollständiger) indiziert, umso umfangreicher die Backlinkstruktur ist. Das liegt daran, dass der Bot sich beim Crawl über Hyperlinks zu neuen URLs hangelt. Werden Webseiten oder Teilbereiche einer Seite nicht oder nur schlecht verlinkt, kann es sein, dass diese Inhalte nicht vom Bot erreicht werden.
Nofollow-Links zu einer Seite setzen: Wenn der Crawler nicht aktiv werden soll
Auch wenn es Ziel ist, mit einer Website möglichst gut in den Suchergebnissen gefunden zu werden, kann man bestimmte Bereiche einer Webseite von der Indexierung durch einen Bot ausschließen. Dies wird zum Beispiel dann notwendig, wenn es sich um unwichtige Unterseiten handelt – wie eine Anmeldeseite für die interne Nutzung des Web-Angebots. In solchen Fällen kann man einen Link auf „nofollow“ stellen, um dem Crawler einer Suchmaschine anzuzeigen, dass dieser Verlinkung nicht gefolgt werden soll.