CRAWLER

Als Crawler bezeichnen wir Programme zum Auffinden und Indexieren von Webseiten.

Ein Crawler wird auch; Webcrawler, Robots, Spider auch Searchbot oder anders genannt. Das englische Verb „to crawl“ wird in diesem Zusammenhang meist mit „kriechen“ übersetzt.

Denn der Webcrawler „kriecht im Web sozusagen von einer URL zur nächsten“.
Als HTTP-Client sendet er eine URL (Request) an einen Server, der ihm daraufhin die angefragte Information bzw. Datei zusendet (Response).

Wie funktioniert Crawling?
Die Suche (search) beginnt mit der Hinzufügung von Start-URLs. Diese werden einzeln und auf dem Umweg über die Frontier dem Downloader übergeben, der – vereinfacht dargestellt – die betreffenden Webseiten kopiert und auf Verweise – also weitere URLs hin untersucht. Diese werden dann zur Grundlage des folgenden Suchkreisläufe. Je nach Voreinstellung kann die Suche andauern, bis keine neuen Verweise mehr gefunden werden oder bis ein definiertes Ziel erreicht wurde.

Aufgrund der hohen Zahl existierender Webseiten ist es faktisch nicht umsetzbar, dass ein Crawler tatsächlich alle Seiten durchsucht. Daher werden vorab Beschränkungen festgelegt, die sich auf URL-Adressen, Inhalte, Downloadzeiten oder auch bestimmte Elemente einer Webseite beziehen.

Wofür werden Crawler benötigt?
Genutzt werden Crawler hauptsächlich von Suchmaschinen zur Indexierung von Seiten, zur Listung verfügbarer URLs und zur Auswertung von Inhalten. Welche Aufgaben ein Bot im Einzelnen übernimmt und in welcher Abfolge er diese durchführt, hängt von der Programmierung ab.

Einige Programme indexieren zunächst und speichern Inhalte für eine spätere Sichtung ab. Andere erledigen diese Aufgaben parallel. Auch werden „focused“ oder „topical crawler“ eingesetzt, um Webseiten zu erfassen, die relevant für eine spezielle Thematik sind; manche Programme werden verwendet, um gezielt nach Urheberrechtsverletzungen zu suchen.

Wie unterscheiden sich freundliche Crawler von schädlichen Bots?
Wer eine Website betreibt, möchte in der Regel auch gefunden werden und wird daher einer Indexierung zustimmen. (Haben Sie auch schon Mal nich nur die ersten dei Resultate besucht?)

Ein groses Ärgernis stellen jedoch Programme dar, die elektronische Daten sammeln, um diese missbräuchlich zu verwenden. Ein solcher schädigender Use besteht beispielsweise im Sammeln von E-Mail-Adressen, die anschließend mit Spam überhäuft werden.

Daher NIE, aber auch wirklich NIE eine info@-Adresse einrichten, dies aber nur by the way erwähnt.

Als Schutzmassnahme vor einer ungewünschten Indexierung soll der bereits 1994 entwickelte Robots Exclusion Standards dienen. Dieser legt fest, dass ein Crawler seine Sichtung mit dem Lesen der Datei robots.txt beginnt, in welcher der Betreiber einer Website definiert, welche Seiten indexiert werden dürfen.

Auch kann der Zugriff auf bestimmte Seiten ganz verweigert werden.

Da sich die „bösen“ Bots im Gegensatz zu Suchmaschinenbetreibern wie Google aber nicht an derlei Regeln halten, müssen zum Schutz bestimmter Dateien und Seiten andere Massnahmen ergriffen werden – wie beispielsweise das Anlegen von .htaccess-Dateien.