Blockliste für .htaccess gegen Spambots und Webcrawler
Meldung vom 06. Mrz 2009 um 19:03 Uhr | 2 Kommentare

Aufgrund der erhöhten Aktivität von Spambots und Webcrawlern auf dieser Seite, habe ich mich entschieden die ursprüngliche robots.txt bis auf einige wenige Spezialeinträge zu reinigen und setze nun auf eine Sperre via .htaccess. Einmal bringt das natürlich eine Trafficersparnis und zum anderen finde ich diesen Schritt konsequenter. Meine Liste der geblockten Bots stelle ich weiter unten zur Verfügung.

Die Bots werden durch folgendes Eintragsschema auf eine 403 “Forbidden”-Seite verwiesen, die ich bei Gelegenheit anpassen und mit einem kurzen Informationstext versehen werde, falls doch einmal ein normaler Besucher in das Raster fällt.

<IfModule mod_rewrite.c>
   RewriteEngine On
   RewriteCond %{HTTP_USER_AGENT} ^BOTNAME1 [OR]
   RewriteCond %{HTTP_USER_AGENT} ^BOTNAME2
   RewriteRule ^.* - [F,L]
</IfModule>

Was geschieht hier nun?

Als erste wird in einer IF Abfrage überprüft ob das Mod Rewrite Modul von Apache geladen ist. Ist dies der Fall, wird die Rewrite-Engine aktiviert und dann folgen im obigen Beispiel 2 Bedingungen für jeweils 1 Bot (Botname1 und Botname2). Statt der Platzhalter müssen natürliche echte Namen eingetragen werden. In der abschließenden RewriteRule erfolgt nun Ausführung. Die jeweiligen, auf die Bedingungen passenden, Bots werden auf forbidden (F) gesetzt, was eine sofortige Umleitung auf eine 403er Seite bedeutet (HTTP Response 403). Das L steht für last und bedeutet dass nach Zutreffen einer der Bedingungen (RewriteCond) sofort die weitere Überpüfung weiterer Bedingungen abgebrochen wird und gleich zur RewriteRule gesprungen wird.

Meine derzeitigen geblockten Bots können hier eingesehen werden (Stand März 2009): Geblockte Bots

Eine Datenbank mit den Namen von Webcrawlern und Spambots findet sich auf der Web Robots Webseite.



abgelegt unter: Netzhappen, Netzsicherheit
Kommentar Feed: RSS 2.0
Die Kommentarfunktion sowie die Pingfunktion sind zur Zeit abgeschalten.
2 Reaktionen zu “Blockliste für .htaccess gegen Spambots und Webcrawler”
2 Pingbacks