Direkt zum Inhalt

Was bewirkt eine robots.txt?

Wie die Dateiendung bereits signalisiert, handelt es sich bei der Datei robots.txt um eine menschenlesbare Textdatei. Der Zweck der robots.txt besteht darin, Suchmaschinen woe Google oder Bing darauf hinzuweisen, dass ausgewählte Seiten eines Webauftritts nicht in den Suchmaschinenindex aufgenommen werden dürfen. Die technischen Details einer robots.txt folgen den Spezifikationen des Robots-Exclusion-Standards.

Die Inhalte einer robots.txt wirken jedoch rein hinweisend. Damit die ausgeschlossenen Teile einer Webseite tatsächlich nicht in den Suchmaschinenindex aufgenommen werden, müssen sich die betreffenden Web-Crawler an die Vorgaben in der robots.txt halten. Es ist insbesondere nicht möglich, mit Hilfe einer robots.txt Inhalte eines Webauftritts vor dem Zugriff durch hierzu nicht Berechtigte zu schützen.

Beispiel einer robots.txt:

# robots.txt für example.com
# Diese Webcrawler schließe ich aus
User-agent: Sidewinder
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

# Diese Verzeichnisse/Dateien sollen nicht
# durchsucht werden
User-agent: *
Disallow: /default.html
Disallow: /Temp/ # diese Inhalte verschwinden bald
Disallow: /Privat/Familie/Geburtstage.html # Nicht geheim, sollen aber nicht in Suchmaschinen gelistet werden.

Weiterführender Verweis:

https://de.wikipedia.org/wiki/Robots_Exclusion_Standard

Das nachfolgende Video erläutert den Nutzen einer robots.txt im Zusammenhang mit der Suchmaschine Google: