Die Inhalte einer robots.txt wirken jedoch rein hinweisend. Damit die ausgeschlossenen Teile einer Webseite tatsächlich nicht in den Suchmaschinenindex aufgenommen werden, müssen sich die betreffenden Web-Crawler an die Vorgaben in der robots.txt halten. Es ist insbesondere nicht möglich, mit Hilfe einer robots.txt Inhalte eines Webauftritts vor dem Zugriff durch hierzu nicht Berechtigte zu schützen.
Beispiel einer robots.txt:
# robots.txt für example.com # Diese Webcrawler schließe ich aus User-agent: Sidewinder Disallow: / User-agent: Microsoft.URL.Control Disallow: / # Diese Verzeichnisse/Dateien sollen nicht # durchsucht werden User-agent: * Disallow: /default.html Disallow: /Temp/ # diese Inhalte verschwinden bald Disallow: /Privat/Familie/Geburtstage.html # Nicht geheim, sollen aber nicht in Suchmaschinen gelistet werden.
Weiterführender Verweis:
https://de.wikipedia.org/wiki/Robots_Exclusion_Standard
Das nachfolgende Video erläutert den Nutzen einer robots.txt im Zusammenhang mit der Suchmaschine Google: