Handleiding robots.txt

Het robots.txt bestand is een tekst bestand dat u kunt plaatsen in de hoofdfolder van een domein waarin instructies staan voor web crawlers (zoals bijvoorbeeld zoekmachines).

Dit werkt op de volgende manier: wanneer een crawler een website bezoekt, wordt er eerst gekeken naar de aanwezigheid van een robots.txt bestand.
Aan de hand van de instructies in het robots.txt bestand worden daarna pagina’s bezocht.

 

Wanneer een robots.txt bestand er bijvoorbeeld als volgt uitziet:

User-agent: *
Disallow: /

zullen er geen pagina’s bezocht worden door de crawler.

De regel “User-agent: *” geeft aan dat de instructies gelden voor alle crawlers en de regel “Disallow: /“ geeft aan dat de crawler geen enkele pagina mag bezoeken.

 

Opmerking:

  • Sommige crawlers, bijvoorbeeld malware crawlers die zoeken naar veiligheids lekken in scripts, negeren het robots.txt bestand.
  • Het robots.txt bestand is een bestand dat iedereen kan openen via een browser en het is dus eenvoudig om te zien welke bestanden en folders u wilt uitsluiten voor crawlers.

 

Een robots.txt bestand maken:

Het robots.txt bestand is een eenvoudig tekst bestand dat u moet plaatsen in de hoofdfolder van uw domein, dus bijvoorbeeld in de folder /www/uw-eigen-domeinnaam.nl/ of in de folder public_html.
Daarnaast moet de bestandsnaam geschreven worden in “kleine” letters (robots.txt en dus niet Robots.txt).

De wildcart (“*”) in de opdracht regel “User-agent” heeft een speciale betekenis en geeft aan dat regels in het robots.txt bestand gelden voor alle crawlers.
U kunt maar één folder of bestand uitsluiten per “Disallow” regel.

 

Voorbeelden:

User-agent: *
Disallow: /

De bovenstaande regels gelden voor alle crawlers en het crawlen van alle bestanden in de hoofd-folder en sub-folders is niet toegestaan.

 

User-agent: *
Disallow:

De bovenstaande regels gelden voor alle crawlers en het crawlen van alle bestanden in de hoofd-folder en sub-folders is toegestaan.

 

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /afbeeldingen/

De bovenstaande regels gelden voor alle crawlers en het crawlen van alle bestanden in de folders cgi-bin, tmp en afbeeldingen is niet toegestaan.
Het crawlen van de overige bestanden in de hoofd-folder en sub-folders is toegestaan.

 

User-agent: BadBot
Disallow: /

De bovenstaande regels gelden alleen voor de crawler met de naam BadBot en het crawlen van alle bestanden in de hoofd-folder en sub-folders is voor deze crawler niet toegestaan.
Alle overige crawlers hebben toegang tot alle bestanden in de hoofd-folder en sub-folders.

 

User-agent: Google
Disallow:

User-agent: *
Disallow: /

De bovenstaande regel geeft de Google crawler toegang tot alle bestanden in de hoofd-folder en sub-folders.
Het crawlen van bestanden door overige crawlers is niet toegestaan.

 

User-agent: *
Disallow: /foo.html

Het crawlen van het bestand foo.html is niet toegestaan. Deze regel geldt voor alle crawlers.