Standaard Notatie
Een robots.txt bestand plaatst je in de webroot. In de meeste gevallen is dit /wordpress/current/
De inhoud van dit bestand zijn de User Agents (crawlers) die je wilt beheren, dan wel wilt blokkeren.
Verschillende crawlers luisteren naar verschillende commando's. Je kan hier geen standaard gebruik maken van Regular Expresions maar de volgende tekens worden breed ondersteund;
* = Wildcard
$ = Einde URL
De standaard notatie is als volgt;
User-agent: [user-agent naam] Crawl-Delay: [aantal milliseconden vertraging per URL crawl] Disallow: [URL string die niet gecrawled moet worden]
Voorbeelden van een robots.txt
Seekport Crawler voor de gehele website blokkeren.
User-agent: Seekport Disallow: /
Yahoo (Slurp) beperken tot 120MS per crawl en de pagina /contact niet crawlen.
User-agent: Slurp Crawl-Delay: 120 Disallow: /contact$
Alle PDF bestanden niet crawlen
User-agent: msnbot Disallow: /uploads/*.pdf$
Meerdere URLS niet crawlen
User-agent: Slurp Dissalow: /voorbeeld/$ Disallow: /contact/$ Disallow: /verborgen/$
Meerdere user agents beheren. (scheiden met een wit regel)
User-agent: Ahrefsbot Crawl-Delay: 120 Disallow: /contact$ User-agent: Googlebot Crawl-Delay: 120 Disallow: /contact$ User-agent: Slurp Crawl-Delay: 120 Disallow:/contact$