SEO Toolkit 2

SEO Toolkit v2.0 - Het robots.txt bestand


Een spider is een geautomatiseerd programma dat gebruikt wordt door de (zoek)machines om de inhoud van een website te vinden en indexeren.

Deze spiders gaan bij het eerste bezoek aan een website op zoek naar een bestand dat robots.txt heet. Dit bestand bevindt zich, als het goed is, op de root van het domein. Het robots.txt bestand geeft de spider (robot) informatie over de bestanden en/of folders in het domein dat de robot wel of niet mag indexeren of doorzoeken.

De inhoud van een robots.txt bestand bestaat uit meerdere rapporten. Elk rapport bevat twee velden, een ‘user-agent’ specificatie en één of meerdere ‘Disallow’ regels. Het ziet er zo uit:

User-agent:<robot name>
Disallow:<statements>

User-agent

De User-agent specificeert de naam van de robot, bijvoorbeeld:

User-agent: googlebot

U kunt ook een zogenaamd wildcard karakter gebruiken om alle robots te specificeren. Bijvoorbeeld:

User-agent: *

U kunt User-agent namen vinden in de logboekbestanden van uw website door de requests (verzoeken) van uw robots.txt bestand te controleren.

Disallow:

Het tweede deel van een rapport bestaat uit de Disallow: regels. Met deze regels geeft u aan welke bestanden en/of folders niet bezocht (en dus geïndexeerd) mogen worden. Het volgende voorbeeld geeft de spiders instructies om de inhoud van email.htm niet te indexeren:

Disallow: email.htm

U kunt dus ook een hele folder opgeven:

Disallow: /cgi-bin/

Als u de Disallow: specificaties leeg laat, geeft u de robots Carte blanche om alle bestanden te indexeren. U dient minimaal één Disallow: regel opgeven voor iedere User-agent specificatie om geldig te zijn. Een leeg robots.txt bestand wordt gezien alsof het niet bestaat.

Voorbeelden

Het volgende voorbeeld geeft alle robots toestemming om alle bestanden te indexeren:

User-agent: *
Disallow:

Het volgende voorbeeld zorgt er voor dat geen enkele robot toegang tot de site krijgt:

User-agent: *
Disallow: /

Het volgende voorbeeld geeft geen enkele robot toegang tot de cgi-bin folder én de images folder:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Het volgende voorbeeld zorgt er voor dat de googlebot geen toegang heeft tot de bestanden:

User-agent: googlebot
Disallow: /

Als u meer voorbeelden wilt zien, bekijk dan eens de robots.txt bestanden van andere websites.

Let op dat u het robot bestand opslaat als .txt bestand. Iedere andere extensie, zoals .htm, .doc, .rtf, is niet geldig.