Beheers het spidering proces van zoekmachines
Als je wilt kan je voorkomen dat een spider bepaalde gedeeltes
van je site niet indexeerd en opneemt in de index van de zoekmachine.
Het kan voorkomen dat je niet alle pagina's wilt laten opnemen
in de indexes van zoekmachines. Op deze pagina geef ik 3 manieren
om te voorkomen dat een 'spider' een pagina's of gedeeltes van
een website in zijn index opneemt:
- Op niveau van de website. Op het niveau van een website
moet je in staat zijn om bepaalde gedeeltes van je website
af te schermen voor de spider zodat deze niet worden opgenomen
in de index. Dit kan middels de robot.txt file
- Op document niveau. Het kan zijn dat je van bepaalde documenten
niet wil dat deze worden opgenomen in zoekmachines. Dat
kan middels de meta tag robots.
- Soms wil je dat in bepaalde documenten 1 of 2 links niet
worden gevolgd. Dit kan middels het toepassen van Javascript.
Voordat ik verder wil ik nog benadrukken dat het gebruik
van de hierboven genoemde 'methoden' niet garant staat dat
zoekmachines zich aan deze "afspraken" zullen houden.
Het ligt voornamelijk aan het 'spider proces' of deze wordt
ondersteunt. Vaak is dat een kwestie van de spider configuratie
van de zoekmachine. De beheerder van de zoekmachine kan namelijk
de eerste 2 standaarden t.a.v. het indexeren eenvoudig uitschakelen.
Echter deze settings (robot.txt en de robots meta tag) worden
door bijna alle internationale zoekmachines gerespecteerd.
Als je zeker wilt zijn dat je site niet verder dan de voorpagina
wordt geindexeerd moet je juist gebruik maken van een alternatieve
navigatie methode zoals Javascript.
Beperk het gedrag van de spider op het niveau van
de (website) server
Door de robot.txt file te gebruiken heb je de mogelijkheid
om op server niveau de toegang van de spider te regulieren.
Middels de robot.txt file kan je aangeven welke paden een
spider niet mag volgen. Ondanks het feit dat je geen wildcards
(* teken) kan gebruiken in de robot.txt configuratie file
is het een effectieve manier om een spider van bepaalde gedeeltes
van de server te weren.
Vaak moedig ik het gebruik van een robot.txt in een intranet
omgeving aan. Dit omdat een gedeelte van het beheer voor de
spider configuratie decentraal kan worden geimplementeerd.
Op centraal niveau worden er vaak op domein niveau een spider
configuratie aangemaakt waarbij decentraal de paden worden
afgeschermd die niet mogen worden opgenomen in de index. In
een grote organisatie is het vaak complex om spider configuraties
op een detail niveau te onderhouden omdat decentraal diverse
sites worden toegevoegd en verwijderd.
Het eerste wat een spider doet wanneer deze een bezoek brengt
aan je site is een controle uitvoeren of een robot.txt bestand
aanwezig is in de root van de server. Zorg er voor de zekerheid
voor dat de bestandsnaam altijd lowercase(!) is. Het robot.txt
bestand geeft je een volledige controle over welke gedeeltes
van je website moeten worden uitgesloten wanneer een spider
je website bezoekt. In het bestand zelf dienen een 2-tal definities
te worden gegeven waarvan de "User-agent" staat
voor de naam van een specifieke zoekmachine. Het bestand zelf
bestaat uit secties welke gerelateerd kunnen zijn aan specifieke
zoekmachines:
| Definitie |
Betekenis |
User-agent: *
Disallow: |
Het * teken achter de user agent field houdt in dat
alle zoekmachines aan de definitie daarna moeten voldoen.
Gezien het feit dat er bij disallow niets staat heeft
als gevolg dat alle zoekmachines de gehele site mogen
indexeren. |
User-agent: *
Disallow: /cgi-bin/
Disallow: /private/ |
In dit voorbeeld kunnen alle zoekmachines alle directories
doorlopen behalve de hierbij 2 weergegeven directories
cgi-bin en private |
User-agent: spider_a
Disallow: / |
In dit voorbeeld mag "spider_a"
de site niet indexeren en de overige spiders mogen alles
zien. Overigens is een lege regel een teken voor een 'nieuw
record' (of te wel een nieuwe definitie |
Wees ervan bewust dat de robot.txt bestand in de root van
de server moet worden geplaatst!
Voor meer informatie over het gebruik van de robot.txt bestand:
http://www.robotstxt.org/wc/exclusion-admin.html
Het beheersen van de toegang van de spider op het niveau
van web pagina's
Normaal gesproken volgt een spider de zogenoemde <a href>
links welke in een HTML pagina zijn opgenomen.
Als eigenaar van de inhoud van een HTML document wil je wellicht
voorkomen dat bepaalde pagina's juist wel en bepaalde pagina's
van een site juist niet worden opgenomen in de index van een
zoekmachine. In ieder geval wil je hierover controle kunnen
uitvoeren. Zo kunnen bepaalde pagina's binnen een intranet
omgeving niet relevant zijn om te worden opgenomen in de zoekmachine
van het bedrijf (bijvoorbeeld het dagmenu).
Met behulp van de META tag robots kan aan een spider worden
aangegeven of pagina's wel / niet worden opgenomen in de index
van de zoekmachine en of de links op bepaalde pagina's wel
gevolgd mogen worden door de spider. De meeste spiders van
zoekmachines onderkennen de robots META tag. Net zoals een
gewone META tag dient deze te worden opgenomen in de <head>
section van het HTML document. Voor de definitie van de robots
tag is de volgende syntax van toepassing:
<meta name="robots" content="index,
follow">
Waarbij de content de volgende waarden kan hebben:
| content="index, follow" |
De desbetreffende pagina wordt opgenomen
in de index en de links op de pagina mogen worden gevolgd.
Aangezien dit de 'default' setting is hoeft deze niet
te worden opgenomen in de pagina's. |
| content="noindex, follow" |
De desbetreffende pagina zal niet worden opgenomen in
de index, maar de links op de pagina worden wel gevolgd.
Het gebruik hiervan is bijvoorbeeld zinvol voor de 'grotere'
inhouds opgaves binnen een website. |
| content="index, nofollow" |
De desbetreffende pagina zal worden opgenomen in de
index maar de links op de desbetreffende pagina zullen
niet worden gevolgd. |
| content="noindex, nofollow" |
De desbetreffende pagina zal niet worden opgenomen in
de index en de links op de desbetreffende pagina zullen
niet worden gevolgd. |
Het beperken van de toegang van de spider op link level
Om er absoluut zeker van te zijn dat een spider geen links
volgt (immers aan de hierboven genoemde definities hoeft een
spider niet aan te voldoen) kan er gebruik worden gemaakt
van javascript om bepaalde pagina's te openen. Zoals reeds
eerder is beschreven kunnen spiders van zoekmachines geen
javascript lezen en (meestal) wordt Javascript syntax dan
ook genegeerd. Persoonlijk gebruik ik javascript bijvoorbeeld
in de resultaat pagina's van zoekmachines die ik implementeer.
Dit doe ik onder andere om te voorkomen dat andere zoekmachines
mijn resultaat pagina's gebruiken om efficient links op te
halen (zogenoemde META spiders).
|