Spiderglobe, De nederlandse talige informatie website over website optimalisatie tips en trucs

  

  Voorpagina Over Spiderglobe    Links    Internet marketing & website optimalisatie
Optimalisatie technieken voor zoekmachines en websites
Optimaliseren van website's

Zoek functionaliteit in websites



Zoek functionaliteit in websites

 

>> Optimalisatie website

Beheers het spidering proces van zoekmachines

Als je wilt kan je voorkomen dat een spider bepaalde gedeeltes van je site niet indexeerd en opneemt in de index van de zoekmachine. Het kan voorkomen dat je niet alle pagina's wilt laten opnemen in de indexes van zoekmachines. Op deze pagina geef ik 3 manieren om te voorkomen dat een 'spider' een pagina's of gedeeltes van een website in zijn index opneemt:
  1. Op niveau van de website. Op het niveau van een website moet je in staat zijn om bepaalde gedeeltes van je website af te schermen voor de spider zodat deze niet worden opgenomen in de index. Dit kan middels de robot.txt file
  2. Op document niveau. Het kan zijn dat je van bepaalde documenten niet wil dat deze worden opgenomen in zoekmachines. Dat kan middels de meta tag robots.
  3. Soms wil je dat in bepaalde documenten 1 of 2 links niet worden gevolgd. Dit kan middels het toepassen van Javascript.

Voordat ik verder wil ik nog benadrukken dat het gebruik van de hierboven genoemde 'methoden' niet garant staat dat zoekmachines zich aan deze "afspraken" zullen houden. Het ligt voornamelijk aan het 'spider proces' of deze wordt ondersteunt. Vaak is dat een kwestie van de spider configuratie van de zoekmachine. De beheerder van de zoekmachine kan namelijk de eerste 2 standaarden t.a.v. het indexeren eenvoudig uitschakelen. Echter deze settings (robot.txt en de robots meta tag) worden door bijna alle internationale zoekmachines gerespecteerd. Als je zeker wilt zijn dat je site niet verder dan de voorpagina wordt geindexeerd moet je juist gebruik maken van een alternatieve navigatie methode zoals Javascript.

Beperk het gedrag van de spider op het niveau van de (website) server

Door de robot.txt file te gebruiken heb je de mogelijkheid om op server niveau de toegang van de spider te regulieren. Middels de robot.txt file kan je aangeven welke paden een spider niet mag volgen. Ondanks het feit dat je geen wildcards (* teken) kan gebruiken in de robot.txt configuratie file is het een effectieve manier om een spider van bepaalde gedeeltes van de server te weren.
Vaak moedig ik het gebruik van een robot.txt in een intranet omgeving aan. Dit omdat een gedeelte van het beheer voor de spider configuratie decentraal kan worden geimplementeerd. Op centraal niveau worden er vaak op domein niveau een spider configuratie aangemaakt waarbij decentraal de paden worden afgeschermd die niet mogen worden opgenomen in de index. In een grote organisatie is het vaak complex om spider configuraties op een detail niveau te onderhouden omdat decentraal diverse sites worden toegevoegd en verwijderd.

Het eerste wat een spider doet wanneer deze een bezoek brengt aan je site is een controle uitvoeren of een robot.txt bestand aanwezig is in de root van de server. Zorg er voor de zekerheid voor dat de bestandsnaam altijd lowercase(!) is. Het robot.txt bestand geeft je een volledige controle over welke gedeeltes van je website moeten worden uitgesloten wanneer een spider je website bezoekt. In het bestand zelf dienen een 2-tal definities te worden gegeven waarvan de "User-agent" staat voor de naam van een specifieke zoekmachine. Het bestand zelf bestaat uit secties welke gerelateerd kunnen zijn aan specifieke zoekmachines:

Definitie Betekenis
User-agent: *
Disallow:
Het * teken achter de user agent field houdt in dat alle zoekmachines aan de definitie daarna moeten voldoen. Gezien het feit dat er bij disallow niets staat heeft als gevolg dat alle zoekmachines de gehele site mogen indexeren.
User-agent: *
Disallow: /cgi-bin/
Disallow: /private/
In dit voorbeeld kunnen alle zoekmachines alle directories doorlopen behalve de hierbij 2 weergegeven directories cgi-bin en private
User-agent: spider_a
Disallow: /
In dit voorbeeld mag "spider_a" de site niet indexeren en de overige spiders mogen alles zien. Overigens is een lege regel een teken voor een 'nieuw record' (of te wel een nieuwe definitie

Wees ervan bewust dat de robot.txt bestand in de root van de server moet worden geplaatst!

Voor meer informatie over het gebruik van de robot.txt bestand:
http://www.robotstxt.org/wc/exclusion-admin.html

Het beheersen van de toegang van de spider op het niveau van web pagina's

Normaal gesproken volgt een spider de zogenoemde <a href> links welke in een HTML pagina zijn opgenomen.
Als eigenaar van de inhoud van een HTML document wil je wellicht voorkomen dat bepaalde pagina's juist wel en bepaalde pagina's van een site juist niet worden opgenomen in de index van een zoekmachine. In ieder geval wil je hierover controle kunnen uitvoeren. Zo kunnen bepaalde pagina's binnen een intranet omgeving niet relevant zijn om te worden opgenomen in de zoekmachine van het bedrijf (bijvoorbeeld het dagmenu).

Met behulp van de META tag robots kan aan een spider worden aangegeven of pagina's wel / niet worden opgenomen in de index van de zoekmachine en of de links op bepaalde pagina's wel gevolgd mogen worden door de spider. De meeste spiders van zoekmachines onderkennen de robots META tag. Net zoals een gewone META tag dient deze te worden opgenomen in de <head> section van het HTML document. Voor de definitie van de robots tag is de volgende syntax van toepassing:

<meta name="robots" content="index, follow">

Waarbij de content de volgende waarden kan hebben:

content="index, follow" De desbetreffende pagina wordt opgenomen in de index en de links op de pagina mogen worden gevolgd. Aangezien dit de 'default' setting is hoeft deze niet te worden opgenomen in de pagina's.
content="noindex, follow" De desbetreffende pagina zal niet worden opgenomen in de index, maar de links op de pagina worden wel gevolgd. Het gebruik hiervan is bijvoorbeeld zinvol voor de 'grotere' inhouds opgaves binnen een website.
content="index, nofollow" De desbetreffende pagina zal worden opgenomen in de index maar de links op de desbetreffende pagina zullen niet worden gevolgd.
content="noindex, nofollow" De desbetreffende pagina zal niet worden opgenomen in de index en de links op de desbetreffende pagina zullen niet worden gevolgd.

Het beperken van de toegang van de spider op link level

Om er absoluut zeker van te zijn dat een spider geen links volgt (immers aan de hierboven genoemde definities hoeft een spider niet aan te voldoen) kan er gebruik worden gemaakt van javascript om bepaalde pagina's te openen. Zoals reeds eerder is beschreven kunnen spiders van zoekmachines geen javascript lezen en (meestal) wordt Javascript syntax dan ook genegeerd. Persoonlijk gebruik ik javascript bijvoorbeeld in de resultaat pagina's van zoekmachines die ik implementeer. Dit doe ik onder andere om te voorkomen dat andere zoekmachines mijn resultaat pagina's gebruiken om efficient links op te halen (zogenoemde META spiders).