Verleen de zoekmachine toegang
tot de website
Het 'spider' (indexeer) proces van een zoekmachine kan alleen
pure HTML code filteren om zodoende links van pagina's op te
halen en deze pagina's op te halen en ook te indexeren. Dit
houdt dus in dat een spider alleen maar 'standaard' html links
kan volgen:
- <a href> links. Alle zoekmachines kunnen deze aan.
- <scr=> links. Zoals je bijvoorbeeld kan gebruiken
van links in frames. Niet alle zoekmachines kunnen deze
lezen.
Zodra je Javascript, java of Flash gebruik om pagina's te
linken moet je er rekening mee houden dat de spider vaak zal
stoppen bij de eerste pagina. Momenteel zijn de 'standaard'
dhtml menu erg populair. Hoewel deze er vaak erg mooi uitzien
kunnen de links niet worden gelezen wat vaak als gevolg heeft
dat alleen de eerste pagina wordt opgenomen in de index van
de zoekmachine. Ook een simpele selectie box (zie het voorbeeld
hierboven om de bronnen te selecteren welke je kan doorzoeken)
als navigatie methode zal niet werken omdat ook hiervoor Javascript
wordt gebruikt om de web-pagina's te openen.
Overigens willen leveranciers van zoekmachines je doen geloven
dat het wel mogelijk is om Javascript links te indexeren.
Hier hebben ze in eerste instantie gelijk. Echter het nadeel
is dat per website een apart filter moet worden geschreven
om de links uit Javascript te filteren. Vaak gebeurd dit middels
Perl. Een veel effectievere methode is om naast de traditionele
navigatie methode, een aparte sitemap te maken die normale
a-hrefs in zich heeft opgenomen (zie hieronder).
Hoe kan je een zoekmachine toegang geven?
De beste manier om een spider toegang te geven tot alle documenten
van een web-site is om een zogenoemde 'site-map' pagina of
een andere index pagina te maken welke <a href>(!) links
bevat naar de pagina's die je wil laten indexeren. Deze pagina
fungeert dan als start pagina voor de spider van de zoekmachine.
Als je site niet over een sitemap pagina beschikt overweeg
dan om in ieder geval je belangrijkste pagina als een gewone
<a href> link op te nemen in de navigatie structuur.
Vaak wordt Javascript gebruik om pagina's in nieuwe popup
windows te openen, terwijl dit niet nodig is omdat je deze
functionaliteit kan bieden middels de 'target' property:
<a href="thislink.html" target="_new">Open
a new window</a>
Let erop dat de sitemap zelf vanaf de voorpagina gelinkt
moet worden (immers dan vindt de spider de link om te indexeren).
Sitemap voor statische pagina's:
Er diverse tools (perl scripts) verkrijgbaar die op basis
van het file systeem een sitemap kunnen genereren.
Sitemap voor dynamische pagina's:
In een dynamische website (database driven) kan meestal op
een vrij eenvoudige manier een sitemap worden aangemaakt middels
een selectie van alle documenten uit de database.
Websites binnen een intranet omgeving en de toegankelijkheid
Vooral in dynamische website binnen een intranet omgeving
verdient het de aanbeveling om een aparte 'site-map' of een
andere overzicht pagina te maken en deze als 'start punt voor
de spider op te geven (zie paragraaf over de basis
componenten van een zoekmachine). Gezien het feit dat
deze pagina alleen bedoelt is als ingang voor de spider kan
deze zo 'plat' mogelijk worden gemaakt en alle links naar
de desbetreffende pagina's worden opgenomen zodat de spider
met een paar lees opdrachten alle links naar de te indexeren
pagina's heeft. Voordelen hiervan zijn:
- De spider configuratie kan worden beperkt tot het inlezen
van de sitemap en de links die hierin zijn opgenomen
- Voor de 'gewone' gebruiker kan de traditionele navigatie
manier gehandhaaft blijven
- Het spider proces kan zodoende efficient verlopen.
Als praktijk voorbeeld hadden we te maken met een Lotus Notes
/ Domino website binnen een intranet omgeving waarin 30.000
documenten waren opgenomen. In eerste instantantie was er
geen voorziening voor de spider opgenomen zodat de traditionele
manier van indexeren middels de standaard navigatie paden
ging. Dit leverde veel hits op tijdens het indexeer proces
(meer dan 300.000 lees opdrachten, omdat de spider alle toegangspaden
binnen de website afging en omdat de toegangs paden ook nog
categorie indelingen hadden wat tot extra lees opdrachten
resulteerde). Daarnaast werden niet alle documenten gevonden
door de spider. Nadat we een toegangs pad voor de spider hadden
gerealiseerd bleef het aantal lees opdrachten beperkt tot
35.000! Dit was een factor 10 minder!
Let bij gebruik van Lotus/Notes domino erop dat er geen gebruik
wordt gemaakt van de view-id zelf (dit is een uniek nummer
dat door domino aan de view wordt toegekend). Zorg voor een
duidelijke view naam (bijvoorbeeld $spider). Dit geldt ook
voor het openen van een document zelf: $spider/<doc-id>?opendocument.
|