Wat kan een zoekmachine
niet?
Tijdens mijn presentaties / trainingen maak ik altijd duidelijk
wat een zoekmachine niet kan. Hierdoor krijgt men meestal
een inzicht in de mogelijkheden wat een zoekmachine juist
wel kan. In principe is het vrij eenvoudig uit te leggen wat
een zoekmachine niet kan. Het gaat hierbij over het "retrieval
proces" (of tewel het spider proces) en het indexeer
proces waar gebruik wordt gemaakt van filters.
Functionele onmogelijkheden van een zoekmachine:
- Een zoekmachine heeft geen overzicht / inzicht in
de omvang van de website. Een spider start bij de eerste
pagina en volgt vervolgens link na link dieper in de website.
Veelal zijn hier beperking m.b.t. het aantal pagina's wat
een spider ophaalt (check je logs!).
- Een zoekmachine kan alleen pagina's indexeren waarvoor
filters zijn. Zoekmachines op internet gebruiken vaak alleen
een HTML filter; Een filter wordt gebruikt om de woorden
uit "de bron" te halen.
- Een zoekmachine kan niet JAVASCRIPT lezen. M.a.w. de links
in de "leuke" dynamische menu's zullen niet worden
gevonden, waardoor je de kans loopt dat slechts enkele pagina's
worden geindexeerd.
- Een zoekmachine kan niet FLASH lezen. Hoe vaak zie je
niet een flash intro? Of een website met een Flash menu.
Hoewel het er vaak mooi uit ziet is het niet echt functioneel.
Een zoekmachine zal ook hier geen links vinden als je deze
niet op een alternatieve manier aanbiedt, maar ook de inhoud
van het flash gedeelte zal niet worden geindexeerd. Overigens
wees eens eerlijk en hoe vaak klik je zelf niet op de skip
intro link? Waarom worden dan nog steeds de intro's gebruikt,
wat is de toegevoegde waarde?
- Een zoekmachine kan geen Java applets lezen. Ook hier
geldt dus dat de mooie menu's, presentatie van de inhoud
etc.. niet gelezen kunnen worden
- Een zoekmachine is zich niet bewust dat een bepaalde pagina
in een frame-context thuis horen. Een pagina die wordt opgevraagd
uit een zoekmachine die thuis hoort in een frameset wordt
dus niet automatische hersteld. Hiervoor dient de functionaliteit
van je website zelf zorg te dragen.
- Een zoekmachine kan geen plaatjes lezen. Zoals bekend
zegt een plaatje / image soms meer dan 1000 woorden en kan
de inhoud van een pagina behoorlijk verduidelijken. Daarnaast
hebben (bijna) alle zoekmachines de mogelijkheid om op plaatjes
te zoeken. Dit geschiedt o.a. aan de hand van de alt tag
van de image waarin een woordelijke beschrijving van het
plaatje kan worden opgenomen. Maak dan ook gebruik van de
alt tags bij de plaatjes.
- Het gebruik van zogenoemde image maps. Niet alle zoekmachines
kunnen overweg met zogenoemde images map (een image map
zorgt voor klikbare stukken op een plaatje). Zorg er dus
voor dat als je een image map gebruikt je ook alternatieve
links aanbiedt voor links die zijn opgenomen in een image
map.
- Het gebruik van META refresh. Deze zorgt ervoor dat een
pagina na x seconden door wordt gestuurd naar een andere
pagina. Bijna alle zoekmachines beschouwen deze tag als
spam. Dus niet gebruiken.
Het enigste wat een zoekmachine / spider kan is het analyseren
van een html pagina op zoek naar links: normale a href of
src links in die pagina. Dit is de enigste taak van de spider.
Hou bij het bouwen / ontwerpen van je site er rekening mee
dat een zoekmachine goede toegang moet krijgen tot je website
en vervolgens de inhoud moet kunnen opnemen in zijn index.
Dit is in principe de enigste taak die een zoekmachine moet
kunnen uitvoeren en goede hulp voor de spider is daarbij altijd
welkom.
Overigens kan er in de praktijk (bijvoorbeeld een zoekmachine
voor een intranet omgeving of in je eigen website) wel meer.
Zou zijn er meer dan een paar honderd soorten filters verkrijgbaar
om diverse soorten bronnen op te laten nemen in de index van
zoekmachines: denk hierbij aan filters voor office documenten
(niet alleen microsoft!), pdf, mpeg headers, mp3 headers,
etc.. Commerciele zoekmachines zoals verity
bieden veel mogelijkheden op dit gebied, ook kwa connectors
naar externe database en/of content management systemen. Verity
komt in de toekomstige release bijvoorbeeld met een filter
die Javacript link patronen kan herkennen (hoewel dit een
complexe materie blijft!)
Daarnaast zie je in de praktijk het gebruik van Perl scripts
om Javascript links uit te filteren uit een specifieke website
om daar dan een zoekfunctionaliteit in te bouwen zonder de
site te hoeven herbouwen. |