Spiderglobe, De nederlandse talige informatie website over website optimalisatie tips en trucs

  

  Voorpagina Over Spiderglobe    Links    Internet marketing & website optimalisatie
Optimalisatie technieken voor zoekmachines en websites
Optimaliseren van website's

Zoek functionaliteit in websites



Zoek functionaliteit in websites

 

>> Optimalisatie website

Verleen de zoekmachine toegang tot de website

Het 'spider' (indexeer) proces van een zoekmachine kan alleen pure HTML code filteren om zodoende links van pagina's op te halen en deze pagina's op te halen en ook te indexeren. Dit houdt dus in dat een spider alleen maar 'standaard' html links kan volgen:
  • <a href> links. Alle zoekmachines kunnen deze aan.
  • <scr=> links. Zoals je bijvoorbeeld kan gebruiken van links in frames. Niet alle zoekmachines kunnen deze lezen.

Zodra je Javascript, java of Flash gebruik om pagina's te linken moet je er rekening mee houden dat de spider vaak zal stoppen bij de eerste pagina. Momenteel zijn de 'standaard' dhtml menu erg populair. Hoewel deze er vaak erg mooi uitzien kunnen de links niet worden gelezen wat vaak als gevolg heeft dat alleen de eerste pagina wordt opgenomen in de index van de zoekmachine. Ook een simpele selectie box (zie het voorbeeld hierboven om de bronnen te selecteren welke je kan doorzoeken) als navigatie methode zal niet werken omdat ook hiervoor Javascript wordt gebruikt om de web-pagina's te openen.

Overigens willen leveranciers van zoekmachines je doen geloven dat het wel mogelijk is om Javascript links te indexeren. Hier hebben ze in eerste instantie gelijk. Echter het nadeel is dat per website een apart filter moet worden geschreven om de links uit Javascript te filteren. Vaak gebeurd dit middels Perl. Een veel effectievere methode is om naast de traditionele navigatie methode, een aparte sitemap te maken die normale a-hrefs in zich heeft opgenomen (zie hieronder).

Hoe kan je een zoekmachine toegang geven?
De beste manier om een spider toegang te geven tot alle documenten van een web-site is om een zogenoemde 'site-map' pagina of een andere index pagina te maken welke <a href>(!) links bevat naar de pagina's die je wil laten indexeren. Deze pagina fungeert dan als start pagina voor de spider van de zoekmachine. Als je site niet over een sitemap pagina beschikt overweeg dan om in ieder geval je belangrijkste pagina als een gewone <a href> link op te nemen in de navigatie structuur.
Vaak wordt Javascript gebruik om pagina's in nieuwe popup windows te openen, terwijl dit niet nodig is omdat je deze functionaliteit kan bieden middels de 'target' property:

<a href="thislink.html" target="_new">Open a new window</a>

Let erop dat de sitemap zelf vanaf de voorpagina gelinkt moet worden (immers dan vindt de spider de link om te indexeren).

Sitemap voor statische pagina's:
Er diverse tools (perl scripts) verkrijgbaar die op basis van het file systeem een sitemap kunnen genereren.

Sitemap voor dynamische pagina's:
In een dynamische website (database driven) kan meestal op een vrij eenvoudige manier een sitemap worden aangemaakt middels een selectie van alle documenten uit de database.

Websites binnen een intranet omgeving en de toegankelijkheid
Vooral in dynamische website binnen een intranet omgeving verdient het de aanbeveling om een aparte 'site-map' of een andere overzicht pagina te maken en deze als 'start punt voor de spider op te geven (zie paragraaf over de basis componenten van een zoekmachine). Gezien het feit dat deze pagina alleen bedoelt is als ingang voor de spider kan deze zo 'plat' mogelijk worden gemaakt en alle links naar de desbetreffende pagina's worden opgenomen zodat de spider met een paar lees opdrachten alle links naar de te indexeren pagina's heeft. Voordelen hiervan zijn:

  • De spider configuratie kan worden beperkt tot het inlezen van de sitemap en de links die hierin zijn opgenomen
  • Voor de 'gewone' gebruiker kan de traditionele navigatie manier gehandhaaft blijven
  • Het spider proces kan zodoende efficient verlopen.

Als praktijk voorbeeld hadden we te maken met een Lotus Notes / Domino website binnen een intranet omgeving waarin 30.000 documenten waren opgenomen. In eerste instantantie was er geen voorziening voor de spider opgenomen zodat de traditionele manier van indexeren middels de standaard navigatie paden ging. Dit leverde veel hits op tijdens het indexeer proces (meer dan 300.000 lees opdrachten, omdat de spider alle toegangspaden binnen de website afging en omdat de toegangs paden ook nog categorie indelingen hadden wat tot extra lees opdrachten resulteerde). Daarnaast werden niet alle documenten gevonden door de spider. Nadat we een toegangs pad voor de spider hadden gerealiseerd bleef het aantal lees opdrachten beperkt tot 35.000! Dit was een factor 10 minder!

Let bij gebruik van Lotus/Notes domino erop dat er geen gebruik wordt gemaakt van de view-id zelf (dit is een uniek nummer dat door domino aan de view wordt toegekend). Zorg voor een duidelijke view naam (bijvoorbeeld $spider). Dit geldt ook voor het openen van een document zelf: $spider/<doc-id>?opendocument.