Basis vereisten voor content
management systemen
Het is mijn ervaring dat de meeste (vooral zelf gemaakte) content
management systemen (= CMS) vaak niet goed zijn geconfigureerd
voor het optimaliseren van de content (= webpagina's) voor zoekmachines.
Binnen intranet omgevingen wordt vaak Lotus Notes Domino als
CMS gebruikt. Mijn constatering is dat dit vaak een kwestie
is van het goed configureren en of het programmeren van de output
(= web pagina's) van een CMS. Echter bij de implementatie van
een CMS wordt maar al te vaak op het uiterlijk van de web pagina's
gelet en wat de mogelijkheden zijn voor presentatie en navigatie.
Ook komt het voor dat bepaalde optimalisatie aspecten eenvoudig
weg niet kunnen worden geconfigureerd in het CMS systeem. Oorzaak
is dat mede door onwetendheid er minder vaak wordt gelet op
aspecten die van belang zijn voor het optimaliseren van de web-pagina's
voor zoekmachines. Daarnaast bevatten de meeste CMS systemen
zelf een zoekmechanisme die is gebaseerd op een interne index
en niet zozeer op de output van het CMS. Hiermee bedoel ik dat
een CMS de inhoud vanuit de database (reposetory) gaat indexeren
in plaats de web pagina's die als output dienen. Hierdoor lijkt
het dat de site doorzoekbaar is voor de gebruikers van de website.
Zodra er echter in een intranet omgeving een zoekmachine wordt
geïmplementeerd blijkt het vaak moeilijk te zijn om zo'n
CMS op te nemen in de collecties van zoekmachines. Ook op het
internet zijn de verwachtingen vaak hooggespannen als het gaat
om de opname in de collecties van de populaire zoekmachines.
Echter dit valt dan ook vaak tegen….
Hieronder staan een aantal punten weergegeven waarop gelet
kan worden bij het gebruik van een CMS systeem voor het optimaliseren
van websites voor zoekmachines. Hierbij heb ik zoveel mogelijk
getracht het verschil te benadrukken tussen internet en intranet
omgevingen.
- Mogelijkheid om voor webpagina's META data velden te
kunnen definiëren en zelf kunnen aangeven hoe ze in
de HTML head worden gepubliseerd. Dit is zeker van belang
voor een CMS dat gebruikt wordt binnen een intranet omgeving.
Juist in dit soort omgevingen wil je meerdere soorten META
tags gaan invoeren en eventueel later uitbreiden (zie paragraaf
over dublin core). CMS die niet de mogelijkheid hebben waarin
je zelf eigen META data velden kan definieren raad ik dan
ook sterk af. Vergeet hierbij niet dat de eindgebruiker
ook over velden moet kunnen beschikken om de juiste informatie
te kunnen toekennen aan deze META data velden, eventueel
met voor gedefinieerde selectie lijsten waarin bijvoorbeeld
een default aantal keywords in zijn opgenomen waaruit men
dan een selectie kan maken. Wellicht dat een aantal van
deze META tags ook automatisch gevuld moeten kunnen worden,
denk bijvoorbeeld aan de auteur van het document of de laatste
wijzigings datum van een document aan een 'modified' tag
toekennen.
- Mogelijkheid om navigatie paden te definiëren zonder
het gebruik van CGI variabelen in de URL.
Deze mogelijkheid is juist van belang voor het gebruik van
een CMS voor het internet. Het gebruik van CGI variabelen
(staat in de URL een & teken, bijvoorbeeld &count=100)
is een kenmerk van een dynamische website. Zoals besproken
in het document over dynamische websites nemen zoekmachines
geen dynamische website op. Daarnaast heb je als administrator
van een zoekmachine de mogelijkheid om wel of geen CGI variabelen
mee te laten spideren middels een configuratie setting.
Daarbij raad je het al, 99% van de CGI variabelen wordt
niet meegenomen. Voorbeelden hoe dit kan worden opgelost
vind je in het document over dynamische websites.
- Mogelijkheid om de standaard META tag robots te gebruiken.
Middels deze META tag kan worden aangegeven of documenten
wel niet mogen worden opgenomen in de collecties van zoekmachines
en of links op bepaalde pagina wel gevolgd mogen worden.
Deze mogelijkheid is zowel voor de intranet omgeving alsmede
voor de internet omgeving van belang. Eigenlijk is deze
gelijkwaardig aan de eerste optie maar deze wordt vaak vergeten
in een CMS. Niet alles is van belang om in je zoekmachines
te laten opnemen, bijvoorbeeld een weekmenu van het bedrijfsrestaurant.
- Mogelijk om normale HTML links te gebruiken met een eenduidig
pad.
Zorg ervoor dat de HTML links in de documenten 'normale'
a href' links zijn de worden aangemaakt met daarin het liefst
het volledige path (in iedergeval vanaf de root).
- De output van de HTML code moet voldoen aan de W3C standaards.
Zorg ervoor voordat de site in productie wordt genomen m.b.v.
een HTML checker is gecontroleerd.
- Mogelijkheid om 'normale' HTML code in velden in te voeren
m.b.v. zogenoemde UBB bloks
Normaal gesproken moet de inhoud van een document dat via
het CMS wordt gepublisheerd worden vertaald naar normale
leesbare code voor de eindgebruiker. Als een gebruiker echter
in de inhoud van een document bepaalde HTML code wil aanbrengen
(bijvoorbeeld een a href link) moet dit mogelijk zijn.
- Gewone inhoud van een webpagina welke uit velden door
het CMS wordt samengesteld moet worden "geescaped".
Dit houdt in dat bepaalde karakters moeten worden vertaald
naar de "letterlijke" vertaling hiervan. Zo zal
het ">" teken in de tekst in de HTML code moeten
worden vertaald naar ">" waardoor het normale
">" teken op de webpagina kan verschijnen (kijk
in de source van dit document als voorbeeld. Vaak genoeg
heb ik het voorbeeld gehad waarbij in het "titel veld"
van een document de mogelijkheid bestond om het " teken
in te voeren welke niet werd vertaald naar het "
teken. Ondanks dat de browser het goed toont raakt het filter
van de zoekmachine hierbij van de slag en zal de inhoud
van het document verkeerd indexeren en onder andere loop
je de kans dat op deze manier geen vervolg links worden
gevonden.
|