Na recent wat problemen te hebben ervaren met Google’s supplemental index (toegevoegde zoekresultaten), ben ik begonnen een lijst samen te stellen met punten waar een website aan moet voldoen voor dat hij online gaat.
Let op dat het in dit voorbeeld gaat om websites ontwikkeld in PHP in combinatie met een Apache webserver.
Opmerking: Dit artikel is niet gericht op zogenaamde onpage optimalisatie zoals bijvoorbeeld het semantisch opbouwen van pagina’s en schrijven van content.
Graag hoor ik jullie opmerkingen en aanvullingen, hierbij mijn lijst:
-
Robot.txt
Alle content dat als duplicaat zou kunnen worden gezien blokkeren, zoals bijvoorbeeld rss feeds en printvriendelijke versies.Voorbeeld:
User-agent: *
Disallow: /*.rss
Disallow: /print/
Disallow: *PHPSESSID
-
404 Not Found
Indien er een interne 404 pagina wordt gebruikt, deze voorzien van de juiste header zodat deze pagina ook daadwerkelijk word herkent als een 404. Uiteraard ook belangrijk is om de 404 pagina zo in te richten dat een bezoeker verder kan binnen de website.Voorbeeld:
header("http/1.0 404 Not found");
-
Last modified
Alle bestanden voorzien van een last modified header. Een wijziging in het CMS moet dan tevens deze datum aanpassen.
Voorbeeld:
header("Last-Modified: [datum in gmt formaat] GMT");
-
Session id’s voorkomen!
Aangezien Google geen cookies kent, voegt hij in sommige gevallen een session id toe aan de URL, bijvoorbeeld: PHPSESSID. Hierdoor kunnen pagina’s dubbel worden geïndexeerd en in de toegevoegde zoekresultaten terechtkomen.
In de robot.txt (zie boven) hebben we al een regel toegevoegd om er voor te zorgen dat alle URL’s waar een PHPSESSID in voorkomen worden genegeerd, echter voor de volledigheid hieronder nog een tweetal toevoegingen.
In het .htaccess bestand:
php_flag session.use_trans_sid off
In het php bestand:
ini_set("url_rewriter_tags", "");
-
Sitemap.xml
Om er voor te zorgen dat het Google sitemap bestand altijd up-to-date is heb ik besloten om deze dynamisch op te bouwen. Het bestand dient dan wel te worden voorzien van een XML header. Aangezien we eerder al spraken over het toevoegen van een last modified stamp, kan deze ook hier eenvoudig worden toegepast.
In het sitemap.xml bestand:
header("Content-type: application/xml; charset='utf-8'", true);
In het .htaccess bestand:
AddType application/x-httpd-php .xml
In het robot.txt bestand:
Sitemap: http://www.mijndomein.nl/sitemap.xml
-
De URL altijd laten beginnen met WWW
De website mag slechts op één manier te benaderen zijn, anders geldt wederom dat pagina’s dubbel kunnen worden geïndexeerd. Aanbevolen is om de URL te herschrijven en permanent te verwijzen indien er geen www in de URL voorkomt.
In het .htaccess bestand:
RewriteCond %{HTTP_HOST} ^mijndomein.nl [NC]
RewriteRule ^(.*)$ http://www. mijndomein.nl/$1 [L,R=301]
Nog geen reacties op "Must have SEO nieuwe websites"
Toevoeging:
Hierbij een aantal sites waar je meer info kan vinden over de onderwerpen in bovenstaand artikel:
[url=http://googlewebmastercentral.blogspot.com/2007/04/requesting-removal-of-content-from-our.html]Google Webmaster Central[/url] Voorbeelden hoe je met Google’s webmaster tools pagina’s kunt deindexeren.
[url=http://www.seo4fun.com/notes/supplementals.html]SEO4Fun[/url] Artikel over Google’s supplemental index.
[url=http://www.modrewrite.com]ModRewrite.com[/url] Alles over het herschrijven en verwijzen van URL’s.
Wil je weten of er ook pagina’s van jou in de supplemental index voorkomen? Voor dan in Google de volgende zoekopdracht uit:
site:www.mijndomein.nl *** -ndsfoiw
[url=http://andrescholten.nl/index.php/google-sitemaps-leuk-maar-niet-voor-nieuwe-sites/]Artikel over voor- en nadelen van sitemap.xml[/url]
Volgens dit artikel zou het geen goed idee zijn om een sitemap.xml mee te nemen op nieuwe sites ivm niet optimale indexering van de pagina.
Volgens het artikel van Andre Scholten is het niet verstandig een sitemap voor nieuwe site’s toe te voegen, omdat pagina’s anders wellicht in de supplemental index terecht komen. Zelf heb ik dit (nog) niet ondervonden, maar ik ben wel even op zoek gegaan naar meer informatie. Hier mijn conclusie:
Sitemaps zijn bedoeld om webmasters in de gelegenheid te stellen aan te geven welke pagina’s zij belangrijk vinden voor zoekmachine gebruikers.
Aan te raden is om dus niet de hele website in je sitemap op te nemen, maar je te concentreren op pagina’s die bijvoorbeeld moeilijk zijn te vinden vanwege een diepe ligging in de site-structuur.
Tot slot nog een mooie quote:
[i]This statement made many site owners hope, they may get influence on rankings on Google’s SERPs. That’s wishful thinking. It simply means, that possibly Googlebot will crawl high-priority URLs before low-priority pages.[/i]
PS: Om terug te komen op mijn artikel houdt bovenstaande dus in dat ik in het CMS per pagina moet bepalen of het in de sitemap moet voorkomen of niet.
Ik heb het niet helemaal eens met de statement dat je een nieuwe site niet door middel van een sitemap moet aanmelden. Ik doe het juist wel bij nieuwe site’s. Maar dan wel bij site’s die sterk regionaal gebonden zijn. Google pikt dit namelijk enorm snel op.. en met enorm snel bedoel ik 2 tot 3 dagen.
@Giorgio: Ik ben het niet helemaal eens met jouw stelling dat sitemaps bedoeld zijn om webmasters in de gelegenheid te stellen aan te geven welke pagina’s zij belangrijk vinden voor zoekmachine gebruikers.
Sitemaps zijn primair een hulpmiddel om de gebruiker, in welke vorm dan ook, op een alternatieve manier (dan via de normale navigatie op de website) kennis te laten nemen van hoe de website is opgebouwd en wat er aan content beschikbaar is.
Het feit dat de webmaster met een sitemap ook aan kan geven wat hij belangrijke content vindt voor zoekmachine gebruikers is daar een mooi gevolg van, maar zeker niet het primaire doel. Daarnaast is het maar de vraag of het aan de webmaster is om te bepalen wat de zoekmachine gebruiker als belangrijke pagina’s dient te ervaren.
Daarnaast zou ik mensen zelf wel aanraden om hun sitemap zo compleet mogelijk te houden. Het zorgt er namelijk voor dat men zich een zo goed mogelijk beeld kan vormen voor de website. Natuurlijk zijn er uitzonderingen: pagina’s als de “Bedankt voor uw bestelling” pagina voegen weinig toe aan een sitemap en zijn normaal gesproken ook niet direct toegankelijk voor de gebruiker. Dit soort pagina’s zou ik zelf dus weglaten.
@Ron. Bedankt voor je reactie. In het bovenstaande artikel spreken we over XML Sitemaps, niet te verwarren met de sitemap’s die je aan bezoekers toont. Deze sitemap’s zijn wel degelijk bedoeld zoals boven beschreven.
Meer informatie over het standaard sitemap protocol:
[url=https://www.google.com/webmasters/tools/docs/en/protocol.html]Google Webmaster Tools (XML Sitemap Format)[/url].
@Giorgio. Dan heb ik het blijkbaar niet helemaal goed begrepen. Ik maak zelf ook gebruik van de xml sitemaps. Mijn mening blijft daarbij dat je alle direct toegankelijke pagina’s mee zou moeten nemen, net als bij de sitemaps die je gebruiker te zien krijgt.
Je geeft namelijk zelf al aan dat met de xml sitemap je een hiërarchie tussen de pagina’s binnen een website kunt aangeven voor de zoekmachines. Ik weet niet precies wat er gebeurd met de pagina’s die de zoekmachine wel opneemt, maar die niet in de xml sitemap voorkomen. Standaard is de prioriteit die pagina’s binnen de xml sitemap krijgen namelijk 0.5, wellicht dat de niet in de xml sitemap opgenomen pagina’s deze prioriteit ook krijgen.
Door ze niet op te nemen in de xml sitemap wil je eigenlijk bereiken dat ze als minder waardevol gezien worden door de zoekmachines (of in ieder geval dat de wel vermelde pagina’s belangrijker zijn), is het daarom niet verstandiger om de minder belangrijke pagina’s wel op te nemen en deze gewoon de laagst mogelijke prioriteit te geven, zodat je altijd zeker bent van een juiste hiërarchie?
Pagina’s die niet in je sitemap voorkomen worden op de “natuurlijke” wijze geindexeerd. Voor website’s van gemiddelde grootte kan je volgens mij het beste alle pagina’s opnemen in je XML sitemap. Een prioriteit aangeven in je XML sitemap wil niet zeggen dat Google (en ondertussen ook andere zoekmachine’s) daar daadwerkelijk iets mee doen, maar alles bij elkaar geeft de zoekmachine’s een hint. Persoonlijk denk ik de [i]changefreq[/i] en de [i]lastmod[/i] het meeste waarde hebben.
Plaats je reactie
Velden met een * zijn verplicht in te vullen