Na recent wat problemen te hebben ervaren met Google’s supplemental index (toegevoegde zoekresultaten), ben ik begonnen een lijst samen te stellen met punten waar een website aan moet voldoen voor dat hij online gaat.

Let op dat het in dit voorbeeld gaat om websites ontwikkeld in PHP in combinatie met een Apache webserver.

Opmerking: Dit artikel is niet gericht op zogenaamde onpage optimalisatie zoals bijvoorbeeld het semantisch opbouwen van pagina’s en schrijven van content.

Graag hoor ik jullie opmerkingen en aanvullingen, hierbij mijn lijst:

  • Robot.txt
    Alle content dat als duplicaat zou kunnen worden gezien blokkeren, zoals bijvoorbeeld rss feeds en printvriendelijke versies.

    Voorbeeld:

    User-agent: *

    Disallow: /*.rss

    Disallow: /print/

    Disallow: *PHPSESSID

  • 404 Not Found
    Indien er een interne 404 pagina wordt gebruikt, deze voorzien van de juiste header zodat deze pagina ook daadwerkelijk word herkent als een 404. Uiteraard ook belangrijk is om de 404 pagina zo in te richten dat een bezoeker verder kan binnen de website.

    Voorbeeld:

    header("http/1.0 404 Not found");

  • Last modified

    Alle bestanden voorzien van een last modified header. Een wijziging in het CMS moet dan tevens deze datum aanpassen.

    Voorbeeld:

    header("Last-Modified: [datum in gmt formaat] GMT");

  • Session id’s voorkomen!

    Aangezien Google geen cookies kent, voegt hij in sommige gevallen een session id toe aan de URL, bijvoorbeeld: PHPSESSID. Hierdoor kunnen pagina’s dubbel worden geïndexeerd en in de toegevoegde zoekresultaten terechtkomen.

    In de robot.txt (zie boven) hebben we al een regel toegevoegd om er voor te zorgen dat alle URL’s waar een PHPSESSID in voorkomen worden genegeerd, echter voor de volledigheid hieronder nog een tweetal toevoegingen.

    In het .htaccess bestand:

    php_flag session.use_trans_sid off

    In het php bestand:

    ini_set("url_rewriter_tags", "");

  • Sitemap.xml

    Om er voor te zorgen dat het Google sitemap bestand altijd up-to-date is heb ik besloten om deze dynamisch op te bouwen. Het bestand dient dan wel te worden voorzien van een XML header. Aangezien we eerder al spraken over het toevoegen van een last modified stamp, kan deze ook hier eenvoudig worden toegepast.

    In het sitemap.xml bestand:

    header("Content-type: application/xml; charset='utf-8'", true);

    In het .htaccess bestand:

    AddType application/x-httpd-php .xml

    In het robot.txt bestand:

    Sitemap: http://www.mijndomein.nl/sitemap.xml

  • De URL altijd laten beginnen met WWW

    De website mag slechts op één manier te benaderen zijn, anders geldt wederom dat pagina’s dubbel kunnen worden geïndexeerd. Aanbevolen is om de URL te herschrijven en permanent te verwijzen indien er geen www in de URL voorkomt.

    In het .htaccess bestand:

    RewriteCond %{HTTP_HOST} ^mijndomein.nl [NC]

    RewriteRule ^(.*)$ http://www. mijndomein.nl/$1 [L,R=301]

Be Sociable, Share!