Zes oorzaken van on-site duplicate content
Het moge inmiddels duidelijk zijn dat zoekmachines niet gediend zijn van dubbele inhoud. Omdat een ongeluk (en daarmee; penalty) in een klein hoekje zit, gaan we in dit artikel dieper in op de zes belangrijkste oorzaken waardoor content zich op dezelfde site op verschillende plaatsen kan nestelen.
Let op: onderstaande problemen versterken elkaar! Een pagina met meerdere problemen zou zomaar op acht verschillende manieren benaderbaar zijn!
1. Meerdere categorieën
Een groot aantal sites doet het; meerdere categorieën toekennen aan één artikel. Op zich is daar niets mis mee, maar er loert een groot gevaar om de hoek. Als de URL-structuur van een site is opgebouwd als http://www.site.nl/categorie/artikel/, wat vaak het geval is, zorgt toekenning van meerdere categorieën ervoor dat hetzelfde artikel via meerdere URLs te benaderen is. Denk bijvoorbeeld aan site met recepten, die voor ieder hoofdingrediënt én voor iedere soort gerechten een categorie aanmaakt. Een dergelijke site zal een recept voor appeltaart zowel in de categorie ‘appels’ als in de categorie ‘taarten’ plaatsen. Het gevolg is nu dat de content van het recept ‘appeltaart’ via twee URLs benaderbaar is: http://www.site.nl/taarten/appeltaart/ én http://www.site.nl/appels/appeltaart/. Voilá, twee pagina’s met dezelfde inhoud, maar een andere URL: duplicate content! Deze situatie is bijzonder onwenselijk, omdat je zowel te maken kunt krijgen met een SEO-penalty als met gedeelde (en dus verdunde) linkjuice. Dit probleem kun je op meerdere manieren oplossen (van goed naar slecht):
- Ken maar één categorie toe per artikel.
- Maak gebruik van 301 redirects.
- Plaats in bepaalde categorieën het attribuut
rel="nofollow"op de link naar het artikel. - Voorzie pagina’s onder bepaalde categorieën van een
<meta name="robots" content="noindex" />tag in de header. - Gebruik robots.txt om bepaalde categorieën uit te sluiten van indexering.
De laatste drie methoden zijn eigenlijk onwenselijk, omdat deze het onmogelijk maken een artikel alleen in een categorie te plaatsen die uitgesloten is. Doe je dit wel, dan is het artikel onbereikbaar voor zoekmachines. Geadviseerd wordt dan ook om een artikel in principe maar op één categorie te plaatsen. Kun je echt niet anders, zet dan een 301 op van de ene pagina naar de andere.
2. Printvriendelijke versies
“Klik hier voor een printvriendelijke versie.” Het idee is goed, maar de uitvoering is dat vanuit een SEO-oogpunt (meestal) niet. In de meeste gevallen betreft het namelijk een simpele dofollow-link naar een grafisch uitgeklede versie van de content. Maar de tekst zelf bestaat nog en is dus op twee plaatsen aanwezig! Er zijn verschillende manieren om dit probleem aan te pakken (van goed naar slecht):
- CSS: met behulp van CSS is het middels de
media-selector mogelijk een aparte (uitgeklede) stylesheet voor de printer in te richten. Een veelgebruike code:<link rel="stylesheet" href="print.css" type="text/css" media="print" />. Omdat de printer automatisch deze stylesheet oppikt, zijn aparte printvriendelijke versies niet meer nodig. Als je deze methode in actie wilt zien, maak dan een afdrukvoorbeeld van deze pagina. - Noindex: door de tag
<meta name="robots" content="noindex" />in de header te plaatsen op de printvriendelijke versies, voorkom je indexering hiervan. Werkt gegarandeerd. - Nofollow: volgens google’s spamguru Matt Cutts worden nofollow-links niet gebruikt voor het ontdekken van nieuwe pagina’s. Een simpele
rel="nofollow"op de link naar de printvriendelijke pagina doet dus wonderen. Nadeel is dat een externe dofollow-link naar een printvriendelijke versie tot indexering leidt.
Begin je een nieuwe site, kies dan direct voor de CSS-methode. Heb je al een uitgebreide site met printvriendelijke versies, kies dan voor één van de andere methodes.
3. Archiefpagina’s
Archiefpagina’s zijn de bladerbare overzichtspagina’s die je op nieuwssites en blogs veel tegenkomt. Ze bevatten een meestal op tijd (jaar/maand/dag) doorzoekbaar overzicht van artikelen. Het probleem ontstaat wanneer deze archiefpagina’s een aparte URL-structuur gebruiken om naar de artikelen te linken (een vel gebruikt voorbeeld: /jaar/maand/dag/artikel). Nu is ieder artikel dus naast de normale URL óók op een archief-URL te vinden; duplicate content!
De oplossing is gelukkig eenvoudig; doe het archief weg. De gemiddelde gebruiker maakt veel liever gebruik van categorische navigatie en een zoekfunctie. Wil je het archief tóch houden, zorg er dan voor dat het archief dezelfde URL-structuur gebruikt als de rest van de site. Gaat dit niet, zorg er dan voor dat alle links in het archief voorzien zijn van een rel="nofollow"-tag.
4. To www or not to www?
Het www dat we gewend zijn vooraan een domein te zetten, is eigenlijk maar een subdomein. De meeste sites zijn daarom dan ook op twee manieren te benaderen: site.nl en www.site.nl. Voor de zoekmachines zijn dit echter twee compleet verschillende sites! Aangezien ze precies dezelfde content hebben, zal de zoekmachine bij iedere pagina gaan kiezen tussen de twee versies. Hoewel je bij google via de webmaster tools een keuze kunt maken (onder ‘instellingen’), zijn niet alle zoekmachines zo vriendelijk. Voorkom het probleem dus door een 301-redirect in te stellen van ‘site.nl’ naar ‘www.site.nl’ of vice versa. Websites die op een apache server draaien waarop mod_rewrite geïstalleerd is, kunnen hiervoor de volgende code toevoegen aan het .htaccess bestand:
RewriteCond %{HTTP_HOST} ^uwdomein.nl
RewriteRule (.*) http://www.uwdomein.nl/$1 [R=301,L]
5. De trailing slash
Wat veel webmasters vergeten, is dat de pagina http://www.site.nl/artikel voor de zoekmachines een compleet andere pagina is dan http://www.site.nl/artikel/. Sites die de trailing slash dus niet toevoegen, lopen dus risico op zowel verdunning van de linkjuice als duplicate content. Zie het artikel het belang van de trailing slash/ voor een uitgebreide analyse van dit probleem, inclusief mogelijke oplossingen.
6. URL parameters
Er zijn nogal wat sites die gebruik maken van het vraagteken om een serie parameters mee te geven aan een URL. Op zich is daar niets mis mee, maar houd in de gaten dat iedere unieke serie parameters ook een aparte URL vormt voor de zoekmachines. Ofterwijl, de pagina http://www.site.nl/index.php?uid=23 is een andere pagina dan http://www.site.nl/index.php?uid=25. Met name sites die op ouderwetse wijze nog session-ids meegeven, kunnen op deze manier te maken krijgen met een ontelbare hoeveelheid duplicate content. Omdat de zoekmachine-spider bij ieder bezoek een aparte session ID krijgt, zal deze de site bij ieder bezoek compleet opnieuw indexeren. Het gevolg is een enorme hoeveelheid duplicate content in de index, waardoor je site een penalty – of in extreme gevallen zelfs een ban – krijgt.
Probeer het aantal parameters in een URL dus zoveel mogelijk te minimaliseren. Er is in principe niets mis met een index.php?page=5, maar zorg ervoor dat alle ongewenste parameters (strip geen parameters die je nodig hebt!) gestript worden via bijvoorbeeld .htaccess. Dit is niet alleen prettig voor de zoekmachines, het is ook nog eens een stuk veiliger. Een andere optie, is ervoor zorgen dat pagina’s met onherkende parameters een 404 teruggeven.



