Zes oorzaken van on-site duplicate content

Het moge inmiddels duidelijk zijn dat zoekmachines niet gediend zijn van dubbele inhoud. Omdat een ongeluk (en daarmee; penalty) in een klein hoekje zit, gaan we in dit artikel dieper in op de zes belangrijkste oorzaken waardoor content zich op dezelfde site op verschillende plaatsen kan nestelen.

Let op: onderstaande problemen versterken elkaar! Een pagina met meerdere problemen zou zomaar op acht verschillende manieren benaderbaar zijn!

1. Meerdere categorieën

Een groot aantal sites doet het; meerdere categorieën toekennen aan één artikel. Op zich is daar niets mis mee, maar er loert een groot gevaar om de hoek. Als de URL-structuur van een site is opgebouwd als http://www.site.nl/categorie/artikel/, wat vaak het geval is, zorgt toekenning van meerdere categorieën ervoor dat hetzelfde artikel via meerdere URLs te benaderen is. Denk bijvoorbeeld aan site met recepten, die voor ieder hoofdingrediënt én voor iedere soort gerechten een categorie aanmaakt. Een dergelijke site zal een recept voor appeltaart zowel in de categorie ‘appels’ als in de categorie ‘taarten’ plaatsen. Het gevolg is nu dat de content van het recept ‘appeltaart’ via twee URLs benaderbaar is: http://www.site.nl/taarten/appeltaart/ én http://www.site.nl/appels/appeltaart/. Voilá, twee pagina’s met dezelfde inhoud, maar een andere URL: duplicate content! Deze situatie is bijzonder onwenselijk, omdat je zowel te maken kunt krijgen met een SEO-penalty als met gedeelde (en dus verdunde) linkjuice. Dit probleem kun je op meerdere manieren oplossen (van goed naar slecht):

De laatste drie methoden zijn eigenlijk onwenselijk, omdat deze het onmogelijk maken een artikel alleen in een categorie te plaatsen die uitgesloten is. Doe je dit wel, dan is het artikel onbereikbaar voor zoekmachines. Geadviseerd wordt dan ook om een artikel in principe maar op één categorie te plaatsen. Kun je echt niet anders, zet dan een 301 op van de ene pagina naar de andere.

2. Printvriendelijke versies

“Klik hier voor een printvriendelijke versie.” Het idee is goed, maar de uitvoering is dat vanuit een SEO-oogpunt (meestal) niet. In de meeste gevallen betreft het namelijk een simpele dofollow-link naar een grafisch uitgeklede versie van de content. Maar de tekst zelf bestaat nog en is dus op twee plaatsen aanwezig! Er zijn verschillende manieren om dit probleem aan te pakken (van goed naar slecht):

Begin je een nieuwe site, kies dan direct voor de CSS-methode. Heb je al een uitgebreide site met printvriendelijke versies, kies dan voor één van de andere methodes.

3. Archiefpagina’s

Archiefpagina’s zijn de bladerbare overzichtspagina’s die je op nieuwssites en blogs veel tegenkomt. Ze bevatten een meestal op tijd (jaar/maand/dag) doorzoekbaar overzicht van artikelen. Het probleem ontstaat wanneer deze archiefpagina’s een aparte URL-structuur gebruiken om naar de artikelen te linken (een vel gebruikt voorbeeld: /jaar/maand/dag/artikel). Nu is ieder artikel dus naast de normale URL óók op een archief-URL te vinden; duplicate content!

De oplossing is gelukkig eenvoudig; doe het archief weg. De gemiddelde gebruiker maakt veel liever gebruik van categorische navigatie en een zoekfunctie. Wil je het archief tóch houden, zorg er dan voor dat het archief dezelfde URL-structuur gebruikt als de rest van de site. Gaat dit niet, zorg er dan voor dat alle links in het archief voorzien zijn van een rel="nofollow"-tag.

4. To www or not to www?

Het www dat we gewend zijn vooraan een domein te zetten, is eigenlijk maar een subdomein. De meeste sites zijn daarom dan ook op twee manieren te benaderen: site.nl en www.site.nl. Voor de zoekmachines zijn dit echter twee compleet verschillende sites! Aangezien ze precies dezelfde content hebben, zal de zoekmachine bij iedere pagina gaan kiezen tussen de twee versies. Hoewel je bij google via de webmaster tools een keuze kunt maken (onder ‘instellingen’), zijn niet alle zoekmachines zo vriendelijk. Voorkom het probleem dus door een 301-redirect in te stellen van ‘site.nl’ naar ‘www.site.nl’ of vice versa. Websites die op een apache server draaien waarop mod_rewrite geïstalleerd is, kunnen hiervoor de volgende code toevoegen aan het .htaccess bestand:

RewriteCond %{HTTP_HOST} ^uwdomein.nl
RewriteRule (.*) http://www.uwdomein.nl/$1 [R=301,L]

5. De trailing slash

Wat veel webmasters vergeten, is dat de pagina http://www.site.nl/artikel voor de zoekmachines een compleet andere pagina is dan http://www.site.nl/artikel/. Sites die de trailing slash dus niet toevoegen, lopen dus risico op zowel verdunning van de linkjuice als duplicate content. Zie het artikel het belang van de trailing slash/ voor een uitgebreide analyse van dit probleem, inclusief mogelijke oplossingen.

6. URL parameters

Er zijn nogal wat sites die gebruik maken van het vraagteken om een serie parameters mee te geven aan een URL. Op zich is daar niets mis mee, maar houd in de gaten dat iedere unieke serie parameters ook een aparte URL vormt voor de zoekmachines. Ofterwijl, de pagina http://www.site.nl/index.php?uid=23 is een andere pagina dan http://www.site.nl/index.php?uid=25. Met name sites die op ouderwetse wijze nog session-ids meegeven, kunnen op deze manier te maken krijgen met een ontelbare hoeveelheid duplicate content. Omdat de zoekmachine-spider bij ieder bezoek een aparte session ID krijgt, zal deze de site bij ieder bezoek compleet opnieuw indexeren. Het gevolg is een enorme hoeveelheid duplicate content in de index, waardoor je site een penalty – of in extreme gevallen zelfs een ban – krijgt.

Probeer het aantal parameters in een URL dus zoveel mogelijk te minimaliseren. Er is in principe niets mis met een index.php?page=5, maar zorg ervoor dat alle ongewenste parameters (strip geen parameters die je nodig hebt!) gestript worden via bijvoorbeeld .htaccess. Dit is niet alleen prettig voor de zoekmachines, het is ook nog eens een stuk veiliger. Een andere optie, is ervoor zorgen dat pagina’s met onherkende parameters een 404 teruggeven.


Stem / voeg toe / tweet : Stem voor dit bericht op op nujij.nl Stem voor dit bericht op op ekudos.nl Tweet dit artikel

Reageren

Dirk schreef op 14 februari 2009, 10:06

Hi,

Ben ik weer… klopt het dat je zelf ook gebruik maakt van duplicate content? Dit artikel is via een tag te benaderen en via het hoofdmenu.

Of werkt het met tagging anders?

Gr.,

Dirk

John den Haan schreef op 14 februari 2009, 13:36

Het artikel is op meerdere manieren te bereiken, maar zoals je kunt zien is de URL nog steeds hetzelfde. Daar draait het om bij duplicate content. Om te voorkomen dat de samenvatting meerdere malen geïndexeerd wordt, heb ik wel een noindex op de tagpage gezet.

Dirk schreef op 16 februari 2009, 15:13

Hi,

Bedankt voor je reply!

Nog een vraagje. Als ik naast www.mijnsite.nl tevens www.mijnsite.be online zet, dan valt dit onder duplicate content zeker?

Maar ook als ik de contactgegevens heb aangepast (ander tel nr, ander email adres) en een ander logo hanteer?

Gr.,

Dirk

John den Haan schreef op 16 februari 2009, 15:17

Dirk,

Als op mijnsite.nl en mijnsite.be dezelfde content staat, valt dit hoe dan ook onder duplicate content. Als de site andere inhoud bevat, zal het niet als duplicate content worden beschouwd. Alleen andere contactgegevens is helaas niet genoeg vrees ik; de site zullen wel degelijk aparte content moeten hebben.

Dirk schreef op 16 februari 2009, 17:16

Hi Johan,

Allereerst nogmaals bedankt voor de info. Wij gaan er zeker nog even werk van maken!

Heb ik wel nog een vraag, misschien een lastige maar wel een hele belangrijke!

Ik snap het principe van duplicate content op detailniveau/artikelniveau, maar hoe zit het op lijstnivo?

Stel, ik heb 10 boten, waarvan er 7 kleine boten zijn en van die 7 boten zijn er 4 groen. Ik maak links 2 knoppen aan: – Kleine boten – Groene boten

Aangezien er 4 reizen zijn die overlap vertonen in beide categorien, kan je zeggen dat hier ook sprake is van duplicate content? Hoe zie jij dit? Ik begrijp dat je vanuit de gedachte moet beredeneren dat je iets dergelijks alleen doet om de usability te ondersteunen maar uiteraard doe je het ook een beetje voor de seo omdat je weet dat men EN zoekt op kleine boten EN op groene boten. Dat impliceert – in a way – ook natuurlijk dat je “iets nuttigs voorschotelt” voor internetgebruikers.

En wat als je nog een 3e item toevoegt “Boten” waarin zowel de 7 kleine als de 4 groene boten in voorkomen?

Is dit dan wel/ook duplicate content naar jouw mening?

En zou je zoiets kunnen opvangen (hier begint het gemanipuleer weer) door de lijstgegevens van een bootje die EN groen is EN klein, in de sectie “klein” anders in te richten dan in de sectie “groen”? Bv door de omschrijving anders te schrijven: “Dit kleine bootje is uitermate geschikt…” vs “Deze boot is groen en lelijk maar vaart als een speedboat…”? En eventueel een ander plaatje aan vastplakken? Misschien wel safer of niet?

Thanks alvast!

John den Haan schreef op 16 februari 2009, 17:39

Dirk,

Wellicht is het verstandg even contact op te nemen via het contact-formulier. Stuur me je URL, dan kan ik iets specifieker op je vraag ingaan.

Tony schreef op 9 november 2010, 03:12

Hoi,

Over nette URL.

Dit: http://www.naam.nl/index.php?section=Gezondheid

Zou je kunnen vertalen naar http://www.naam.nl/Gezondheid

Mijn vragen zijn;

- Hoe kan ik dit het beste doen, ik lees zoveel verschillende oplossingen. – Moet je dat voor elke sectie doen? Of is er een algemene regel in php of htaccess wat van alles, automatisch een nette url maakt. – Heeft het effect op de verwijzing naar de map CSS? /css/style.css – “www.naam.nl/gezondheid” zou dan de nette url zijn. Zou hierachter een / moeten staan, gezien daar ook een regel over is te maken? Of is dat hier niet van toepassing?

Ik hoop dat je tijd hebt dit te beantwoorden. Ik vind het bovendien een fantastische site.

BVD

Tony

John den Haan schreef op 14 november 2010, 16:07

Tony,

Gebruik hiervoor een .htaccess bestand. Zie de handleiding van mod_rewrite op http://httpd.apache.org/docs/1.3/mod/mod_rewrite.html.

John

Tony schreef op 27 december 2010, 14:23

Ik wil de categorien laten indexeren en followen, want ik gebruik o.a excerpts op die pagina, om dubbele content te voorkomen. Ook gebruik ik voor elk bericht een canonical. Ik kan hierdoor het overzicht van berichten rustig laten indexeren en followen. Maar het lijkt me niet verstandig dit voor iedere pagina op te geven. Waar kan ik het beste aangeven dat dit wel het geval moet zijn? Ik zou dit op de Home en Category aan kunnen zetten, en via de overige pagina’s nofollow/noindex.

Of is dit onzin, want wellicht denkt google op de ene pagina dat de categorien wel moeten worden gevolg en gefollowed, en op de andere pagina niet, dus doet hij het helemaal niet?

Hoe zit dat precies?