De canonical standaard - Het nieuwe wapen tegen duplicate content

Het voorkomen van on-site duplicate content is een belangrijke klus, die met name in geval van grote sites best complexe vormen kan aannemen. Gelukkig zijn de zoekmachines hiervan op de hoogte en gaan zij ons wapenen met een nieuw middel: de canonical link.

Zowel Google (onder andere bij monde van Matt Cutts), Yahoo als Microsoft zijn van plan dit nieuwe formaat te ondersteunen. Het werkt als volgt: door binnen de <head> sectie van je website een regel te plaatsen, kun je de zoekmachines duidelijk maken onder welke URL een pagina bij voorkeur bereikbaar is. De syntax is als volgt:

<link rel="canonical" href="http://www.mijnsite.nl/artikel/" />

Het maakt nu niet uit onder welke URL de crawler je site bereikt; dankzij deze tag ‘weet’ de bot onder welke URL hij de pagina had moeten bereiken. Bevindt de crawler zich op de verkeerde URL (bijvoorbeeld met een query-string), dan zal hij de pagina niet indexeren en eventuele ‘linkjuice’ doorsturen naar de juiste URL. Hiermee wordt voorkomen dat de pagina onder de verkeerde URL in de zoekresultaten verschijnt en worden zaken als PR-splitting voorkomen. Zaken als ‘campaign tagging’, waarin je links vanaf bepaalde bronnen met een bepaalde query-string herkenbaar maakt, worden probleemloos mogelijk. Ook pagina’s waarin bijvoorbeeld de sortering via een query-string wordt geregeld, zullen niet meer onnodig dubbel worden geïndexeerd.

De URL van de canonical link MAG relatief zijn (bijv. ‘/artikel/’), maar om problemen te voorkomen, wordt het aangeraden absolute URLs te gebruiken. Het aanleggen van een ‘canonical chain’, waar de canonical URL zelf weer een andere canonical URL heeft, mag ook. Dit is echter om duidelijke redenen onzin.

De limitaties

De canonical URL mag zich alleen op hetzelfde domein bevinden. Canonical URLs die zich buiten het domein begeven, worden genegeerd. Daarnaast moeten de beide URLs (de URL die bereikt wordt en de canonical versie) minimaal bijna dezelfde inhoud tonen. Helaas is Google’s definitie van bijna erg onduidelijk, maar het is bijvoorbeeld bij breadcrumb-navigatie of andere URL-afhankelijk inhoud niet erg als er hier of daar iets anders is. Tot slot is de canonical een hint en geen directive. Dit wil zeggen dat de zoekmachines de canonical directive niet per definitie volgen. In de meeste gevallen zal de voorkeur van de webmaster gewoon gehonoreerd worden, maar de zoekmachines mogen in geval van verwarring afwijken.

Video: Matt Cutts over de canonical standaard



Update: Joost de Valk heeft al plugins geschreven voor diverse CMS-systemen. Lekker vlot!


Stem / voeg toe / tweet : Stem voor dit bericht op op nujij.nl Stem voor dit bericht op op ekudos.nl Tweet dit artikel

Reageren

John den Haan schreef op 13 februari 2009, 02:47

Kleine toevoeging: maak geen misbruik van deze tag door uit gemakzucht te denken dat na implementatie de daadwerkelijke technische oorzaak van duplicate content genegeerd kan worden. Zorg er nog steeds voor dat er zo min mogelijk duplicatie op je domein aanwezig is, om zowel zoekmachines als gebruikers zo min mogelijk te verwarren. De canonical is een vorm van symptoombestrijding die het achterliggende probleem, een verkeerde technische structuur van de site, negeert.

Alain Sadon schreef op 13 februari 2009, 14:25

Heel duidelijk en interessant verhaal. Ik ben het eens met je aanvulling om dubbele content zoveel mogelijk actief te voorkomen. Maar soms is het erg lastig, en dan is de rel=“canonical” een interessante oplossing.

Ik zal melding maken van dit artikel op mijn forum. Dank!

Seotaal schreef op 13 februari 2009, 15:12

Beste,
Bedankt voor het doorsturen, was er nog niet van op de hoogte. Zelf ben ik meer een voorstander van dit serverside afhandelen, maar dit is wel aan aangename toevoeging voor sommige toepassingen.

Ik ga er binnenkort waarschijnlijk iets over schrijven, dan houdt je een linkje van me te goed :).

Gr. Marcel

Alex schreef op 13 februari 2009, 16:06

Dit is een zeer interessant artikel. Mijn dank. Wij creëren helaas duplicate content doordat we aan webshops in onze site tags toekennen. Dit zal wellicht een oplossing bieden.

John den Haan schreef op 13 februari 2009, 18:56

Mijn oplossing voor tagpages is simpel; niet laten indexeren. Met een <meta name=“robots” content=“noindex,follow” /> zorg je ervoor dat ze niet geïndexeerd worden, maar wel crawlable blijven.

Maurice schreef op 18 februari 2009, 15:38

Beste John,

Interessant artikel! Mijn complimenten voor je nuttige informatie…

Maar “niet geindexeerd maar nog wel crawlable”?
Wat moet ik me daarbij voorstellen? Wat is dan precies het nut ervan?

Gr.
Maurice

John den Haan schreef op 19 februari 2009, 03:06

Met “niet indexeerbaar, maar wel crawlable”, bedoel ik dat de links op de pagina wel gevolgd kunnen worden, maar dat de pagina zelf niet wordt opgeslagen in de index.