De canonical standaard - Het nieuwe wapen tegen duplicate content
Het voorkomen van on-site duplicate content is een belangrijke klus, die met name in geval van grote sites best complexe vormen kan aannemen. Gelukkig zijn de zoekmachines hiervan op de hoogte en gaan zij ons wapenen met een nieuw middel: de canonical link.
Zowel Google (onder andere bij monde van Matt Cutts), Yahoo als Microsoft zijn van plan dit nieuwe formaat te ondersteunen. Het werkt als volgt: door binnen de <head> sectie van je website een regel te plaatsen, kun je de zoekmachines duidelijk maken onder welke URL een pagina bij voorkeur bereikbaar is. De syntax is als volgt:
<link rel="canonical" href="http://www.mijnsite.nl/artikel/" />
Het maakt nu niet uit onder welke URL de crawler je site bereikt; dankzij deze tag ‘weet’ de bot onder welke URL hij de pagina had moeten bereiken. Bevindt de crawler zich op de verkeerde URL (bijvoorbeeld met een query-string), dan zal hij de pagina niet indexeren en eventuele ‘linkjuice’ doorsturen naar de juiste URL. Hiermee wordt voorkomen dat de pagina onder de verkeerde URL in de zoekresultaten verschijnt en worden zaken als PR-splitting voorkomen. Zaken als ‘campaign tagging’, waarin je links vanaf bepaalde bronnen met een bepaalde query-string herkenbaar maakt, worden probleemloos mogelijk. Ook pagina’s waarin bijvoorbeeld de sortering via een query-string wordt geregeld, zullen niet meer onnodig dubbel worden geïndexeerd.
De URL van de canonical link MAG relatief zijn (bijv. ‘/artikel/’), maar om problemen te voorkomen, wordt het aangeraden absolute URLs te gebruiken. Het aanleggen van een ‘canonical chain’, waar de canonical URL zelf weer een andere canonical URL heeft, mag ook. Dit is echter om duidelijke redenen onzin.
De limitaties
De canonical URL mag zich alleen op hetzelfde domein bevinden. Canonical URLs die zich buiten het domein begeven, worden genegeerd. Daarnaast moeten de beide URLs (de URL die bereikt wordt en de canonical versie) minimaal bijna dezelfde inhoud tonen. Helaas is Google’s definitie van bijna erg onduidelijk, maar het is bijvoorbeeld bij breadcrumb-navigatie of andere URL-afhankelijk inhoud niet erg als er hier of daar iets anders is. Tot slot is de canonical een hint en geen directive. Dit wil zeggen dat de zoekmachines de canonical directive niet per definitie volgen. In de meeste gevallen zal de voorkeur van de webmaster gewoon gehonoreerd worden, maar de zoekmachines mogen in geval van verwarring afwijken.
Video: Matt Cutts over de canonical standaard
Update: Joost de Valk heeft al plugins geschreven voor diverse CMS-systemen. Lekker vlot!



