La notion de contenu dupliqué revient régulièrement lors d’un audit de site web ou d’une stratégie d’optimisation du référencement naturel. L’expression est suffisamment explicite pour comprendre qu’il s’agit d’une copie partielle ou totale d’un contenu de page et accessible à partir de différents liens URL. Néanmoins, il est fréquent de constater qu’un site propose du contenu dupliqué sans que son propriétaire ni son équipe technique n'en connaissent l'existence.
Comprendre le contenu dupliqué permet d’optimiser le référencement SEO de vos pages et d'amener davantage de visites sur votre site.
Le contenu dupliqué est généralement non intentionnel. Néanmoins, ce comportement involontaire entraine régulièrement des effets négatifs au niveau de l'acquisition de trafic.
Le travail en référencement est de travailler la notoriété d’un ensemble de page pour des liens URL définis de manière à attirer davantage de trafic pour ces pages d’entrées. En affichant du contenu dupliqué, le travail s’avère plus compliqué. La notoriété des pages est alors diluée et elles se font concurrence. Un concurrent aura alors moins de mal à mieux se positionner et acquérir une fraction de vos parts de marchés.
En fonction de la quantité de pages dupliquées, l’indexation de vos contenus se fera plus lentement. Le processus d’optimisation de vos pages prendra plus de temps.
Si votre site est accessible à partir du nom de domaine avec ou sans le sous-domaine et sans redirection, alors il est fort probable qu’il soit également indexé deux fois. L’intégralité de vos pages et donc de vos contenus se retrouve ainsi dupliquée. En conséquence vous faites à vous même concurrence en diluant la popularité de vos pages et de vos liens entrants (backlinks).
Suggestion : il vous faut déterminer le domaine favori à indexer (avec ou sans www). Cette opération peut s’effectuer à partir du serveur par une redirection 301 ou bien par l’outil pour les webmasters de Google
Votre site propose éventuellement une navigation sécurisée (sous la forme https://) afin de garantir la protection des données personnelles de vos visiteurs. Vous pourriez découvrir que les pages de votre site sont à la fois indexées pour des URLs classiques (sous la forme http://) et des URLs sécurisées.
Suggestion : Google prend en compte la sécurité du site, il est donc préférable de rediriger avec une redirection 301 l’ensemble du trafic vers vos pages sécurisées.
Dans le cadre de nos réalisations de sites E-commerce, il est fréquent que nous ayons à travailler avec des plateformes spécialisées telles que Magento. Les sites E-commerce génèrent d’énormes quantités de pages dupliquées. Un produit peut être accessible à partir de plusieurs catégories, ce qui entraine une multiplication d’URLs pour accéder à une même page de contenu. La gestion peut devenir d’autant plus compliquée selon le nombre de catégories, les couleurs et bien plus encore pour les sites qui décident d’indexer également leurs produits par taille.
Par exemple, pour un produit XY sur un site de commerce électronique pouvant être accessible sous 3 URLs différents :
Suggestion : Empêchez l’utilisation du chemin des catégories pour l’URL des produits, de manière à ce que le catalogue n’affiche plus qu’une URL unique par produit. Il faudra par la suite suggérer à Google l’url de référence (url canonique) que doit prendre en compte le moteur de recherche dans l’affichage de ses résultats.
La réécriture des URLs est régulièrement utilisée pour aboutir à un résultat propre et compréhensible de vos chemins de navigation. Les paramètres sont ainsi cachés ce qui permet par la même occasion d’afficher des mots clés plus pertinents. Une réécriture induit également une nouvelle page indexée. Il faut donc appliquer une parade pour les précédentes URLs et faire rejaillir cette dernière URL.
Suggestion : Une redirection 301 de l’ancien intitulé vers la réécriture permettra de rediriger le trafic et la popularité de celle-ci.
Votre site marque éventuellement le passage d’un nouveau visiteur à partir d’un paramètre de suivi s’intégrant dynamiquement à votre l’URL. Chaque nouvelle visite génère alors une nouvelle page à indexer, si bien qu’en fonction de votre trafic vous pourriez être amené à générer involontairement des milliers de pages dupliquées.
Suggestion : il est préférable de supprimer les paramètres associés à vos utilisateurs de vos URLs et d’opter pour les fichiers cookies. Autrement, l’outil pour webmaster de Google peut vous aider à bloquer ce paramètre.
Les sites accessibles sous plusieurs langues sont aussi des facteurs à risques. Un utilisateur passant d’une version à une autre peut voir sur son URL des paramètres de langues s’afficher. Le principe reste le même que pour les sessions identifiées. Vous pouvez multiplier le nombre de possibilités de pages dupliquées par le nombre de combinaisons de duo de langues possibles.
Suggestion : L’outil pour webmaster de Google vous permet de bloquer ce paramètre. Aussi il est possible de bloquer l’indexation de tous les liens URL présentant ces paramètres en ajoutant une balise Meta Noindex.
Google peut être amené à ignorer le titre et la meta-description d’une page lorsque ces derniers se révèlent identiques à d’autres pages du site. Dans cette situation, il ne s’agit pas de contenu dupliqué de la page, mais d’une duplication des éléments associés au référencement depuis votre page. Le moteur de recherche peut alors lui-même décider du titre et de la meta-description à appliquer à votre site au risque d’obtenir un résultat désordonné et ainsi affecter le taux de clics.
Suggestion : L’outil pour webmestres de Google peut vous permettre d’identifier les titres et les balises meta descriptions dupliquées. Une fois localisées, personnalisez-les.
Si le contenu dupliqué est impossible à éviter sur votre site, il est possible d'utiliser la balise canonique pour indiquer aux moteurs de recherche la version par défaut d'une page. Cette balise est :
<link rel="canonical" href="http://www.votrelien.com" />
Cette balise doit être ajoutée dans l'en-tête du code HTML de votre page. On l'ajoute sur toutes les pages dupliquées, pour indiquer quelle est la page par défaut. En reprenant l'exemple des liens URL du point 3, si on choisit la page directe du produit comme lien par défaut, la balise canonique à ajouter sur toutes les variantes de l'URL du produit sera :
<link rel="canonical" href="http://www.site.com/fr/produit-xy" />
Le contenu dupliqué est un élément qui se génère facilement. Cependant, une fois que le mal est fait, il est plus compliqué de l’identifier à temps et sa correction peut s’avérer longue et fastidieuse pour votre équipe. C’est pourquoi lors d’une refonte de site web il est important d’anticiper les sources possibles de contenus dupliqués et de définir préalablement les réécritures de liens URL.