Contenu dupliqué : types, algorithmes et méthodes d’optimisation (1ère partie)

Le contenu dupliqué sur Internet est un problème aussi vieux comme le Web lui-même. Une facilité absolue de copie (voire de pillage) de contenu propre à l’espace web multipliée par des constellations de solutions techniques non-optimisées comme les paramètres de tracking ou les erreurs humaines engendre des milliards de pages doublons à côté des pages déjà existantes. Ceci en fait une des tâches prioritaires à gérer par les moteurs de recherche. Et comme d’habitude, ce que veut Google se répercute inévitablement sur le travail des responsables SEO. Dans cet article en deux parties nous allons passer en revue les différents types de contenus dupliqués, les algorithmes de détection et les particularités de traitement du contenu dupliqué par Google, les méthodes et outils permettant de l’identifier et bien sûr de le corriger.

Qu’est-ce que le contenu dupliqué ?

Commençons par la définition du contenu dupliqué et pour cela reprenons l’explication officielle de Google :

« Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques dans la même langue ou sensiblement similaires. Dans la plupart des cas, ces contenus ne sont pas trompeurs à l'origine. »

En se basant sur cette définition, nous pouvons facilement élaborer quelques typologies de contenu dupliqué.

En fonction du lieu d’apparition du contenu en double, on peut avoir :

Duplications internes (la page dupliquée se trouve au sein du même site).
Duplications externes (la page dupliquée se trouve sur un autre site, un autre nom de domaine).

En fonction du taux de similitude, on distingue :

Duplications complètes (« exact duplicate »).
Duplications partielles (« near duplicate »).

En fonction de la nature des duplications :

Duplications volontaires et trompeuses.
Duplications involontaires ou accidentelles.

A ces trois types de duplications, on peut ajouter une 4^ème:

Duplications techniques.
Duplications sémantiques (pages qui utilisent des mots et tournures différentes, mais finalement parlent au fond exactement de la même chose sans valeur ajoutée).

Selon le type de duplication, la gravité, la réaction et les méthodes de correction ne seront pas les mêmes. C'est ce que nous allons voir plus tard dans cet article.

Comment Google identifie-t-il le contenu dupliqué ?

Du côté des moteurs de recherche, la comparaison de documents web dans l’objectif d’en identifier les doublons est toujours une affaire de compromis entre précision et ressources machine consommées.

Beaucoup d’algorithmes qui sont à notre disposition et que nous pouvons utiliser sans aucun problème pour nos projets, s’avèrent très vite inefficaces à l’échelle du Web quand il faut effectuer la comparaison avec des millions, voire des milliards de pages web.

Pour identifier si un site contient du contenu dupliqué, Google utilise plusieurs niveaux, méthodes et algorithmes d’analyse.

Le niveau d’analyse de base et de laisser passer Googlebot sur la page intéressée et de détecter si elle présente du contenu différent. Une approche aussi précise que consommatrice en ressources car cela demande à Google d’explorer chaque page dont une grande partie peut être dupliquée et donc inutile.
L’autre niveau d’analyse trouve sa réalisation dans le concept du crawl prédictif. En se basant sur les contenus en doublon découverts au niveau 1, Google essaye d’identifier des patterns d’adresses URLs communs et de limiter l’exploration de ces pages en supposant qu’il y ait une forte probabilité qu’elles soient dupliquées.

Par exemple, si le moteur identifie que les versions imprimables s’avèrent régulièrement des copies des pages existantes, il peut limiter fortement leur exploration faute de plus-value apportée par ces pages. Le tout en se basant sur les patterns (schémas récurrents) d'URL détectées.

Faisons un focus sur le premier niveau d’analyse qui, comme vous pouvez vous en doutez, est bien plus complexe que formulé dans le paragraphe ci-dessus.

Avant son indexation, toute page web passe par une étape de vérification de duplication. La logique de Google est claire et nette : il n’y a pas de raison de gaspiller des ressources du moteur à analyser le contenu de la page si celui-ci a déjà été publié auparavant.

Mais comment le moteur peut-il savoir si la page est dupliquée sans l’avoir analysée ?

Avant de passer à une analyse poussée de la page, les principaux moteurs de recherche dont Google procèdent à une opération de hachage, c’est-à-dire encodent le contenu dans une séquence de caractères (de nombres ou nombres et chiffres).

Ainsi chaque texte de la page est représenté par un ensemble d'éléments constitutifs appelés shingles – séquences de nombre de mots fixe, qu’on obtient par glissement d’un mot vers la droite. Les shingles sont ensuite hachés pour en constituer finalement un hash récapitulatif reflétant le texte.

Par exemple pour la phrase « Charles Darwin a révolutionné la biologie avec ses théories de l'évolution », le moteur va identifier et encoder (hash) 6 shingles de la taille 6 :

charles darwin a révolutionné la biologie
darwin a révolutionné la biologie avec
a révolutionné la biologie avec ses
révolutionné la biologie avec ses théories
la biologie avec ses théories de
biologie avec ses théories de l'évolution

Utiliser les shingles comme élément de hachage et non pas les mots séparés a permis non seulement d’économiser considérablement l’espace de stockage (chaque mot est dupliqué plusieurs fois), mais aussi prendre en compte l’ordre des mots.

Le hash final est un mode de visualisation de la page beaucoup plus compacte est aussi appelé une signature ou empreinte digitale de la page.

Le hachage du contenu de pages dans Screaming Frog SEO Spider.

Au lieu de comparer les textes entiers, comparer ces petites chaînes de caractères s’est avéré beaucoup plus léger en termes de stockage de textes et de calculs de comparaison tout en restant aussi efficace.

Il existe des différents algorithmes de hachage, dont les plus connus sont MinHash et SimHash qui ont trouvé leur application dans les outils de crawl les plus connus que nous avons l’habitude d’utiliser.

L’algorithme MinHash. Précis et efficace, mais il est consommateur en calculs sur de très grands volumes. Cet algorithme est utilisé par Google pour diversifier et personnaliser les résultats dans Google Actualités, mais également dans Screaming Frog SEO Spider.
L’algorithme SimHash. Cet algorithme, beaucoup plus rapide, est utilisé par Google pour calculer la similarité entre documents web et identifier les duplications non-exactes, aussi bien que dans les crawler SaaS comme OnCrawl et Babbar.

Il est à noter que Google rejette de l’analyse les éléments transversaux, visibles à travers tout le site, comme le header, les menus, les sidebars ou le pied de page (footer) en se focalisant sur le contenu propre à chaque page.

Une fois que le moteur a calculé la similarité des signatures des pages, il répartit les documents identiques et similaires par clusters selon leur similitude. Pour chaque cluster, Google va sélectionner un seule document qu’il va afficher dans ses résultats de recherche (« leader page »). Cette étape s’appelle la canonicalisation et ressemble à une sélection naturelle.

Dans le podcast Search Off the Record du 4 novembre 2020, Gary Illyes de Google a évoqué le fait qu’à l’étape de canonicalisation, Google utilisait une vingtaine de signaux dont :

Le Pagerank (la popularité de page augmente ses chances d’être sélectionnée),
Le protocole (HTTPS ou HTTP),
Le Sitemap XML (une page est plus importante si elle est présente dans le sitemap),
Une éventuelle redirection (la page redirigée sera fortement dévalorisée),
La balise rel=canonical (un signal fort, car l’attribut est mis en place spécialement par le webmaster à cette fin).

A chaque signal, un poids est attribué grâce aux algorithmes d’apprentissage automatique. Si le contenu d’une page est modifié, son empreinte change et elle passe dans autre clusteur de documents similaires et entre en concurrence avec les documents du nouveau cluster.

On a déjà vu ce passage par l’étape du clustering dans l’article sur le traitement d’images similaires par Google, quand toutes les mêmes images d’un iPhone se regroupaient et le moteur en sélectionnait une seule qu’il affichait dans Google Images.

Exemple sur la requête « iphone xr rouge » : parmi tous les cas d’utilisation de la 3ème image,
Google a sélectionné la page sur le site de la Fnac pour l’afficher dans ses résultats de recherche.

En réalité, un seul document par cluster n’est pas un dogme. Le nombre de pages qui peuvent « sortir du cluster » dépend fortement de la popularité du sujet associé au cluster. Plus rare est le sujet, plus de documents pourront être positionnés parce que Google est obligé coûte-que-coûte de remplir les premières pages de ses résultats de recherche.

Comment le contenu dupliqué apparaît-il ?

Les raisons de l'apparition de contenu dupliqué sont aussi diverses que créatives, mais toutes peuvent être divisées en deux grands groupes : technique ou éditorial.

Problèmes techniques	Exemples et commentaires
Défauts techniques de CMS	Par exemple, le CMS Vbulletin utilisé pour créer des forums ajoute par défaut dans les URLs de ses pages les ID uniques de la session de l’internaute. Ainsi apparaissent autant de variantes de la page qu’il y a de visiteurs du forum. Beaucoup de CMS font cohabiter sur le même site à la fois les URLs techniques et réécrites. Par exemple, /node/* sur Drupal, /demandware* sur Salesforce etc.
Paramètres de tracking	Les paramètres de tracking de type utm, gclid, fbclid, xtor introduits avec un point d’interrogation (?) ou un ampersand (&) créent les copies de la page à laquelle se rattachent.
Arborescence dynamique	Par exemple, on trouve encore souvent des sites e-commerce qui construisent des chemins d’URLs en fonction du parcours d’utilisateur ce qui génère des différentes URLs pour accéder à la même page : /smartphones/iphone-12-noir.html /smartphones/apple/iphone-12-noir.html /smartphones/smartphones-noires/iphone-12-noir.html /telephonie/smartphones/smartphones-tactiles/iphone-12-noir.html Autre cas : l’ordre des éléments qui n’est pas fixé : /baskets/femme/air-max.html /femme/baskets/air-max.html
Versions alternatives des pages	Version mobile dédiée, AMP, imprimable, PDF – par défaut, faute d’optimisation SEO, tous ces types de pages sont des doublons complets.
Protocole, www et slashes (/)	Les pages disponibles en HTTPS et HTTP, www et sans www, avec un slash à la fin ou sans représentent également des duplications.

Problèmes d’ordre éditorial	Exemples et commentaires
Utilisation du contenu publié ailleurs	Publication de dépêches AFP dans leur état initial sans retraitement quelconque. Utilisation de descriptions de produits provenant des fournisseurs.
Affichage du même contenu sur plusieurs pages	Affichage du même texte de taille conséquente en footer sur toutes les pages du site. Textes sur des catégories e-commerce repris automatiquement sur les pages paginées.
Création de pages très similaires	Création de pages locales par ville avec la même description de services offerts où seul élément de différenciation sera le nom de la ville.
Diffusion de ses contenus sur d’autres sites	Syndication d’actualités sur les agrégateurs de type Actu Orange ou Yahoo News ! Republication de ses articles de blog sur Medium.
Plagiat et vol de contenu	Utilisation illicite de vos contenus par tiers.

Voici pour cette première partie sur le contenu dupliqué. Le mois prochain, dans la seconde partie de cet article, nous tenterons de répondre à plusieurs questions essentielles à son sujet : comment l'identifier ? Comment l'éviter et/ou le corriger ? Google le pénalise-t-il ? Il y a donc encore beaucoup de choses à dire au sujet du duplicate content. Rendez-vous au mois de juillet !

Alexis Rylko, directeur technique SEO chez iProspect (https://www.iprospect.com/ & https://alekseo.com/)