Comment fonctionne un moteur de recherche ? (6ème partie : la lutte contre le spam)

Un moteur de recherche comme Google ou Bing est loin d’être un système simple pouvant être expliqué en quelques lignes. Il est au contraire l’addition de nombreuses technologies souvent assez complexes, lui permettant de renvoyer à l’internaute qui l’utilise les résultats les plus pertinents. Cette série d’articles vous explique donc quelles sont les différentes briques d’un moteur et vous dévoile les arcanes qui constituent leurs entrailles. Après nos précédents articles sur les technologies de crawl, l’index inversé, le duplicate content, le PageRank thématique, la pertinence et l’analysede la requête de l’internaute, nous abordons un sujet incontournable : la lutte contre le spam et la façon dont les moteurs de recherche détectent les techniques tentant de contourner leurs algorithmes. Explications…

Par Guillaume Peyronnet, Sylvain Peyronnet et Thomas Largillier


 

Nous avons vu dans les articles des mois précédents comment fonctionnent la plupart des algorithmes utilisés par un moteur de recherche pour créer des classement et obtenir des résultats de bonne tenue. Mais on peut remarquer que si les moteurs n’en font pas plus, il devient très facile d’obtenir un bon positionnement en connaissant ces algorithmes.

On peut ainsi améliorer son “référencement” en créant des backlinks de qualité douteuses, en générant du contenu au kilomètre avec des techniques de content spinning ou avec de la rédaction bas de gamme, en achetant des domaines expirés et en faisant des redirections 301, etc.

Tous les webmasters essayent à leur niveau de manipuler le classement produit par Google. Et la couleur des chapeaux dont on aime s’affubler dans le SEO n’est rien d’autre qu’une graduation interne à la communauté, car dès qu’on a la volonté de manipuler les classements, le moteur va riposter.

Il est important pour les moteurs de recherche de lutter contre ces manipulations. En effet les résultats fournis peuvent être vus comme la recommandation du moteur sur la requête. Il est important que cette recommandation soit perçue comme la moins biaisée possible par les utilisateurs afin de garder leur confiance.

Cette riposte du moteur est continue et se trouve à tous les niveaux. Il va ainsi, dès le crawl et l’indexation, repérer les contenus ne méritant même pas d’être indexés ;  au moment du calcul de l’importance il va  diminuer l’impact de ce que l’on appelle des fermes de liens (sous forme de PBN pour Private Blog Networks chez les référenceurs web) ; lors de l’analyse de la pertinence, il va appliquer des filtres comme Panda ou Penguin par exemple. Le va-et-vient incessant entre l’attaque des uns et la défense des autres est d’ailleurs ce qui occupe quasiment à plein temps les discussions des référenceurs web, et qui permet à cette lettre d’exister (en partie)…

Dans cet article, nous allons discuter de ce qu’est le spam, et pourquoi il existe. Puis nous verrons une taxonomie du webspam et les familles de méthodes permettant de lutter contre celui-ci. Enfin nous évoquerons deux exemples de méthodes de filtrage.

Pourquoi y a t-il du spam ?

Si il y a du webspam c’est parce que, sur le Web, chaque internaute qui visite un site à une valeur monétaire immédiate. Pour mieux comprendre ce qui précède, imaginons que la taux de clic moyen sur une publicité pour un site web (publicité display) soit de 0,1% et que le gain lié à ce clic soit de 30 centimes (un CTR de 0,1% et un CPC de 0,3€ sont des hypothèses tout à fait réalistes). Avec ces chiffres, à chaque visite sur une page web, vous valez 0,03 centimes. Cela vous parait peu ? mettez cela en regard du nombre de pages que vous visitez tous les jours !

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter
Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Canalplus
Saint-Gobain
Radio France
Orange
Inserm
CCI Paris
Cultura
Harmonie Mutuelle
Quechua

Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).

 

Ajouter un commentaire Ajouter un commentaire

Article précédent

Walid Gabteni : "Pour gagner le concours SEO Hero, j'ai appliqué les bases du SEO"

Article suivant

Avis clients : quel poids en SEO ?