Quand on travaille sur le référencement, il peut arriver que notre page remplisse toutes les conditions nécessaires pour pouvoir être positionnée, mais reste invisible dans Google. On a beau chercher des explications au niveau technique, éditorial, liées à l’ancienneté du site, la Search Console n’envoie aucun signal qui pourrait éclaircir la situation, la page « Actions manuelles » reste vierge. Il est probable que vous êtes devenu victime d’un des post-filtres de Google, non-évidents du premier regard, mais néanmoins toujours à côté de nous. Dans cet article nous allons passer en revue les principaux filtres de Google (SafeSearch, DMCA, Droit à l'oubli, etc.) : en quoi consistent-ils et comment les identifier dans la recherche ?
Comme on le sait, référencer un site prévoit tout un ensemble d’actions pour le rendre compatible à la fois aux besoins des internautes et à ceux des moteurs de recherche, dont Google. Et le plus souvent, cela est suffisant.
Mais si malgré cela, les résultats ne nous satisfont pas, on revoit nos optimisations en cherchant des améliorations sur l’aspect technique, éditorial ou popularité. Et cette approche est tout à fait correcte, avec une seule réserve qu’il existe également, si on peut le dire, des pouvoirs « d’en haut » que les moteurs de recherche et Google y compris peuvent appliquer par-dessus ses résultats et qui influencent directement les positionnements.
Ainsi à côté des facteurs de classement classiques, une page ou un site web peut ne pas apparaître dans les résultats de recherche à cause :
- D'un filtrage de contenu explicite dû au filtre SafeSearch.
- D'une plainte DMCA due à une infraction des droits d’auteur.
- D'une décision de la Cour de justice de l'Union européenne (CJUE).
- De restrictions gouvernementales.
Le filtre SafeSearch ou « filtre adulte »
Le filtre SafeSearch, également connu sous le nom de « filtre adulte », est le filtre le plus présent dans les résultats de recherche de Google de tous types : recherche classique, images ou vidéos. On y a à faire à chaque fois qu’on utilise Google, sans forcément s’en rendre compte, tout simplement parce qu’il est activé par défaut, notamment sur Google Images.
Option SafeSearch activée par défaut dans Google Images.
Le filtre SafeSearch a vu le jour vers l’an 2000 sous le contrôle direct de Matt Cutts. A l’époque, Google n’utilisait pas encore l’apprentissage automatique pour identifier du contenu pornographique sur des photos et le filtrage se basait uniquement sur le contenu textuel des pages.
Des années passaient et le filtre SafeSearch devenait de plus en plus vigilant et précis, notamment grâce à la mise en œuvre du machine learning et des technologies de reconnaissance des images (OCR). Aujourd’hui, il analyse à la fois le contenu textuel comme visuel et s’est doté d’une équipe dédiée à cette fonctionnalité.
Le filtre SafeSearch effectue le filtrage du contenu explicite pour l'éliminer des résultats de recherche. Parmi les résultats explicites figurent les contenus à caractère sexuel, pornographique, violent et sanglant. Ça, c’est ce que nous annonce la page de documentation officielle de Google.
Mais en parcourant les options dans l’API de Google (SafeSearch Annotation), on identifie le fait qu'il va bien au-delà.
Il existe 5 types de catégories de contenus que Google cherche, analyse et classe dans la catégorie du contenu explicite :
- Adulte - le contenu réservé aux adultes contenant des éléments tels que de la nudité, des images ou des dessins animés pornographiques ou des activités sexuelles.
- Spoof – une modification apportée à la version originale de l'image pour la faire paraître drôle ou offensante.
- Medical – contenu à caractère médical.
- Violence – contenu avec des scènes de violence.
- Racy – vêtements étriqués ou transparents, nudité couverte, poses obscènes ou provocantes, ou gros plans de zones sensibles du corps.
Une question légitime que vous pouvez poser à ce moment-là est : pourquoi puis-je y être touché si je ne publie pas de photos à caractère adulte ?
Pour 2 raisons :
- Comme tout algorithme automatique, le filtre SafeSearch peut se tromper.
- Il calcule une probabilité (« likelihood ») que votre contenu est adulte et les probabilités ne sont pas un axiome et sont sujettes aux erreurs.
Voyons quelques exemples à l’aide de l’outil de test de l’API de Google. En analysant la photo de la fameuse sculpture de Rodin, Google la considère comme « racy » - piquante :
Le baiser, de Rodin.
Tout aussi piquante paraît la photo d’une jeune femme faisant du joga sur la plage :
Faire du yoga sur la plage, ça pique ! 😉
Avoir ce genre de signaux ne veut pas dire directement que les pages contenant ces images seront désindexées. Il faut un cumul de plusieurs facteurs : par exemple à côté du critère « racy », avoir également le mot « adulte » détecté, du texte explicite sur la page, etc. On observe également que les seuils de déclenchement du SafeSearch ne sont pas fixes et peuvent être assouplis ou serrés.
Comment identifier que mon site a été pénalisé à cause du filtre SafeSearch ?
Pour vérifier si vous êtes atteint du filtre en question, il suffit de tester une recherche de la page présumée impactée, d’abord avec l’option SafeSearch activée, ensuite désactivée.
Voyons cela sur l’exemple d’un article sur Quora. Dans cet article un étudiant demande si son école serait notifiée suite à l’ouverture accidentelle d’un site adulte depuis un compte scolaire. En recherche normale avec la syntaxe site:[URL], c’est-à-dire avec le filtre SafeSearch activé, Google dit que la page n’est pas indexée :
Avec le SafeSearch activé, Google affiche que la page d’article n’est pas indexée.
Mais si on désactive le SafeSearch, l’article est bien présent dans l’index de Google. Cela signifie donc que la visibilité organique de cet article a été restreinte à cause du filtre adulte :
Avec le SafeSearch désactivé, Google affiche que la page d’article est bien indexée.
Un autre signal que vous pouvez utiliser est de faire une demande de type « site:votresite.fr » (sur le nom de domaine). S’il apparaît un message comme ci-dessous sur le fond jaune, cela signifie qu'une partie de vos contenus a été filtrée (sans savoir laquelle) :
Notification du filtrage de contenus par le filtre SafeSearch.
Ensuite, il faut comprendre l’envergure du problème : est-ce une seule page qui est atteinte ou le problème est-il plus grave ?
Le filtre SafeSearch peut s’appliquer sur 3 trois niveaux :
- À des pages spécifiques.
- À des sections particulières sur le site.
- Au site entier.
Lors d’un de ses « SEO Office hours » en décembre 2020, John Mueller (Google Zurich) a expliqué que dans les cas où Google découvrait beaucoup de contenus à caractère adulte sur un site par rapport à une petite quantité de contenu non-adulte, c’est le domaine entier qui serait filtré.
Exemple sur un site adulte : avec le filtre SafeSearch actif, n’affiche aucune page.
J’ai du contenu adulte sur certaines pages, que faire pour éviter le filtre Safesearch s’appliquer sur le site entier ?
- Si votre site contient des vidéos à caractère adulte, Google recommande de les regrouper dans un répertoire dédié, par exemple, /adult/. Dans la même interview, John Mueller conseillait d’expatrier ces contenus sur un sous-domaine.
- Utilisez les balises meta appropriées sur les pages avec du contenu explicite, cela permettra à Google de comprendre s’il faut filtrer une page particulière ou le site entier :
<meta name="rating" content="adult" />
<meta name="rating" content="RTA-5042-1996-1400-1577-RTA" />
Plainte DMCA due à une infraction des droits d’auteur
Si le filtre SafeSearch est global et s’applique à tous les sites dans leur ensemble, il existe des filtres qui visent des requêtes, des sites et des pages particulières. Du point de vue du mode d’application, ils ressemblent à des actions manuelles.
Il existe un groupe de filtrage de contenus qui provient des plaintes, des réclamations et des demandes de suppression de résultats à toute échelle : de la part des particuliers, entreprises, voire états.
En fait, il existe un nombre de cas de figure quand n’importe quelle personne physique ou morale peut influencer les résultats de recherche en demandant de supprimer tel ou tel site, ou telle ou telle page. Et quelquefois sans qu’on le sache.
Un des pénalités les plus connues depuis bien des années déjà est celle liée à l’atteinte au droit d’auteur ou une plainte DMCA (pour Digital Millenium Copyright Act).
Google est littéralement bombardé de demandes de suppressions de contenu. Au moment de la rédaction de cet article, 5,6 milliards d’urls ont fait objet d’une demande de suppressions des résultats de Google, appartenant à 3,8 millions de domaines.
Si vous voulez voir à quoi ressemble ce filtrage, faites une requête liée à un film ou un œuvre musicale suivi de « gratuit » ou « streaming ». Tout en bas de la page de Google, vous aurez une liste de liens vers les réclamations de droits d’auteurs :
Les pages liées aux films ou séries font partie des secteurs les plus sollicitées par les demandes DMCA.
On ne va pas décrire ici dans les détails ce que sont les réclamations DMCA, il existe déjà un article très détaillé sur ce sujet sur Réacteur que nous vous invitons à consulter.
A côté de l’application légitime liée à la violation du droit d’auteur, ce genre de plaintes est devenu une arme puissante de negative SEO. En fait, la législation dans le domaine du droit d’auteur est bien stricte et sévère, et souvent pour le moteur de recherche, il est plus raisonnable de pré-valider la demande de suppression de contenu en attendant une analyse humaine. Ce que certains SEO peu recommandables ont exploité pour supprimer des SERP des sites concurrents.
Comment savoir si mon site est victime d’une réclamation ?
Dans le cas d’une atteinte au droit d’auteur, c’est simple, car toutes les demandes sont répertoriées dans des bases de données publiques, et il suffit juste d’entrer le nom de votre marque pour voir s’il y a eu des plaintes récentes :
- Le champ « Explorer les données » sur la page « Transparence des informations » :
- Lumendatabase.org :
A côté de la présence dans ces catalogues de plaintes, normalement vous devez recevoir une alerte appropriée par courriel rattaché à votre compte Google Search Console :
Notification de suppression de la recherche Google conformément au DMCA.
Si vous découvrez une demande de suppression liée à votre site, que vous trouvez illicite ou injustifiée, vous pouvez faire une demande de contestation. Il s’agit d’un formulaire simple à remplir par un représentant légal de la marque atteinte. Ainsi, si vous êtes consultant SEO en agence, il est préférable de le demander au client que de faire cette demande vous-même (le lien se trouve dans le message reçu dans la Search Console).
Les demandes sont traitées en moyenne dans un délai de 2 jours à 2 semaines.
Formulaire de notification de contestation DMCA.
Suppression de contenu conformément à la Décision de la Cour de justice de l'Union européenne (CJUE).
Si la suppression de contenus suite aux plaintes DMCA est assez facile à détecter, car toutes les plaintes sont répertoriées sur le site Lumenbase.org, il existe d’autres types de réclamations qui sont beaucoup moins évidentes.
Il s’agit notamment du droit à l’oubli ou de la suppression de contenu suite à la décision de la Cour de justice de l’Union européenne (CJUE) qui prend de l’ampleur depuis ces dernières années.
En fait, toute personne morale a le droit de demander à Google de supprimer certains résultats de recherche Google spécifiques :
- Tout contenu incluant son nom.
- Tout contenu incluant son nom que la personne juge inutile, périmée ou erronnée.
- Tout contenu, image, vidéo portant atteinte à la personne.
Du point de vue du SEO, le souci est que le nom d’une personne peut correspondre en même temps à une appellation d’une marque : Pierre Chanel, Jacques L’Oréal ou par exemple Nicolas Cartier. Les demandes de suppression de contenus faites à mauvais escient peuvent donc impacter finalement la visibilité de n’importe quelle marque.
Autre point : ces demandes personnelles ne sont pas publiques et on ne peut pas savoir exactement si on a été impacté ou pas. Mais il existe des signaux qui permettent de le découvrir.
Voyons comment on identifie et traite les éventuelles demandes liées au droit à l’oubli sur l’exemple réel d’une grande marque multinationale française.
A un moment donné, en été 2021, cette marque a commencé à observer des problèmes de positionnement de sa page d’accueil sur le nom de la marque. Si d’habitude, quand on tapait le nom d’une entreprise c’est la page d’accueil qui occupait la première position, là, c’était une des pages internes. La page d’accueil n’était pas visible sur une requête de type « site: », comme si elle n’était pas indexée. Pourtant, il n'y avait pas de blocage au niveau des balises meta robots "noindex", "canonical", du robots.txt ou autres.
La page d’accueil du site n’était pas trouvable via la commande site:
Les premières suppositions d’une éventuelle pénalité mise en place sont venues quand on a commencé à vérifier l’indexation de la page en accédant aux résultats de Google via des adresses IP différentes (par le VPN VeePN). Et on s’est rendu compte que la page d’accueil n’était pas indexée en France, aux Pays-Bas, en Espagne, mais pourtant apparaissait bien en Russie, aux Etats-Unis et à Singapour. Cela a permis de cibler le problème et de le limiter à l’Union Européenne.
Un autre signal qui nous a amenés vers le droit à l’oubli européen était un petit message en italique à la fin de la page des résultats de recherche sur le nom de la marque qui disait que certains résultats pouvaient être supprimés conformément à la loi européenne sur la protection des données :
Message en dessous des résultats de Google annonçant la suppression de certains résultats.
Suite à l’identification d’un éventuel problème liée au droit à l’oubli, une demande de contestation a été faite. 2 jours plus tard, le problème était résolu et la page récupérait ses positionnements normaux :
La récupération du trafic sur la page d’accueil suite à l’approbation de la demande de contestation.
On voit sur la courbe ci-dessus (Google Search Console) que la page a repris son audience d'avant, mais on voit aussi que cela a pris presque 5 mois, car ce ne sont pas forcément des points auxquels on a l’habitude de penser.
Comme il n’existe pas de formulaire dédié au droit à l’oubli, c’est le formulaire DMCA qui a été utilisé pour contester la suppression.
Ainsi, pour résumer, la méthodologie de vérification est la suivante :
- Vérifier que tous les facteurs SEO liés à l’exploration ou l’indexation sont respectés et il n’y pas de blocage pour le robot de Google.
- Vérifier les positionnements de la page sur le nom de la marque dans différents pays. Y a-t-il des zone géographiques pour lesquels la page est tout de même présente ?
- Vérifier si Google affiche en bas de sa page de résultats un message expliquant que certains résultats ont été omis sur le nom de la marque.
- Si les 3 points ci-dessus sont validés, faire une demande de contestation.
Restrictions gouvernementales.
Les réclamations peuvent provenir non seulement d’individus, mais également de différentes institutions ou organismes gouvernementaux. Ces demandes sont plus rares que celles des personnes physiques ou morales, mais sont plus souvent validées par Google, car elles sont accompagnées de justificatifs officiels.
Il s’agit d'un ensemble de motifs portant atteinte à la sécurité nationale, aux droits d'auteur, à la diffamation, aux biens et services réglementés, à la confidentialité et à la sécurité.
Motifs de suppressions de contenus de la part des organismes gouvernementaux.
Suite à une réclamation gouvernementale, Google peut supprimer une ou plusieurs pièces de contenus demandés dans une localité donnée dans laquelle la loi est valable.
Pour découvrir s’il y a eu une plainte déposée contre vous, il faut à nouveau avoir recours à la base de données sur https://lumendatabase.org/. Et si vous trouvez que la demande n’est pas justifiée ou erronée, n’hésitez pas à faire une demande de contestation via le formulaire dédié.
Conclusion
Le filtrage SafeSearch, les plaintes DMCA, les suppressions liées au droit à l’oubli ne sont pas forcément les premières choses auxquelles on pense en travaillant sur le référencement. Mais elles sont toujours proches et peuvent impacter considérablement notre visibilité sans qu’on le sache. Il est donc toujours important de les garder en tête, tout autant que les méthodologies d’investigation permettant de les identifier et des solutions pour les contester.
Alexis Rylko, directeur technique SEO chez iProspect (https://www.iprospect.com/ & https://alekseo.com/)