Depuis de nombreuses années, Google adapte petit à petit ses algorithmes à la recherche vocale. La saisie de mots clés dans un formulaire de recherche a vocation à laisser sa place à la diction de ce que l'on recherche. Google Assistant et donc Google Home sont les incursions les plus affirmées de la firme de Mountain View dans ce domaine. Comment prendre en compte cette nouvelle donne et adapter nos stratégies SEO (requête, champ lexical, etc.)? Voici quelques éléments de réflexion et de réponse...
Google Home est disponible à la vente depuis début aout 2017 en France. Google a équipé son produit de Google Assistant, un agent conversationnel. Cet assistant intelligent analyse le langage naturel et répond aux demandes avec sa voix synthétique.
Google Assistant présente ainsi un nouveau moyen d’interroger le moteur de la firme de Mountain View. Cet assistant virtuel est basé sur l’algorithme de machine learning Google Rankbrain. En quoi cet algorithme change-t-il notre approche du référencement naturel ? Comment doit-on adapter nos recherches de mots-clés ?
Pourquoi devons-nous nous soucier de la recherche vocale ?
Dès 2013, la mise à jour Colibri « Hummingbird » a réécrit le moteur principal de Google. Colibri s’inscrit dans une démarche qualité de la firme de Mountain View qui souhaite nettoyer son index des contenus de mauvaise qualité et donner accès à des contenus toujours plus pertinents aux internautes. Par la même occasion, Google a intégré la recherche vocale au sein de son moteur.
S'il y avait deux algorithmes, l'un pour la recherche textuelle et le second pour la recherche vocale, nous pourrions ne pas nous en soucier. Mais la réalité est en fait que le texte et la recherche vocale sont alimentés par le même algorithme. Tous les changements que Google a effectué pour s'adapter aux recherches en langage naturel ont une incidence sur chaque recherche, quelle que soit la source : recherche depuis un PC, depuis un mobile ou depuis Google Home.
Le langage naturel en action : le langage parlé
Partons pour l’Espace, et examinons ce que Google est capable de faire. Pour les internautes les plus avisés, une recherche simple serait "diamètre du soleil". Google comprend assez bien cette question pour l'associer à l'entité Knowledge Graph correspondante et renvoie le contenu de la figure 1.
Fig. 1. Recherche Google Assistant pour la requête « diamètre du soleil ».
Soyons plus prolixe et essayons une version plus naturelle de la même recherche : « Quelle est le diamètre du soleil ». En 2017, Google comprend que ces deux recherches sont essentiellement les mêmes.
Fig. 2. Recherche Google Assistant sous forme d'une question.
Essayons une variante, en lui demandant de convertir la distance en miles : "Quelle est le diamètre du soleil en miles ?". Voici ce que nous obtenons.
Fig. 3. Résultat Google Assistant avec changement d'unité.
Google comprend ainsi la question et renvoie la réponse avec l’unité appropriée. Les résultats organiques varient un peu sur cette demande, reflétant la forme de la question. On peut dire que la recherche en langage naturel a parcouru un long chemin depuis ces débuts...
Google apprend constamment
Depuis 2015, nous savons que Google utilise un algorithme dénommé Rankbrain. RankBrain est un système d'apprentissage automatique (machine learning) développé par Google pour améliorer la pertinence des résultats de recherche. Le machine learning s’appuie sur des techniques de réseaux de neurones artificiels.
L'idée du neurone artificiel est de mimer le comportement des neurones de notre cerveau par une fonction mathématique. Un neurone artificiel est donc une fonction mathématique qui prend des X en entrées et sort un Y en sortie en fonction des poids de p1 ; p2 ;p3 et du seuil (s).
Fig. 4. Principe de fonctionnement d'un neurone artificiel.
Dans cette approche, pour simplifier le problème :nous pouvons faire référence à des potentiomètres pour faire varier p et s.
Le problème est qu'un neurone seul ne suffit pas pour faire des relations très compliquées. Il est intéressant d'associer les neurones et de les empiler pour faire des fonctions beaucoup plus compliquées. C'est ce qu'on appelle des réseaux de neurones artificiels.
En empilant des neurones, on peut fabriquer des fonctions très complexes avec plusieurs entrées et plusieurs sorties (autant que de poids et de seuils dans le réseau). L'avantage de ces réseaux de neurones est leur polyvalence, on peut les adapter à toutes sortes d'entrées ou de sorties.
Fig. 5. Réseau de neurones.
Tout réseau de neurones doit passer par une phase d’apprentissage. On prend un réseau de neurones, on lui présente une base de données d'exemples d'entrées et sorties, le réseau s’entraine jusqu'à ce qu'il fasse correctement le lien entre les entrées et les sorties. Une fois la phase d’apprentissage terminée, le réseau est entraîné, il est capable de prédire la sortie si on lui présente une entrée qu’il connait ou non. C’est la phase de prédiction.
La magie des réseaux de neurones est que, si le système est correctement formé, il peut renvoyer les sorties pour des entrées complètement inconnues.
Comment Google utilise-t-il le machine learning ?
Pour résoudre le problème de la compréhension de la langue à l'aide de méthodes de machine learning, la problématique la plus importante est de transformer l’ensemble des mots en quelque chose d’interprétable par un ordinateur.
L'un des projets de Google est une bibliothèque appelée Word2Vec qui, comme son nom l'indique, utilise le machine learning pour convertir des mots en vecteurs. Word2Vec est capable d'apprendre des relations entre chaque mot d’un corpus, et de mesurer la « similitude » des mots, tant syntaxiquement que sémantiquement. En outre, une opération algébrique peut être effectuée sur les vecteurs de mots, comme sur les exemples ci-dessous :
Fig. 6. Principe de Word2Vecs.
Ici, Word2Vec a appris que la relation entre l'homme et la femme est la même que la relation entre le roi et la reine (encodée dans le sens du vecteur en rouge). Le plus important est que ces règles n’ont pas besoin d'être spécifiées. La machine les a apprises en étudiant de grands corpus de texte.
On comprend alors plus facilement que Rankbrain gère efficacement les requêtes de longue traine ainsi que leurs similitudes entre elles. Grâce à cela, Google peut comprendre une phrase qui n'a jamais été traitée auparavant, en la corrélant (via la similitude) à des phrases/concepts déjà connues.
Quelle stratégie de mots-clés tenir face à Google RankBrain et son Google Assistant ?
Dans un monde où Google peut comprendre les synonymes, les co-occurrences et même l’intention de l’internaute grâce au machine learning, comment aborder la recherche de mots clés? Nous présentons ici quelques astuces que nous utilisons pour nos stratégies de référencement.
Revenons à notre exemple sur le « Soleil ». Nous utilisons l’outil de planification de Google Adwords pour rechercher le volume de recherche mensuel.
Fig. 7. Mots-clés et volume de recherche dans l'outil de planification.
Nous obtenons ici 90 mots clés à traiter, dont beaucoup sont assez similaires. Comment faisons-nous pour cibler ces 90 variantes ?
Les mauvaises options
La première option consiste à écrire 90 pages, chaque page ciblant un mot-clé. Avec cette option, le travail d’écriture est important et nous savons déjà que les contenus produits seront pauvres. Nous risquons donc d’être sanctionnés par Google.
La seconde option consiste à prendre autant de mots-clés que possible et à les mettre dans un paragraphe. Voici un exemple (Les mots en gras sont les mots-clés cibles) :
La température de la surface du soleil est de 5 500°C. Le soleil possède une taille (diamètre) d'environ 1 400 000 km et la composition chimique du soleil est l’hydrogène et l’hélium.
Mmh ! Le contenu est assez pauvre et peu convaincant pour notre lectorat.
Comment optimiser efficacement la stratégie de mots-clés ?
Pour un effet maximal, les mots-clés doivent être regroupés sémantiquement par grand « concept ». Ce regroupement est aussi appelé « cluster ».
Fig. 8. Champ lexical de la "taille".
Nous pouvons regrouper les requêtes suivants 4 grand concepts :
- Cluster T : requêtes concernant la température ;
- Cluster D : requêtes concernant la taille ;
- Cluster C : requêtes concernant la composition ;
- Cluster A : Autres type de requêtes.
Fig. 9. Mots-clés clusterisés et volume de recherche.
L’un des objectifs de Google est de fournir le meilleur contenu aux demandes des internautes. Pour être performant, le contenu à produire doit avoir une valeur ajouté et doit répondre aux problématiques de l’utilisateur. De nombreux outils en ligne permettent de trouver les questions liées à un mot-clé en se basant sur les résultats de Google Suggest : answerthepublic, keywordtool.io, etc. Nous utilisons ici le premier pour trouver les questions concernant le cluster D (taille du soleil).
- quelle taille a le soleil
- quelle taille fait le soleil
- comment calculer la taille du soleil
- comment connaît-on la taille du soleil
- quelle est la taille du soleil par rapport a la terre
- combien mesure le rayon du soleil
- combien mesure le soleil
- combien mesure le soleil en km
Il est remarquable que plusieurs sujets (également appelés thèmes) sont abordés dans les questions des internautes :
- La taille du Soleil
- La comparaison à d’autres astres
- Le calcul de la taille
Il est maintenant plus facile de rédiger un contenu performant en respectant cette structure et en ajoutant toutes les variations (prises dans notre liste initiale de 90 mots clés et expressions).
Diamètre et circonférence de notre étoile, le Soleil
Voici une définition de la taille du Soleil. Le rayon moyen du soleil est de 695 000 kilomètres, ce qui fait un diamètre de 1,392 million de km. La circonférence du soleil est d'environ 4,3 millions de km (soit 2 713 406 miles). Ces grandes distances sont difficilement concevables : pensez à combien de temps, il faudrait pour voyager autour de la Terre entière (disons à l'équateur). Il vous faudra plus de 100 fois plus de temps autour de l'équateur du Soleil.
Comparaison de la taille du Soleil et des planètes de notre système
[…]
Comment les astronomes calculent-ils la taille du Soleil ?
[…]
Non seulement nous avons écrit un paragraphe qui peut être précieux pour le lecteur, mais nous avons respecté le champ lexical de la « taille ». Grâce à ce principe, il est plus facile de rédiger en grand concept sémantique et de couvrir de nombreuses variantes de mots clés efficacement.
Conclusion
Grâce à RankBrain, Google s'améliore constamment : son but est de devenir un agent conversationnel. La recherche vocale a modifié le paysage de recherche de façon irréversible. Nous allons réellement passer d’un moteur de recherches à un moteur de réponses.
Pour le moment, il est difficile de mesurer l'impact de cette révolution. Comment être sur qu’une réponse vocale aide l’internaute ? Comment mesurer la qualité des réponses vocales ? Comment Google monétisera-t-il la voix ? Ce qui est clair, c'est qu'en tant qu’experts SEO, nous devons nous adapter et adapter nos méthodologies et outils à cette nouvelle donne.
Anthony Techer
fondateur de l'outil sémantique SEOQuantum (https://www.seoquantum.com/)