Il existe actuellement de très nombreux sites proposant de lister les différents événements prévus dans un lieu, une ville, une région, etc. Concerts, événements sportifs, etc. doivent être identifiés et classés par les moteurs de recherche avec des critères de pertinence spécifiques car ils ne sont pas toujours comparables aux contenus identifiés en général sur le Web. Un brevet récemment obtenu par Google nous en dit plus sur la façon dont la firme de Mountain View pourrait classer toutes ces informations et sur les critères pris en compte pour cela...
Un brevet (voir [1]) a récemment été accordé à Google concernant une méthode permettant de classer des événements au travers d'un score agrégeant plusieurs types d'information. Le problème est important car l'offre de sorties, notamment, est devenue très importante. Il est d'ailleurs intéressant de voir que ce n'est pas tant le nombre de sorties/événements qui est plus important, mais plutôt l'accès à la connaissance de ces événements qui est devenu plus simple (via les réseaux sociaux par exemple, dans une logique de « push » alors qu'auparavant, on était plutôt dans une logique de « pull » : il fallait chercher pour trouver les événements, alors que maintenant on nous sollicite pour savoir si on y va ou pas).
Ce brevet a été déjà commenté par Bill Slawski (voir [3]), mais il est intéressant de voir qui sont les auteurs de la méthode, et de mieux comprendre les principes de ce brevet. Par exemple, il n'exploite pas la structure de liens qui pointeraient vers une hypothétique page pour l'événement. C'est plutôt heureux, car les événements étant par nature transitoires, il n'y a pas de schéma de linking qui puisse se mettre en place assez rapidement pour pouvoir créer un ranking, sauf pour les événements récurrents qui seraient alors indument favorisés.
Qui sont les auteurs de cette méthode ?
La réponse courte est que ce brevet a été rédigé par 7 auteurs : Kavi J. Goel, Toshihiro Yoshino, Yang-hua Chu, Hidetoshi Shimokawa, Slaven Bilac, Mingmin Xie, et Satoru Yamauchi. Sans minimiser le travail de chacun, on peut voir que certains sont plus connus que d'autres. On trouve en effet ici tous les profils, depuis le chercheur jusqu'au développeur, le travail sur les événements étant plus technique que théorique.
Le premier auteur mentionné est Kavi Goel, « product manager » chez Google depuis 10 ans environ. Il est surtout connu pour être l'un des co-créateurs du standard de Schema.org et des rich snippets. Il est également un des développeurs des boites et du carrousel du Knowledge Graph. Etonnamment, il avait – alors qu'il était encore étudiant – déjà travaillé à la reconnaissance des événements. On peut d'ailleurs lire sa prose sur le sujet dans la référence [2]. Vous noterez qu'à l'époque, il n'était pas encore chez Google.
Le troisième auteur de la liste, Yang-hua Chu, est à l'origine un chercheur spécialisé en réseau. Il a d'ailleurs fait une thèse sur le sujet à Carnegie Mellon University. Jusqu'en 2014 il était ingénieur logiciel chez Google, puis après un passage chez DataVisor, il est devenu membre de l'équipe qui développe la voiture autonome de Google.
Slaven Bilac (cinquième de la liste) est maintenant dans une équipe qui travaille sur la publicité chez Google, mais avant 2013 (période à laquelle ce travail a eu lieu), il était chez Google Japon, comme une grande partie des auteurs de ce brevet.
Satoru Yamauchi (le dernier) est spécialiste de l'extraction de données et du traitement parallèle de grands volumes de données.
Comme on peut le voir, Google a constitué pour ce travail une équipe multi-disciplinaire et géographiquement dispersée. Depuis un spécialiste des rich snippets qui maitrise le concept d'événements au niveau de sa représentation, jusqu'à des experts techniques qui savent comment traiter rapidement des données volumineuses.
Le principe de la méthode
Si l'on fait abstraction de la méthode d'extraction de l'information sur les événements, on peut utiliser plusieurs scores très différents pour décider de la popularité supposée d'un événement. Il peut être populaire parce que tout le monde en parle, ou encore parce que des gens connus y vont, ou parce qu'il fait partie d'un ensemble très populaire (un match de la coupe du monde de football par exemple), on peut rajouter ainsi plusieurs définitions de la popularité (qui parfois n'ont pas de rapport avec l'événement : il peut ainsi être populaire parce qu'il a lieu dans un endroit qui est très fréquenté).
La méthode proposée par Kavi Goel et ses collègues va prendre en compte toutes ces définitions pour créer un score unique. Ils définissent un événement grâce aux données suivantes : un emplacement géographique et un intervalle de temps pendant lequel il a lieu, une catégorie (le brevet mentionne explicitement les exemples des concerts et des événements sportifs), un tarif, le fait que ce soit à l'intérieur ou à l'extérieur, puis ensuite des critères libres. Ces derniers sont importants puisque les événements doivent être renvoyés par le moteur de recherche, il faut donc de la donnée dans laquelle chercher.
Lorsqu'un utilisateur cherche un événement, tous ceux qui correspondent à sa recherche vont être pris en compte par le moteur, qui va les classer en attribuant un score à chacun.
Ce score est une agrégation de plusieurs scores « spécialisés », qui correspondent aux critères suivants :
- Mentions de l'événement sur Internet Le premier critère est tout à fait intuitif : Google va compter le nombre de sites web qui parlent de l'événement. Plus il y en a plus, il a des chances d'être réellement populaire. Le seul souci de cette approche est que certains événements sont naturellement présents via les sites de ventes de tickets d'entrée (par exemple pour les spectacles de grandes salles nationales ou régionales). Pour pallier ce problème, Google possède une liste de sites de vente de tickets, et le score calculé pour ce critère est proportionnel au nombre de mentions multiplié par la proportion de mentions sur des sites qui ne sont pas des sites de vente de tickets. Si vous voulez améliorer ce critère, il faut donc faire parler de votre événement sur le maximum de sites non commerciaux, et ce le plus tôt possible.
- Nombre d'accès à la page web officielle de l'événement Il s'agit essentiellement du nombre d'accès à la page officielle de l'événement depuis le moteur de recherche, sur une fenêtre de temps fixée à l'avance (par exemple les 7 derniers jours). Le moteur évite ainsi que la popularité passée ne surpasse la popularité réelle au moment du calcul du score.
- Utilisation de termes qui correspondent à l'événement Si le moteur connaît un ensemble de termes qui correspondent à un événement (par exemple, dans le cas d'un match de football les mots « ballon », « but », « hors jeu », « passe », etc.), il peut calculer la distance sémantique entre le site officiel de l'événement et son champ lexical. Si les deux sont proches, c'est que le site officiel est sérieux, et cela donne un bonus à l'événement en terme de popularité au sein du moteur.
Si vous voulez pousser votre événement sur Google, il faut donc que vous utilisiez le champ lexical de votre événement sur votre site officiel. Pour cela, n'hésitez pas à utiliser un outil automatique (c'est le moment de la séquence publicitaire pour notre outil yourtext.guru et pour celui de Christian Méline, les métamots). - Utilisation de la popularité des entités nommées qui sont en relation avec l'événement L'idée de ce critère est qu'un événement peut être populaire car les personnes qui y participent sont populaires elles-mêmes (un concert de Shakira est plus populaire qu'un concert des frères Peyronnet car Shakira est plus populaire que nous – pourrait-il y avoir une autre raison ?). Google connaît déjà la popularité de chaque entité nommée via le nombre de recherches à leur propos. Il ne reste qu'à associer les entités et les événements, ce qui est faisable avec des champs dédiés et le champ libre de description de chaque événement. Sans surprise, si vous organisez un événement, vous avez intérêt à mentionner (dans les markups par exemple) toutes les personnes qui vont y participer, sans mentir bien sûr mais sans hésiter à mettre les « grands noms », même si ils ne font que passer.
- Catégorie de l'événement Certains événements sont plus populaires que d'autres (match de football versus compétition de bingo par exemple). Google reconnaît la catégorie et sa potentialité en terme de popularité.
- Position des pages qui mentionnent l'événement dans les SERP pour la requête qui correspond à l'événement Certaines requêtes sont naturellement rattachées à des groupes d'événements. Par exemple, le brevet de Google donne l'exemple « événements à San Francisco ». Si votre événement est mentionné par des pages bien positionnées pour cette requête, c'est probablement (en tout cas c'est que le moteur croira) qu'il est l'un des événements les plus importants de San Francisco. Une formule est donnée dans le brevet. Elle prend en compte 1/X, avec X la meilleure position d'une page qui parle de votre événement pour la requête choisie, ainsi que le nombre de mentions dans des pages bien placées pour les requêtes de votre famille d'événements.
Que peut-on en déduire ? qu'il faut réussir à faire parler (encore une fois) de votre événements sur des sites tiers, en visant les sites les mieux placés pour des requêtes génériques sur les événements du même type que le vôtre, ou qui ont lieu au même endroit. - Popularité de l'endroit qui accueille l'événement Enfin, le dernier critère est sans surprise : l'endroit où a lieu votre événement est important. Vous organisez une conférence web à Deauville ? Elle sera naturellement populaire. C'est au contraire dans un petit village de la campagne profonde que vous avez choisi de vous réunir ? La popularité sera moins au rendez-vous. Même si votre événement à lieu dans une banlieue d'une grande ville, mentionnez toujours la grande ville !
Tous ces scores sont agrégés en un score unique de popularité. Le mécanisme d'agrégation n'est pas donné par le brevet, qui se contente de préciser que cela peut être la somme, ou le produit, ou encore la moyenne, des scores spécialisés.
On pourrait croire que ce score unique de popularité suffit à Google pour classer les événements, mais ce n'est pas du tout le cas. En effet, un événement qui devrait être populaire peut être un échec si un événement encore plus populaire à lieu en même temps et dans un endroit proche. Pour prendre cela en compte, le score de popularité de chaque événement est pondéré par un critère de déclassement.
Le brevet « ranking events » mentionne explicitement la notion de score de déclassement lié à la diversité. Ce score est différent pour chaque événement analysé, il prend en compte le nombre d'événements de la même catégorie qui sont plus populaires que l'événement en question (au sens du score de popularité vu précédemment). Le score de popularité de l'événement sera multiplié par une valeur Kx, où x est le nombre d'événements plus populaires de la catégorie et K est une constante entre 0 et 1.
Un autre score de déclassement est proposé pour prendre en compte le fait que des événements de la même catégorie aient lieu approximativement au même endroit et au même moment, ce que le brevet appelle des « événements similaires ». Dans ce cas le déclassement est encore plus sévère. Globalement, on divise la popularité d'un événement par le nombre d'événements similaires plus populaires que lui.
Au final, chaque événement est classé de la manière suivante :
- Le score de popularité est calculé en agrégeant les scores spécialisés
- Les déclassements sont appliqués au score de popularité pour obtenir une valeur
- Les événements sont classés dans l'ordre décroissant des valeurs
Conclusion
La conclusion de cet article est très simple : Google possède le moyen de gérer des événements via les markups de Schema.org, et sait comment les classer entre eux en prédisant quels seront les plus populaires. Cette popularité est proche de l'idée intuitive qu'un humain peut en avoir : certains types d'événements, avec certaines personnes, ont toutes les chances d'être populaires, sauf lorsqu'ils sont en compétition avec des évènements encore plus populaires.
L'avantage de la lecture de ce brevet est qu'elle donne une liste de bonnes pratiques. Certaines liées au Web (avoir le bon vocabulaire, les bonnes mentions, etc.), mais aussi des bonnes pratiques dans la définition même des événements, qui doivent ne pas être trop proches de ceux susceptibles de les concurrencer. Rien ne neuf sous le soleil, mais il est toujours bon de le rappeler !
Références
[1] Ranking events. Brevet par Kavi J. Goel, Toshihiro Yoshino, Yang-hua Chu, Hidetoshi Shimokawa, Slaven Bilac, Mingmin Xie, et Satoru Yamauchi.
https://www.google.com/patents/US9424360
[2] Goel, K., & Wang, P. C. (2005). Automated extraction of event details from text snippets.
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.158.1805&rep=rep1&type=pdf
[3] Slawski, B. Ranking Events in Google Search Results.
http://www.seobythesea.com/2016/11/ranking-events-in-google-search-results/
Guillaume Peyronnet est gérant de Nalrem Médias.
Sylvain Peyronnet est co-fondateur et responsable des ix-labs, un laboratoire de recherche privé.
Ensemble, ils font des formations, pour en savoir plus : http://www.peyronnet.eu/blog/