Le domaine du Data SEO peut sembler parfois complexe, pourtant il permet notamment de fortement automatiser des actions ou d'analyser des données en nombre important. Dans cette série de trois articles sur le sujet, nous allons tenter d'explorer le monde de la Data Science appliquée au SEO. Après les outils le mois dernier, voici maintenant les métiers avec une description du rôle des Data Scientists, Data Analysts et Data Engineers dans l'entreprise.

Par Vincent Terrasi

Le Data SEO est une approche scientifique du SEO qui s’appuie sur l’analyse des données et l’utilisation de la data science pour prendre des décisions. Quel que soit votre budget, il est possible de faire de la data science et la tendance est de rendre de plus en plus accessible les concepts utilisés par les Data Scientists.

Le Data SEO ne se limite pas à la data science. En effet, on préfère parler de Data SEO et non de Data Science SEO car il y a clairement 3 spécialisations à bien maîtriser de façon directe ou indirecte, en plus du SEO : il s'agit des métiers de Data Scientist, Data Analyst ou Data Engineer.


Fig. 1. Data visualisation lors d'une réunion.

 

Le Data Engineer

Les Data Engineers sont les professionnels des données qui préparent l'infrastructure Big Data qui sert de base pour l'entreprise.

Ce sont souvent des ingénieurs en logiciel qui conçoivent, construisent, intègrent des données provenant de diverses ressources et gèrent des quantités de données très importantes.

Le principal objectif est d'optimiser les performances de l'accès aux données de l’entreprise. Pour les grands groupes, ils travaillent avec un responsable juridique pour le respect du RGPD et un responsable sécurité.

Ils utilisent souvent des ETL (Extract, Transform et Load) et créent de grands entrepôts de données (Data WareHouse) qui peuvent être utilisés pour le reporting ou l'analyse.

Les principales compétences se résument à la liste suivante : Hadoop, MapReduce, Hive, Pig, streaming de données, NoSQL, SQL, Programmation.

Pourquoi faut-il centraliser ses données ?

Tout d’abord votre temps n’est pas extensible et c’est une perte de temps de jongler entre les outils, mais aussi une perte d’information de ne pas pouvoir croiser les données issues de sources différentes.

Par exemple, pour rendre les données sur les backlinks actionnables, il faut les associer aux résultats qu'un backlink peut fournir à un site web. Sur le marché francophone, SEObserver (https://www.seobserver.com/) de Kevin Richards est le meilleur outil pour centraliser à un même endroit le monitoring des classements et la consultation de backlinks pour n'importe quel site présent sur les mots-clés les plus intéressants. Vous avez alors un outil clé en main et directement actionnable.

Ensuite, il faut croiser ses données avec les données métiers (CRM), les données business (Finance) et bien d’autres données toujours très sensibles. Par conséquent, il est judicieux de construire son SEO Datamart, soit un entrepôt de données spécifiques au SEO, en vérifiant que vos outils SEO permettent de bien exporter les données.

Le Data Engineer est la personne la plus compétente pour centraliser toutes ces données qui peuvent varier :

  1. Données non structurées : des textes, des commentaires ;
  2. Données structurées : base de données, API.

Par contre, il existe de nombreuses difficultés. La première concerne les volumes d’information. Si vous avez plus de 100 000 pages et beaucoup de trafic, les crawls hebdomadaires et les logs journaliers vont très rapidement prendre beaucoup de place. Cela se complexifie encore plus si vous ajoutez les données de votre CRM et les informations sur vos concurrents.

Souvent, si le système n’est pas basé sur les bonnes technologies (cf article du mois dernier), vous pouvez avoir des données incomplètes, manquantes ou fausses.

Il existe de nombreux pièges en plus du volume de données ; comme les soucis de devise si vous travaillez à l’international, où il faudra composer avec les taux de change émis chaque jour par la Banque de France. Mais aussi avec les décalages horaires, si vous calculez un CA par jour et qu’une partie du CA est fait au Canada par exemple, il faut lancer le calcul quand il est minuit au Canada et non minuit en France. Bref, il s'agit ici d'un léger aperçu de ce métier plein de pièges.

Ensuite, il faut garder un suivi attentif sur la véracité des données. En effet, des données peuvent se corrompre rapidement :

  1. Un script JavaScript pour Google Analytics disparaît et vos données trafic deviennent erronées ;
  2. Une API change ses paramètres de retour et plusieurs champs n’obtiennent plus de valeur ;
  3. Une base de données n’est plus mise à jour car le disque dur est plein.
  4. Etc.

Dans tous les cas, il faut rapidement détecter ce type d’anomalies et les corriger au plus vite, sinon les tableaux de bord produits par ces données seront erronés et il est très fastidieux de lancer des scripts rétroactifs pour tout recalculer.

Si vous n’avez pas de Data Engineer dans votre équipe, il faut au moins avoir un responsable qui vérifie la cohérence de données que vous récupérez des différents outils SEO.

Les outils SEO vous permettent en effet désormais de sortir facilement les données suivantes et il faut surveiller les variations à la hausse ou à la baisse :

  1. Données Analytics : perte de script, erreur de tracking ;
  2. Données de Crawl : crawl trop long, crawl annulé ;
  3. Données de Logs : périodes manquantes ;
  4. Données des Keyword Tools : ajout de nouveaux mots clés.

La communication est clé et avec une bonne gestion des incidents, c’est toute la chaîne Data qui devient cohérente pour l’exploitation par les experts SEO, les Data Analysts et les consultants SEO.

Le Data Scientist

Le Data Scientist est un scientifique qui va enrichir les données avec des modèles de statistiques, de Machine Learning ou des approches analytiques.

Sa principale mission est d'aider l'entreprise à transformer les données mis à disposition par les Data Engineers en informations précieuses et exploitables.

Par rapport aux Data Analysts, les Data Scientists doivent posséder de solides compétences en programmation pour concevoir de nouveaux algorithmes, ainsi qu'une bonne connaissance métier.

En effet, ils doivent être dans la capacité d'expliquer, de justifier et de communiquer les résultats à des personnes non scientifiques.

Quels langages faut-il utiliser et quelle méthodologie ?

Les technologies les plus populaires en 2020 pour la Data Science sont dans l’ordre : Java, Python, Scala, R et Julia.

Si vous n’arrivez pas à choisir de langages de programmation, nous pouvons vous donner des astuces. Tout d’abord, utilisez le langage le plus prisé dans votre entreprise. Si la majorité des développeurs sont sur Python, pas besoin d’arriver avec R, car la maintenance sera double (et votre intégration risque de s'en ressentir). Ainsi, vous montrez votre capacité d’adaptation.

Ensuite, vous allez être orienté par les technologies sur lesquelles vous souhaitez déployer vos applications. Par exemple, si votre équipe produit ses tableaux de bord avec Shiny, alors R deviendra votre meilleur allié.

Ensuite, les langages R et Python sont relativement proches si on les compare à du C ou du Scala, donc l’idéal pour votre CV est de maîtriser les deux.

Pour la méthodologie, la méthode scientifique prédomine et ne laisse aucune place à l’empirisme. Voici comment nous fonctionnons au sein d’OnCrawl : nous définissons clairement le contexte et les objectifs, puis nous expliquons les différentes méthodes identifiées et nous présentons des résultats reproductibles. Nous avons même pris le pari de partager tous les détails à travers le site labs.oncrawl.com qui est un laboratoire ouvert aux clients.

Ensuite, la Data Science évolue très vite et l’obsolescence est forte, donc il convient de se former régulièrement à travers les deux organismes du moment : ix-labs (http://www.ix-labs.org/) des frères Peyronnet et DATA SEO LABS (https://dataseolabs.com) que je gère avec Rémi Bacha.

Il est cependant tout à fait possible que vous n’ayez ni le temps, ni la vocation à vouloir faire de la Data Science. Dans ce cas, je recommande de passer par de la prestation de services auprès d'entreprises spécialisées.

Quelle que soit l’agence, il faut bien définir les livrables et les critères de succès identifiés pour n’avoir aucune mauvaise surprise sur l’exploitation de la solution.


Fig. 2. Gestion de projets.

Ensuite, nous devons mentionner le sujet des plateformes de Data Science mentionné dans l’article du mois dernier en fonction de vos budgets. À ce sujet, nous vous orientons vers l’excellent travail de comparaison de Louis Dorard qui a étudié toutes les solutions et vous guide à travers un livret blanc très bien conçu pour choisir la plateforme la plus adaptée à votre métier :

https://louisdorard.podia.com/machine-learning-platforms-research-report

 

Le Data Analyst

Les Data Analysts sont des professionnels de la donnée orientés métier qui peuvent interroger et traiter les données, fournir des rapports, résumer et visualiser les données.

Ils savent comment exploiter les outils et les méthodes existants pour résoudre un problème et aider les personnes de toute l'entreprise à comprendre des requêtes spécifiques grâce à des rapports et des graphiques ad hoc.

Ils basent leurs travaux sur les entrepôts de données des Data Engineers et les résultats des algorithmes des Data Scientists.

Les compétences sont très variées : Statistiques, Exploration et Visualisation des données.

Quels logiciels faut-il utiliser ?

Data Studio est très connu dans le domaine du SEO mais en entreprise, c’est un autre visage qui se dessine.

Le marché est trusté par Tableau Software, SAP, Microsoft et IBM.

L’acquisition récente de Looker par Google va certainement leur permettre de gagner une place parmi les leaders dans les années à venir.


Fig. 3. Part de marché selon Datanyze.com.

Faites donc très attention aux choix de la solution de Data Visualisation.

Les Data Analysts peuvent rapidement s’adapter aux outils et nous revenons donc sur cette question de Make or Buy. Si vous avez le budget, des solutions propriétaires vous feront économiser beaucoup de temps.

Comment créer des tableaux de bord parfaits ?

Il existe de nombreuses méthodes, mais voici la méthode S.M.A.R.T qui est facile à retenir.

  1. Un graphique doit rester simple, trop d’infos tuant l’info ;
  2. Les ordonnées et abscisses doivent avoir des axes mesurables ;
  3. Un graphique doit se concentrer sur des métriques atteignables, il ne sert à rien de surveiller des métriques qui n’auront aucune influence sur votre business. La météo est un excellent exemple : elle a un rôle crucial pour certains sites et inutile sur d’autres ;
  4. Les tableaux de bord doivent toujours posséder des récapitulatifs pour être rapidement lus et compris. S’il est nécessaire de passer plus de trois secondes pour les comprendre, c’est que vous pouvez (et devez) améliorer le résultat final. En premier lieu, des utilisateurs peuvent se contenter d’une vue d’ensemble, mais ensuite ils peuvent avoir besoin d’une vue plus granulaire des données en jonglant avec des filtres ;
  5. La donnée la plus importante est le temps : il faut bien veiller à suivre des données temporelles, en comparant chaque jour, chaque mois, chaque année.

 

Bien sûr, gardez en tête que si les Data Analysts maîtrisent le SQL, ils peuvent s’orienter vers des solutions open source comme Metabase (https://www.metabase.com/) ou Superset (https://superset.incubator.apache.org/).

Enfin, des Analystes avec des compétences en programmation iront vers Shiny pour le R  (https://shiny.rstudio.com/gallery/cran-explorer.html) ou Dash pour Python.


Fig. 4. Démo Superset.

Les projets Data-SEO

Le monde du Data SEO est surement devenu moins obscur. Comme pour tout projet, il faut s’entourer des bons talents pour réussir des projets Data de grande envergure ou alors être bien formé sur les métiers évoqués dans cette partie (Data Engineer, Data Analyst, Data Scientist). Vous avez surement identifié des faiblesses ou des forces au sein de votre entreprise à la lecture de cet article, donc n’hésitez pas à travailler vos points faibles en recrutant, en externalisant ou en vous formant.

Nous avons donc vu les outils et les métiers. Désormais la clé du succès se joue dans l’exécution. Dans le dernier article (qui sera publié dans le numéro Réacteur de septembre), nous vous dévoilerons les organisations qui fonctionnent le mieux pour faire du Data SEO avec les meilleurs projets des 5 dernières années.

 

Vincent Terrasi, formateur (Data Marketing Labs) et Directeur Produit OnCrawl (https://fr.oncrawl.com/)