Le domaine du Data SEO peut sembler parfois complexe, pourtant il permet notamment de fortement automatiser des actions ou d'analyser des données en nombre important. Dans cette série de trois articles sur le sujet, nous allons tenter d'explorer le monde de la Data Science appliquée au SEO. Dans cette première partie, nous abordons le thème des outils qu'il faut utiliser, en fonction du budget dont vous disposez.

Par Vincent Terrasi

Le Data SEO est une approche scientifique du SEO qui s’appuie sur l’analyse de données et l’utilisation de la data science pour prendre des décisions.

Il existe trois grandes catégories de projets en data SEO :

  1. Prédiction : prédire les facteurs de classement, son futur trafic et générer un texte.
  2. Classification : attribuer une classe / catégorie à chacune des URL et à des textes.
  3. Compréhension de donnée : explorer et évaluer la qualité des données de ses sites ou des sites concurrents.

Les mythes du Data SEO

Mes premiers projets Data SEO ont vu le jour en 2014 et toutes mes découvertes ont été partagées sur mes sites et pendant mes conférences à partir de 2015. Depuis, de nombreux experts SEO ont testé et innové et des projets très ambitieux ont vu le jour. D’ailleurs, depuis 2 ans, le sujet est régulièrement évoqué dans les conférences SEO en France et à l’international.

En revanche, il existe de très nombreux mythes sur le sujet, ainsi que sur la thématique de l'intelligence artificielle au sens large.


Fig. 1. Intelligence Artificielle et Mythes..

 

Premier mythe : “Le Data SEO, c’est pour les gros sites”

L’un des objectifs du Data SEO est l'automatisation, et quelle que soit la taille du site, il y a obligatoirement des choses à automatiser. Même sans entrer dans de gros sujets comme la génération de contenu, il existe de nombreuses techniques de Data Science comme la détection d’anomalie qui permet de détecter des variations sensibles ou fortes dans vos données Google Analytics, Google Search Console, Crawl et Logs. Ainsi, vous pouvez appliquer des correctifs très rapidement (les dernières techniques permettent de le faire automatiquement via un CDN). Ensuite, les audits SEO peuvent être fortement automatisés, notamment dans la recherche de mot clés, ce qui fait gagner beaucoup de temps (jusqu’à trois jours économisés).

Second mythe : “Le Data SEO, ça coûte cher”

Le Data SEO peut se faire en mode “low cost” et si vous utilisez des logiciels open source comme les Jupyter Notebook (avec Python) ou RStudio (avec R), cela ne coûtera pas un centime. Le seul aspect qui peut coûter cher, c’est simplement l’accès aux APIs des différents logiciels du marché. Nous reviendrons plus tard dans cet article sur le fameux dilemme du “Make or Buy” : faut-il acheter ou concevoir ses outils ?

Troisième mythe : “Le Data SEO, c’est compliqué”

Durant les formations que j’ai pu donner avec Data SEO Labs, j’ai souvent vu des élèves sans connaissances scientifiques, et même sans connaissances en programmation, faire des progrès très importants en seulement deux jours, pour finir par maîtriser tous les concepts de base. De plus, désormais il existe de très nombreux cours en ligne via des formations longues comme Coursera.org ou Datacamp.com.

Je pense que nous confondons souvent ceux qui utilisent la data science avec de bonnes bases et ceux qui créent des algorithmes de data science pour les papiers de recherche. Prenons l’exemple du GPS : de nombreux français utilisent chaque jour un GPS en entrant un point de départ et une destination. Et pourtant, très peu d’entre eux sauraient donner les équations mathématiques et détailler le mode de fonctionnement avec les satellites qui tournent autour de la Terre. Pour le Data SEO, c’est exactement pareil : il existe depuis 3 ans de nombreux outils qui guident, aident et conseillent dans l’utilisation et l’interprétation des résultats.

Dans cette première partie, nous allons donc aborder les 3 principales méthodes pour faire du Data SEO, mais surtout les outils indispensables si vous avez un budget important ou si vous n’avez pas de budget. En fait, cela dépend principalement de deux facteurs : le budget que vous pouvez allouer et votre croissance.

Outils pour les budgets importants

Revenons sur ce terrible choix du Make or Buy : faut-il créer ses propres outils ou acheter ceux déjà existants ?

Si vous investissez du temps dans la création d’un outil, quelle que soit la taille de votre équipe, il faudra assurer la maintenance, les mises à jour, la sécurité et la documentation et assurer aussi des développements continus. Cela est souvent un coût oublié mais surtout, vous allez perdre un temps précieux sur le déploiement de la solution. Pouvez-vous attendre plusieurs mois sans ces données précieuses ? N’est-il pas plus judicieux de prendre une licence d’un logiciel qui fonctionne, plutôt que de recréer la roue ?

Le choix sera dicté par votre croissance et votre budget, en tous cas, la pire solution est d’avoir passé 6 mois à développer un logiciel qui ne fonctionne toujours pas.

Si vous pouvez acheter des outils, voici une liste des meilleurs d'entre eux en 2020 :

  • Une plateforme de Data Science : les plateformes de Data Science sont relativement utiles si vous avez du budget car elles doublent voire triplent votre productivité sur les projets Data Science grâce à tous les connecteurs Big Data qu’elles proposent, un système collaboratif et de sécurité hors du commun, ainsi qu’une exécution des tâches de façon pérenne avec des workflows qui permettent d’optimiser et d’identifier les points faibles. Il est possible d’avoir tous les outils de Data Science au même endroit servis avec une interface graphique et des projets starters qui permettent de démarrer rapidement tout nouveau projet. Bref un must-have si vous avez du budget. Voici une liste non exhaustive de solutions : Dataiku Enterprise (https://www.dataiku.com/), Databricks (https://databricks.com/) ;
  • Deux Cloud Providers pour le traitement et le stockage de données : vous pouvez certes héberger vos données dans votre datacenter, mais l’idéal est toujours d'utiliser un ou plusieurs Cloud Providers afin de garantir les accès à vos données en privilégiant les performances et la sécurité. Voici une liste non exhaustive de solutions : Google Cloud, OVH Cloud, AWS, Microsoft Cloud ;
  • Un Customer Relationship Management : le CRM est un concept très important pour stocker les données en relation avec vos clients. Les données business sont primordiales pour bien structurer ses services et réussir ses projets data-science (détection du churn, clusterisation des clients, automation, ... ). Si vous avez un budget important : Microsoft Dynamics CRM (https://dynamics.microsoft.com/), Sales Force (https://www.salesforce.com/), Zendesk (https://www.zendesk.fr/) ;
  • Une solution Web Analytics : les solutions analytics gratuites comme Google Analytics ont tendance à échantillonner vos données et mettre des quotas sur les gros volumes, il faudra vous tourner vers des produits plus performants comme : Google Analytics Premium et AT Internet (https://www.atinternet.com/);
  • Une solution de Dataviz : pour visualiser les données, vous avez le choix de programmer chaque vue ou de faire du glisser-déposer dans des solutions toutes faites, les meilleures solutions payantes à ce jour restent : Tableau Software (https://www.tableau.com/), Power BI (https://powerbi.microsoft.com/) et Qlik View (https://www.qlik.com/) ;
  • Un Crawler et Analyseur de logs : il est important de crawler régulièrement ses sites, de faire de l’analyse croisée avec d’autres sources de donnée (Logs, Google Search Console, Google Analytics), les solutions gratuites seront évoquées par la suite mais en France, les deux leaders restent : OnCrawl (https://www.oncrawl.com/) et Botify (https://www.botify.com/). Surtout pour les très gros sites, OnCrawl s’est spécialisé sur le GigaCrawl: la capacité à crawler des sites avec plus de 250 millions d’URLs et en Javascript.  ;
  • Deux keyword tools : effectivement il y a ici trois écoles, ceux qui utilisent uniquement la Search Console, ceux qui utilisent uniquement des Keyword tools et ceux qui utilisent les deux. Cela dépend vraiment de votre site et de vos concurrents. En France, les outils les plus connus sont : SEMRush (https://www.semrush.com/), Yooda (https://www.yooda.com/), Ranxplorer (https://ranxplorer.com/).

Ensuite, parmi tous ces outils, il faudra des accès à leurs différentes APIs et de là, vous allez pouvoir tout automatiser si vous avez des bases en programmation ou un développeur pour vous aider. Selon les solutions logicielles, les APIs peuvent être plus ou moins onéreuses et vous pouvez les négocier dès la phase de devis. Le plus important est de savoir pour chacun de ces logiciels à quel point il est facile de sortir les données brutes pour pouvoir les exploiter dans vos projets Data SEO.

Maintenant, voici la recette low-cost, forcément il y a aura moins d’options et beaucoup plus de maintenance à gérer.

Outils “low-cost”

Reprenons le terrible choix du Make or Buy. Dans ce cas, la réponse sera simple : il va falloir créer ses outils ou s’appuyer sur de l'open-source.

Il faudra également vous passer de toutes les APIs et travailler plutôt avec des exports de fichier CSV ou Excel. Il existe des solutions qui permettent de simuler des clics ou des touches de clavier et ainsi automatiser la récupération des fichiers CSV, mais cela restera du bricolage.

Si vous ne pouvez pas acheter des outils ou si votre budget se limite à 30 € par mois, voici la recette des meilleurs outils en 2020 :

  • Une plateforme de Data Science : en mode low cost, il faudra renoncer à une telle plateforme pour lancer rapidement et automatiquement des projets, mais cela ne vous empêche pas de tester Dataiku Community (la version gratuite : https://www.dataiku.com/product/get-started/) et d’automatiser par vos propres moyens via des scripts Python ou R. De toute façon, le mode low-cost vous demandera des compétences en programmation. Sinon je vous conseille fortement d’utiliser Google Colab (https://colab.research.google.com/), car il n’y a aucune configuration à mettre en place et l'outil permet de bénéficier d’un GPU gratuitement pendant 12h avec la version gratuite et 24h avec la version Pro (à 12€/mois) ;
  • Pas de Cloud Provider pour le traitement et le stockage de données : dans ce cas, vous pouvez lancer les scripts R ou Python de votre ordinateur et tout stocker dans Google Drive ;
  • Un CRM : le CRM ne doit surtout pas être négligé, même sans budget pour vous faciliter la vie dans la gestion de vos clients. Voici mon choix : SugarCRM (https://www.sugarcrm.com/), une solution open source. (Prévoir un hébergement pour 10€/mois.) ;
  • Une solution Web Analytics : encore une fois, on pourrait penser que Google Analytics est suffisant, mais la solution Analytics Matomo (https://fr.matomo.org/ ) gagne du terrain et propose des options très avancés : Heatmaps, Sessions recordings, Tests A/B, Entonnoirs, Analyse de visiteurs, Fonctionnalités SEO améliorées, Tag Manager, GDPR Manager ;
  • Plusieurs solutions de DataViz : tout le monde se rue vers Google Data Studio qui devient une référence dans le domaine du SEO, mais avec un peu de programmation en R (avec GGplot et Shiny) ou Python (avec Dash), le résultat peut être bluffant car vous allez dans le sur-mesure. Attention cependant : il faudra assurer la maintenance, la stabilité et la sécurité de l’application. Si vous ne savez pas programmer, vous pouvez tester le dataviz open-source metabase (https://www.metabase.com/ ) qui est facile à prendre en main ;
  • Un Crawler et Analyseur de logs : la suite ELK (Elastic Search - Logstash - Kibana) est correcte pour les logs, il vous faudra créer tous les dashboards et pour le crawl, des logiciels comme Xenu (http://home.snafu.de/tilman/xenulink.html ) ou Screaming Frog (si vous avez moins de 500 urls sinon cela devient payant : https://www.screamingfrog.co.uk/) peuvent faire le job de façon simplifié. Ces outils restent accessibles et performants pour les sites de taille moyenne ;
  • Un keyword tool : la Search Console, ou alors il faudra jongler avec des proxies, mais c’est quelque chose à éviter car le coût de la maintenance, des proxies et du stockage est souvent supérieur aux licences des outils du marché.

Dans le domaine du gratuit, il existe de nombreuses communautés d’entraide, la plus connue est bien sûr stackoverflow.com où vous allez toujours trouver une réponse à vos problèmes de programmation. Ensuite, parmi les réseaux, vous devriez vous intéresser de près aux développeurs ou speakers présents sur GitHub et Twitter. Ces deux réseaux restent mes préférés pour trouver une réponse et le partage y est assez bluffant.

Le bon compromis entre ces différents outils

Le mode hybride vous offre la meilleure balance d’un point de vue qualité/prix. Il permet la mise en place d’un SEO Datamart directement exploitable par des data scientists avec les technologies les plus courantes.

  • Une plateforme de Data Science : Dans ce mode, vous pouvez envisager de prendre la version Discover de Dataiku qui reste un bon point de départ. Si votre équipe travaille exclusivement en R, un Rstudio Server Pro peut suffire. En fait, il vous faut surtout un moyen d’exécuter facilement des workflows Data et/ou Machine Learning ;
  • Un Cloud Provider pour le traitement et le stockage de données : Avec un minimum de budget, vous pouvez choisir au moins un cloud provider dans la liste : OVH, Google, Microsoft, j’écarte AWS qui reste très cher ;
  • Un CRM : le CRM ne doit surtout pas être négligé même sans budget pour déjà respecter les contraintes de GDPR et surtout pour vous faciliter la vie dans la gestion de vos clients. Voici ma liste : Close (https://close.com/) et Pipedrive (https://www.pipedrive.com/ ) pour 15 €/mois ;
  • Une solution Web Analytics : Petite répétition, mais une nouvelle fois la solution Analytics Matomo gagne du terrain par rapport à Google Analytics et propose des options très avancés : Heatmaps, Sessions recordings, Tests A/B, Entonnoirs, Analyse de visiteurs, Fonctionnalités SEO améliorées, Tag Manager, GDPR Manager ;
  • Plusieurs solutions de DataViz : vous pouvez continuer avec Google Data Studio, mais testez le dataviz open-source Metabase (https://www.metabase.com/) qui est facile à prendre en main. Avec un peu plus de budget, j’irai vers Power-BI (https://powerbi.microsoft.com/ ) qui reste accessible avec peu d’utilisateurs ;
  • Un Crawler et Analyseur de logs : là, je prêche pour ma paroisse mais OnCrawl (https://www.oncrawl.com/) me semble offrir le meilleur rapport qualité/fonctionnalités ;
  • Un keyword tools : la Search Console est utile. Ensuite, mon second choix serait Ranxplorer (https://ranxplorer.com/ ) ou Yooda (https://www.yooda.com/ ) qui restent très accessibles. Si le côté international est indispensable, dans ce cas il faudra aller vers un SEMrush (https://www.semrush.com/).

Conclusion

Nous venons de choisir des outils pour avoir des données de qualité. C’est une base indispensable pour faire de la Data Science et des projets d’envergure comme la prédiction des facteurs de ranking. Quel que soit son budget, il est possible de faire de la Data Science et la tendance est de rendre de plus en plus accessible les concepts utilisés par les Data Scientists.

Cela n’a pas été dit explicitement, mais de nombreux logiciels embarquent des concepts très avancés comme YourText.guru (https://yourtext.guru/), Cocon.se (http://cocon.se/), SEOquantum (https://www.seoquantum.com/ ) et tellement d’autres que j’en oublie...

Nous parlons souvent d’intelligence artificielle, mais le thème est mal compris dans notre cas. Il s’agit d’intelligence augmentée, la Data et la Data science vous permettent de gérer plus de projets et de façon plus qualitative.

Comme vous l’avez deviné, le Data SEO ne se limite pas à la Data Science. Dans l'article du mois prochain, des aspects inconnus mais pourtant essentiels seront abordés pour faciliter et garantir des résultats. En effet, je préfère parler de Data SEO et non de Data Science SEO, car il existe clairement 3 spécialisations à bien maîtriser de façon directe ou indirecte en plus du SEO comme les métiers de Data Analyst ou Data Engineer.
Mais nous verrons cela le mois prochain...

 

Vincent Terrasi, formateur (Data Marketing Labs) et Directeur Produit OnCrawl (https://fr.oncrawl.com/)