Chasse gardée de grandes agences il y a encore quelques années, l’analyse de logs SEO s'est complètement démocratisée suite à l’apparition sur le marché de nombreuses solutions rendant la discipline accessible à un grand nombre d’éditeurs de sites. En effet, avec quelques outils simples et un tableur Excel, on peut mener à bien de nombreuses analyses qui feront beaucoup de bien à votre visibilité sur le Web. En voici 7 exemples...
Malgré un gros travail d’évangélisation depuis plusieurs années, l’analyse de logs a toujours l’image aujourd'hui d'un domaine complexe et limité aux sites à grosse volumétrie de pages.
S’il est vrai que cette analyse est plus pertinente pour le site e-commerce de 3 millions de pages que le site vitrine de 15 pages, il n’en reste pas moins que des études peuvent être facilement réalisées, même avec un simple tableur Excel ! Nous allons en voir quelques exemples aujourd’hu.
Qu’est-ce qu’un fichier log et comment les récupérer ?
Un fichier log est un fichier dans lequel sont enregistrés tous les événements qui se déroulent sur un serveur ou une application. Dans un contexte SEO, on parle généralement des logs d’un serveur web (Apache, IIS, Nginx…).
A chaque fois qu’un utilisateur appelle une ressource d’un site web (que ce soit une page HTML, une image, un fichier JavaScript, …), le serveur va ajouter une ligne au fichier log avec un ensemble d’information (date et heure de l’événement, URL de la ressource, code réponse http, user-agent, referer, etc.). Une ligne par événement, une colonne par information.
L’un des grands avantages des fichiers logs est qu’ils enregistrent les évènements de TOUTES les ressources et de TOUS les utilisateurs, qu’ils soient humains ou robots. Les solutions de web analytics ne vont quant à elles tracker que les ressources qui sont taguées, et uniquement les utilisateurs qui exécutent le JavaScript (et qui n’ont pas un Adblocker trop puissant…).
Si votre site web est hébergé sur un serveur dédié, votre infogérant ou votre service informatique doit être en mesure, relativement facilement, de vous mettre à disposition la période de logs que vous souhaitez (la conservation des fichiers logs pendant plusieurs mois est une obligation légale).
Si votre site web est sur un hébergement mutualisé, la plupart des hébergeurs proposent de les télécharger facilement depuis le backoffice.
Gestion du volume et chargement dans Excel
Si des analyses vont pouvoir être faites avec un tableur Excel, il ne faut pas se leurrer, les problématiques de volume vont rapidement apparaître. Excel est en effet limité à environ un million de lignes. Pour des petits sites, vous allez pouvoir charger quelques journées de logs. Pour les plus gros sites, il faudra se contenter de quelques heures, voire de quelques minutes… limitant clairement la pertinence de l’analyse.
Pour des analyses plus complexes, Excel n’est clairement pas adapté. Des solutions open source comme ELK (ElasticSearch + Logstash + Kibana) ou commerciales comme Botify sont là pour ça.
Pour charger votre fichier log dans Excel, allez sur l’onglet « Données » puis cliquez sur « Fichier texte » pour sélectionner votre fichier (vous pouvez cliquer sur les copies d'écran ci-dessous pour en obtenir une version agrandie).
Fig. 1. Vous pouvez traiter vos logs directement dans Excel
Cliquez sur « Délimité » :
Fig. 2. Sélectionnez l'option "délimité"
Le délimiteur va varier en fonction de votre format de logs. Dans 90% des cas, il s’agira de l’espace qui est le séparateur par défaut.
Une fois trouvé le bon séparateur (aidez vous de l’aperçu de données), vous pouvez valider.
Fig. 3. Le séparateur le plus courant est l'espace mais peut varier en fonction du format de vos logs.
Vous devriez voir apparaître un fichier à peu près organisé de ce type :
Fig. 4. Affichage des logs après l'import dans Excel.
Après le nettoyage de quelques colonnes vides ou inutiles, l’ajout d’en-tête de colonnes, et l’insertion d’un tableau, vous devriez arriver à un rendu plus exploitable comme cela :
Fig. 5. Affichage des logs après un peu de nettoyage et de mise en forme.
Si vous n’avez pas eu de soucis, cette opération a dû vous prendre 5 minutes et vous êtes prêt pour analyser vos logs.
Analyse n°1 : Identifiez les « faux Googlebot »
Tout utilisateur est identifié, lors de son passage, par son user-agent et son adresse IP. S’il est techniquement très facile de « falsifier » un user-agent, il est impossible d’insérer dans les logs l’adresse IP d’un autre.
Certains robots essaient donc de se faire passer pour le robot de Google (Googlebot) pour effectuer des actions malveillantes : scrap de contenu, de spam ou même tentative de hack.
Pour les identifier, il suffit de filtrer vos logs sur les User-agent contenant le terme « Googlebot » et de filtrer sur les IPs ne commençant pas par « 66.249 » (plage d’IP utilisée par Google).
Fig. 6. Vous pouvez découvrir des bots ou utilisateurs qui essaient de se faire passer pour Google.
Dans l’exemple ci-dessus, on observe quelques appels dans ce cas.
Les appels à l’URL xmlrpc.php sont probablement des tentatives de spam, il s’agit d’une faille bien connue de WordPress.
Les autres appels sont probablement du scrap de contenu.
Si une IP revient régulièrement, vous pouvez la bloquer dans votre fichier .htaccess.
Analyse n°2 : Détectez les tentatives de hack
Dans le même esprit, vous pouvez identifier les utilisateurs qui tentent de se connecter à des URL telles que /admin, /backoffice ou autres /wp-admin et qui ne correspondent pas à votre adresse IP.
Fig. 7. Certains bots essaient de découvrir des failles sur votre blog.
Ici, une adresse IP chinoise multiplie les tentatives d’accès à l’espace d’administration de mon blog. Vous pouvez sans état d’âme bannir ces IP.
Cette analyse est très sommaire et ne suffit évidemment pas à sécuriser votre site, maisle fait de constater que des robots essaient de vous hacker en permanence est une bonne prise de conscience pour décider de traiter sérieusement le sujet de la sécurité de votre site.
Analyse n°3 : détecter le hotlink d’images
Le hotlink est le fait que d’autres sites récupèrent l’URL de vos images pour les afficher sur leurs pages. Ces sites ne se contentent pas de « voler » votre contenu, ils utilisent aussi vos ressources serveurs !
Pour détecter le hotlink d’images dans les logs, il suffit d’afficher les ressources images (jpg, png, …) qui n’ont pas votre propre domaine comme referer.
Fig. 8. Certains sites sans scrupules utilisent vos images et vos ressources serveur.
Dans le cas de mon petit blog personnel, le phénomène n’est pas massif, mais on peut tout de même détecter quelques cas.
Une solution amusante consiste, grâce au fichier htaccess, d’afficher une version complètement différente de l’image à ces « voleurs ».
Analyse n°4 : trafic vers des URLs en « non 200 »
Le code http « 200 » est renvoyé par le serveur lorsque l’appel de l’utilisateur s’est bien déroulé. Il existe d’autres codes http, le plus connu étant le « 404 » pour une page introuvable ou le code « 301 » pour une redirection permanente. Il en existe un grand nombre.
Il est suffisamment compliqué de générer de l’audience SEO aussi, il serait dommage d’envoyer ce trafic vers des URL défectueuses. Pour identifier ces cas, filtrez votre colonne referer sur le terme « Google » et filtrez sur les codes http différents de « 200 ».
Fig. 9. Identifiez le trafic que vous générez vers des pages qui n'existent plus.
Très peu de cas ici, mais il y a de bonnes chances que vous en trouviez plus sur un site plus important.
Analyse n°5 : surveillez votre fichier robots.txt
Le fichier robots.txt est évidemment un fichier très sensible pour le SEO. Une erreur en son sein et ce sont des années de travail SEO qui peuvent être réduites à néant. Dans certains contextes, il est possible que le robots.txt soit temporairement modifié ou supprimé sans que personne ne soit au courant, générant des problématiques inexplicables.
Les logs permettent facilement de voir si le robots.txt a subi des changements : tout simplement en regardant s’il y a des variations dans le code http ou le poids du robots.txt
Fig. 10. Identifiez facilement les modifications de votre fichier robots.txt.
Dans cet exemple, aucune modification à signaler.
Analyse n°6 : regarder si le site est dans l’index Mobile First
John Mueller l’a indiqué récemment, lorsqu’un site est dans l’index Mobile first de Google, il doit être majoritairement crawlé par la Googlebot-Mobile et non plus Googlebot classique.
Un petit tableau croisé dynamique permet facilement de compter le volume de crawl de chaque version de Googlebot.
Fig. 11. L'analyse de logs permet de savoir si un site est présent dans l'index mobile first.
Dans cet exemple, les 2 premières lignes concernant les bots de Google dédiés aux images et aux vidéos. La 3e ligne concerne Googlebot classique. Les deux dernières lignes sont les deux bots Googlebot dédiés au mobile.
Très clairement, ce site n’est pas encore dans l’index mobile first. Patience…
Analyse n°7 : Identifier trafic issu de Google Images
Si la dernière version de Google Images a considérablement réduit le trafic que ce moteur de recherche vertical pouvait générer, il reste intéressant de mesurer le trafic et voir les pages de destination.
Pour cela, il suffit de filtrer sur la colonne referer uniquement les URLs contenant le terme « imgres ».
Fig. 12. Découvrez les pages qui génèrent du trafic depuis Google Images.
Conclusion
Nous espérons que cet article contribuera à démystifier l’analyse de logs qui n’est pas un domaine aussi obscur qu'on peut imaginer au premier abord. Ces quelques analyses sont pertinentes quelle que soit la taille du site et peuvent être réalisées très facilement, avec un simple tableur Excel.
Espérons également que cette introduction vous encouragera à creuser le sujet, car les données issues des logs, notamment lorsqu’elles sont croisées avec les données de crawl d’un site, peuvent permettre de découvrir des pistes d’optimisation SEO très intéressantes.
Jean-Benoît Moingt, consultant SEO Senior chez Watussi (https://www.watussi.fr/).