Toute personne qui s'intéresse de près ou de loin au SEO (et pas seulement) a certainement, un jour ou l'autre, utilisé la Wayback Machine ou Archive.org, qui sauvegarde des milliards de pages web depuis plus de 25 ans. Mais connaissez-vous toutes les fonctionnalités de cet outil et les différentes façons de s'en servir ? Voici un guide des différents trucs et astuces pour garder la mémoire alerte...
La WayBack machine est un excellent outil pour retrouver des contenus perdus ou d’anciennes versions de ces derniers. On peut aussi facilement l’utiliser dans une optique de veille concurrentielle ou de monitoring. Mais comment et quand l’utiliser dans nos actions de référencement naturel ? Voici un guide des différents atouts de cet outil Open Source.
Qu’est-ce que la WayBack Machine ?
La WayBack Machine est un organisme à but non lucratif ayant pour objectif de constituer la plus grande archive mondiale des contenus du Web. Depuis 1996, ils sauvegardent des millions de contenus textes, mais aussi des livres, des vidéos ou encore des fichiers audio.
Ainsi, à n’importe quel moment, vous pouvez demander à l’outil de vous donner les différentes sauvegardes d’une URL précise. Vous aurez alors un historique de différentes versions disponibles, le tout accessible avec un simple clic sur la partie calendrier.
Dans l’exemple ci-dessous, on demande ainsi les différentes sauvegardes de la page d’accueil du site SeoMix.fr. On voit alors la première sauvegarde fin 2009, et l’on ensuite accès à 660 versions du contenu concerné.
Un exemple des sauvegardes disponibles pour la page d’accueil de SeoMix.fr
Lorsque vous cliquez sur l’un des liens dans le calendrier, vous afficherez alors la sauvegarde du contenu concerné :
Un exemple de sauvegarde au 01 Janvier 2021
Un outil faillible
De même, certaines sauvegardes ne sont parfois pas ou plus disponible (celles affichées en rouge dans le calendrier).
Et enfin, lors du clic pour afficher un contenu, il arrive régulièrement que certaines images, polices d’écritures ou encore fichiers CSS ne s’affichent pas correctement. Le rendu visuel peut donc être incorrect.
Les atouts SEO de cet outil
Monitoring et veille concurrentielle
Même si ce n’est pas du tout le but premier de l’outil, il peut potentiellement être utilisé pour du monitoring. En d’autres termes, vous pouvez suivre l’évolution d’une page web. Il faut savoir que l’on peut forcer la sauvegarde d’une URL pour en garder une trace (nous verrons comment faire un peu plus loin). Il est alors aisé de vérifier ponctuellement les éventuels changements, voire même de demander de nouvelles sauvegardes.
Dans le même principe, la WayBack Machine peut servir à mettre en place une veille concurrentielle pour suivre l’évolution des contenus de vos concurrents. Par exemple, en cas de hausse de positionnement de ces derniers, vous pourriez visualiser les éventuels changements dans le contenu et/ou la structure du site concerné. On peut aussi le faire sur des fichiers précis, par exemple pour voir les modifications du fichier robots.txt.
Attention cependant, ce serait dans les deux cas un monitoring manuel. Vous n’auriez pas d’alerte automatique en cas de modification du contenu.
Retrouver un contenu perdu
Dans le cas où vous n’auriez pas de sauvegarde de votre site, cela peut aussi servir à retrouver des contenus perdus (ou vos anciennes modifications). Si ce dernier a été sauvegardé par la WayBack Machine, vous pourrez alors revenir en arrière.
Mais attention, gardez toujours en tête que cela ne remplacera jamais un vrai système de sauvegarde de votre site.
Remonter un site expiré, perdu ou piraté
C’est souvent l’utilité SEO à laquelle on pense en premier :
- Nous achetons un nom de domaine expiré et l’on souhaite remettre en ligne les anciens contenus ;
- Le site a été piraté et nous n’avons pas de sauvegarde saine ;
- Le site a été perdu (hébergement supprimé, incident technique, incendie, etc.).
Dans tous ces cas de figure, on peut utiliser cet outil pour récupérer tout ou partie du contenu de notre site Internet.
Surveiller la SERP
Dernière utilisation pratique : monitorer un mot clé dans Google. Dans la fonctionnalité de sauvegarde d’une URL, vous pouvez très bien demander l’URL d’une page de recherche de la firme de Mountain View. Ainsi, vous aurez le rendu visuel de la requête.
Un exemple de la requête « manger du chocolat » sauvegardée par la WayBack machine.
En faisant cela régulièrement, vous pourrez ainsi suivre l’évolution des sites positionnés, mais aussi de ce que peut afficher ou non Google sur cette requête (Knowledge Graph, balisages schema.org, Ads, etc.). Cela permet aussi de suivre les changements sur l’intention de recherche perçue par Google pour une thématique donnée.
Pensez bien à utiliser le paramètre de langue par contre (hl=fr pour le français), sinon les captures seront faites sur la version en anglais de Google. Dans l’exemple précédent, c’est cette URL qui a été demandée : https://www.google.com/search?q=manger+du+chocolat&hl=fr
Les astuces
Maintenant que l’on sait dans quels cas de figure on peut utiliser la WayBack Machine, voyons maintenant différents outils et astuces pour mieux l’utiliser.
L’API
Tout d’abord, cet outil possède une API native pour aller récupérer proprement et au format JSON les différentes données sauvegardées. Pour cela, nous vous invitons à consulter la documentation officielle : https://archive.org/help/wayback_api.php
Avoir le détail de toutes les URL archivées
Par défaut, le formulaire vous permet d’afficher le détail d’une URL. Mais il faut savoir que l’on peut aussi afficher un tableau listant l’intégralité des contenus en mémoire dans la WayBack Machine.
Pour cela, cliquez simplement sur le bouton « URLs » en haut à droite, sous le formulaire de recherche. Attention, il utilisera votre recherche comme préfixe pour la liste. On peut donc aussi cibler tout contenu commençant par une URL précise.
L’outil peut afficher toutes les URL commençant par le contenu initialement recherché.
Forcer la sauvegarde d’une URL
Le formulaire
Pour demander la sauvegarde immédiate d’une URL, c’est assez simple : rendez-vous sur la page d’accueil de la WayBack Machine et utilisez le formulaire dédié « Save Page Now ».
Le formulaire d’ajout d’une URL
Le traitement est quasiment immédiat, et vous donne alors un lien pour accéder à votre contenu sauvegardé.
Les autres méthodes
Vous pouvez aussi :
- Utiliser l’extension Chrome dédiée ;
- Utiliser un bookmarklet (un marque page qui utilise du JavaScript au lieu d’une simple URL).
Pour cette dernière solution, ajoutez donc ce code comme marque page dans Chrome ou Firefox pour sauvegarder l’URL actuellement consultée dans la WayBack Machine :
javascript:void(window.open('https://web.archive.org/save/'+location.href));
Un accès rapide à l’URL actuellement consultée
Dans la foulée, voici donc un second bookmarklet très utile et qui vous permettra en un clic d’ouvrir l’URL actuellement consultée dans la WayBack Machine :
javascript:void(window.open('https://web.archive.org/web/*/'+location.href.replace(//$/, '')));
Vous pouvez aussi, avec cette autre variante, avoir un accès direct à la liste des URL sauvegardées pour le nom de domaine que vous êtes en train de consulter :
javascript:(function(){window.open('http://web.archive.org/web/*/'+location.hostname.replace('www.','')+'/*', '_newtab');}());
Bloquer la Wayback Machine sur son site
Parfois, on peut souhaiter bloquer ce service afin de garder une plus grande maîtrise de ses contenus et de son SEO (un peu comme lorsque l’on bloque les robots de Majestics, aHrefs ou encore Semrush).
Pour empêcher la WayBack Machine de sauvegarder de nouvelles URL de votre site, il vous faudra modifier votre fichier robots.txt pour ajouter ces règles :
User-agent: archive.org_bot
Disallow: /
Attention cependant, c’est le plus souvent insuffisant : ici on bloquera le robot de cet outil, mais il faut savoir qu’une partie des pages archivées par WayBack Machine provient d’Alexa. Pour réellement bloquer la sauvegarde de vos pages, il faudra donc bloquer un second bot dans votre fichier robots.txt :
User-agent: ia_archiver
Disallow: /
Supprimer des URL
C’est le point le plus contraignant : si vous avez déjà des contenus dans cet outil, mais que vous souhaitez les retirer, il faudra malheureusement les contacter par email :
You can send an email request for us to review to info@archive.org with the URL (web address) in the text of your message.
Il n’y a pour le moment aucun formulaire pour simplifier la démarche, et c’est pourtant le seul moyen pour retirer tous vos contenus, notamment ceux sauvegardés avant un éventuel blocage des robots.
Comment extraire un site entier avec la WayBack Machine
Méthodes payantes
Au premier abord, on pensera souvent à faire ce travail manuellement ou avec son propre crawler/scraper (par exemple avec Screaming Frog Spider SEO), mais sachez tout d’abord qu’il existe des services dédiés pour cela. Si vous voulez gagnez un maximum de temps, ces solutions seront sans doute les plus rapides (certaines permettent même un export direct vers WordPress).
On peut citer par exemple :
- https://waybackrebuilder.com/;
- https://www.waybackmachinedownloader.com/en/;
- Archive-IT;
- https://waybackdownloads.com/;
- Etc.
Méthodes manuelles
Mais il existe heureusement des méthodes manuelles...
Librairies et scripts :
Il existe aussi des scripts pour cela, par exemple :
- WayBack Scraper (ligne de commande)
- WayBack Machine Scraper (scrapy)
- Hartator WayBack Machine Downloader (Ruby)
Screaming Frog :
Avec Screaming Frog, l'extraction est faisable aussi mais cela nécessite plusieurs manipulations.
Il faut d’abord extraire les URL connues de votre site. Pour cela, la WayBack Machine permet d’exporter au format TXT (ou JSON) la liste des sauvegardes en tapant cette URL : http://web.archive.org/cdx/search/cdx?url=seomix.fr*&output=txt (remplacez le domaine seomix.fr par le vôtre).
Un exemple d’export brut des sauvegardes de la WayBack Machine.
Importez ensuite cette liste dans Excel, supprimez les doublons, puis recréez l’URL. Elle se forme ainsi :
- http://web.archive.org/web/ ID / URL
- Exemple : http://web.archive.org/web/20210206214436/https://www.seomix.fr/
Ensuite, il faudra demander à Screaming Frog de crawler cette URL avec le mode « List ».
Extraction manuelle :
Pensez bien cependant avant à configurer la sauvegarde du rendu HTML et d’activer le rendu JavaScript. Il ne vous restera alors qu’à exporter chaque URL en la sélectionnant, puis en utilisant l’onglet « Afficher la source » en bas puis le bouton Exportation.
L’onglet « Afficher la source quand on sélectionne une URL dans Screaming Frog
Extraction Automatique :
Malheureusement, vous allez voir que la méthodologie est longue car il faut faire un export par contenu. Sur un petit site, il n’y a pas de soucis. Sur un site de plus grande taille, cela posera problème car cela prendra énormément de temps.
L’autre méthode consiste à cibler uniquement la partie qui vous intéresse. Le crawl de Screaming Frog va d’ores et déjà extraire correctement les informations du <head> (balise Title, méta description, etc.). Il ne reste donc qu’à cibler et afficher le contenu texte (ou HTML) qui nous intéresse, avec les Xpath.
Pour cela, voici la méthodologie (nous avons pris le site Abondance en exemple) :
- Regarder comment les pages sont conçues pour savoir où est le contenu qui vous intéresse dans le code HTML. Dans l’exemple, dans un article d’Abondance, le contenu réel est présent dans une <div> ayant pour classe « post-content » ;
- Copiez le Xpath correspondant. Pour le trouver, c’est simple là aussi :
- Faites un clic droit pour ouvrir la console de développeur ;
- Dans l’inspecteur, trouver la partie HTML qui vous intéresse ;
- Faites un clic droit sur cette partie, puis Copier > Xpath.
L’option de copie du Xpath
- Dans Screaming Frog :
- Avant le crawl, allez dans « Configuration > Personnaliser > Extraction » ;
- Cliquez sur « Ajouter » ;
- Collez le Xpath, et sélectionnez le type d’extraction en fonction de vos besoins ;
Le menu d’extraction de Screaming Frog
- Lancez le crawl ;
- A la fin du crawl, il suffira d’exporter le premier tableau pour avoir dans une colonne tout le contenu que vous désirez.
Et voici le rendu :
Une nouvelle colonne avec notre contenu extrait.
Conclusion
Gratuite et facile d’utilisation, la WayBack Machine est un excellent outil pour accéder rapidement à d’anciennes versions de notre site ou de ceux de nos concurrents.
Avec quelques scripts et liens supplémentaires, on peut alors faciliter son utilisation au quotidien.
Mais attention : gardez toujours en tête que la WayBack Machine est un outil qui ne sera jamais entièrement fiable ni exhaustif. Mais qui permet cependant de nombreuses possibilités en SEO.
Daniel Roch, consultant WordPress, Référencement et Webmarketing chez SeoMix (https://www.seomix.fr)