Apparus il y a quelques années, les moteurs de recherche d'actualités se sont rapidement imposés comme l'un des piliers du monde de la recherche, au même titre que la recherche de sites Web ou la recherche d'images. La plupart des grands moteurs traitent désormais les "news" et il existe une multitude d'outils spécialisés. Alors même que ces outils verticaux drainent de plus en plus de visites, les possibilités offertes pour y référencer des contenus restent cependant relativement méconnues... Nous vous offrons ici un panorama des outils disponibles et un aperçu des facteurs à prendre en compte pour figurer en bonne place dans les listes de résultats !
La fréquentation des moteurs de recherche d'actualités a connu une forte progression dernièrement. Aux Etats-Unis, le cabinet Nielsen//NetRatings a annoncé, en janvier 2005, que le nombre de lecteurs de Yahoo! News était désormais supérieur à celui de CNN, avec environ 23 millions de visiteurs par mois. En juillet de cette même année, ce cabinet plaçait Yahoo! News en tête des sites d'actualités US avec 23,2 millions de visiteurs uniques, devant AOL News (16,5 millions), Google News (6,8 millions) et Topix.net (2,4 millions).
En décembre dernier, Nielsen//NetRatings a par ailleurs estimé que la recherche d'actualités occupe une place de plus en plus importante dans le nombre total de recherches effectuées en ligne sur les moteurs de recherche, avec une progression de 12,7% du nombre de requêtes effectuées entre juin et octobre 2005.
Preuve supplémentaire de l'intérêt qu'ils suscitent, au moins quatre moteurs de recherche d'actualités spécialisés ont été rachetés durant ces deux dernières années. Le service français Net2One a tout d'abord été revendu en 2004 au prestataire de veille Presse+ (qui a depuis lui-même été racheté par le groupe britannique TNS Secodip). Cette même année, Rocket Technologies, autre spécialiste d'origine canadienne responsable de RocketNews, a lui été repris par l'américain Zeppelin Energy (groupe œuvrant à la fois dans l'informatique et le secteur pétrolier). En octobre 2005, l'agrégateur de contenus Moreover est quant à lui tombé dans l'escarcelle de VeriSign, un spécialiste des noms de domaine, pour 30 millions de dollars. Enfin, dernièrement, trois éditeurs de journaux américains (Tribune, Knight-Ridder et Gannett) se sont unis pour prendre une participation de 75% dans Topix.net.
Chronologie des principaux lancements
Il existe des centaines d'outils, dont une grande majorité sont anglophones. Ils permettent de rechercher des actualités en ligne diffusées par toutes sortes de médias, qu'il s'agisse de journaux locaux, de quotidiens nationaux, de sites de stations de radio, de chaînes de télévision ou encore, mais moins souvent, de weblogs). Nous nous concentrons ici sur les principaux d'entre eux :
Année | Toujours actif | Moteur de recherche d'actualités | Langue(s) |
1995 | Oui | Yahoo! News | UK / FR / ES... |
1996 | Oui | News Index | UK |
1997 | Oui | Excite NewsTracker | UK |
Oui | Net2One | FR / UK | |
Oui | TotalNEWS | UK | |
1998 | Oui | Moreover | UK |
1999 | Oui | NewsTrove | UK |
Non | Northern Light Special Collection | UK | |
2000 | Oui | LookSmart FindArticles | UK |
Oui | Ananova (Orange UK) | UK | |
2001 | Non | Altavista News | UK |
Oui | Ask Jeeves News | UK | |
Oui | Daypop | UK | |
Oui | RocketNews | UK | |
2002 | Oui | DeepIndex News | FR |
Oui | Google News | UK / FR / ES... | |
Oui | Topix.net | UK | |
2003 | Non | Allzenews | FR / UK |
Oui | MSN Newsbot | UK / FR / ES... | |
2004 | Oui | Oscoop | FR |
2005 | Oui | Feedster | UK |
Fonctionnement technique des moteurs de recherche d'actualités
Pour constituer leurs index, les moteurs de recherche d'actualités ont plusieurs possibilités. La première consiste à utiliser des spiders "classiques" parcourant et indexant périodiquement une sélection de sites d'actualités. Google utilise cette méthode, comme l'explique Nathan Stole (le directeur produit de Google News) : "Google News a ses propre crawlers qui scannent très, très rapidement tous les nouveaux sites que nous avons dans notre corpus, essayant d'identifier les articles dès qu'ils apparaissent" avant d'en "extraire le titre, le corps du texte et les photos" (http://searchenginewatch.com/searchday/article.php/3556766).
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).