La plupart des moteurs de recherche majeurs travaillent sur le concept de "clusterisation", ou "découpage" des résultats en dossiers thématiques divers créés à la volée, par analyse du contenu des pages, permettant d'affiner sa recherche sur un domaine particulier. Le moteur NorthernLight, aujourd'hui quasiment disparu, a été l'un des pionniers de ces technologies, dont le flambeau a depuis été repris par des outils comme Vivisimo, Clusty, Polymeta ou Previewseek. Petite revue d'effectif...
Nous nous proposons d'explorer dans cet article trois solutions de recherche d'information : Clusty, de Vivisimo, Polymeta et Previewseek. Ces moteurs ont un point commun : ils proposent des technologies de "clusterisation". Les deux premiers sont des métamoteurs. Nous présenterons d'abord succinctement leurs fonctionnalités avant de procéder à un petit test d'utilisation sur chacun d'eux.
Vivisimo, la source de Clusty
Vivisimo (http://www.vivisimo.com/) est un produit et une entreprise ; un métamoteur de recherche et une start up, fondée en juin 2000 par des chercheurs en informatique de l'université de Canegie Mellon à Pittsburgh, université dans laquelle le moteur Lycos a également vu le jour. L'entreprise propose trois solutions, respectivement Vivísimo Clustering Engine, Vivísimo Content Integrator et Vivísimo Velocity, qui s'adressent pour le premier au grand public et pour les deux autres à des publics d'entreprise. Les principaux clients de Vivisimo sont d'ailleurs les grands comptes et administrations du "fortune 500" aux Etats-Unis.
La technologie utilisée par le métamoteur de Clusterisation Vivisimo est basée sur une nouvelle approche de clusterisation à la volée ou auto-categorisation. Le moteur définit des catégories basées sur le sens sans pre-traitement ni indexation d'une base documentaire. Cette solution de clustering n'est basée sur aucune taxonomie ni aucun thesaurus bien que capable de tirer profit de la catégorisation d'une taxonomie existante.
L'originalité de ce métamoteur réside dans sa méthode de clusterisation ou classement des sites. Vivisimo utilise uniquement les titres des pages et le résumé fourni par les moteurs interrogés pour procéder à une catégorisation effectuée sur la base d'algorithmes qui utilisent un dictionnaire de synonymes et un outil de lemmatisation. Un peu de traitement de la langue donc, allié à un solide algorithme statistique.
Des fonctionnalités basées sur les usages
En 2004, Vivisimo a lancé Clusty (http://www.clusty.com/). Clusty, c'est toute la puissance de Vivisimo alliée à la souplesse des usages. Clusty, à partir de la requête d'un utilisateur interroge le web, des blogs, des serveurs de news, effectue des recherches d'images et envoie même votre requête sur l'encyclopédie en ligne Wikipedia. Il effectue aussi une recherche sur les recherches d'emploi et sur des sites de vente en ligne. Ainsi la requête "clustering search engines" donnera selon l'onglet choisi des informations générales sur le sujet des moteurs de clusterisation, des livres à acheter en ligne sur le sujet et proposera même des offres d'emploi dans le domaine de la recherche d'information !
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).