Cette nouvelle rubrique, maintenue par Marianne Dabbadie, du magazine Veille Mag et directrice de l'innovation de la société I-KM, présentera chaque mois plusieurs outils de recherche intéressants pour vos investigations sur le Web. Ce mois-ci, ce sont Exalead, Dir.com, Misterbot et Mirago qui sont passés au crible et comparés...
Nous nous proposons aujourd'hui de faire le tour de quatre solutions européennes : il s'agit de trois moteurs français : Exalead, Misterbot le dernier-né du web francophone, et dir.com, ainsi qu'une solution d'origine britannique : Mirago. A partir du mois prochain, nous explorerons des moteurs moins connus mais qui méritent d'être testés, comme Rollyo, Releton, Misterbot, Clusty, GoshMe, Seekport, Polymeta, PreviewSeek, Numika ou autres Quintura...
Nous explorerons les fonctionnalités de ces différents moteurs avant de terminer par un test comparatif de performance des différents moteurs sur des requêtes similaires.
Exalead
Créée en 1999, Exalead est une entreprise française qui possède une filiale à Milan depuis deux ans. Son moteur de recherche est basé sur l'utilisation d'un couplage de technologies linguistiques et statistiques. Exalead est également depuis plus de trois ans, fournisseur d'AOL France pour la partie recherche d'information. Avec un index de 3 milliards de pages, Exalead se classe parmi les moteurs de recherche internationaux. Il s'agit d'un moteur dont les fonctionnalités sont si riches, que nous nous proposons de les présenter par catégorie.
Fonctionnalités de Navigation
Exalead propose des thématiques de navigation grâce à une génération automatique de mot-clés. En marge de la requête de l'utilisateur, Exalead propose une liste de thèmes associés. Le moteur propose aussi une localisation géographique des sites traitant d'un thème de recherche.
Fonctionnalités d'analyse
Exalead propose une recherche en langage naturel qui repose sur une analyse linguistique "légère" ne s'appuyant sur aucun dictionnaire. La première étape de l'analyse linguistique commence par l'élimination des mots vides. De plus, Exalead procède à une élimination automatique des doublons.
Le moteur par ailleurs propose de classer les documents retournés en fonction de leur format ; fonctionnalité fort utile, également proposée par Google, mais dans le cadre d'une recherche avancée. Parmi les fonctionnalités directement accessibles à l'internaute, on trouve aussi une pre-visualisation des pages retournées par le moteur dans la partie basse de l'écran, par un clic sur la vignette associée à chaque résultat. Par ailleurs, la présentation des résultats s'affiche en fonction des souhaits de l'internaute : avec ou sans vignette de pre-visualisation.
Le moteur possède un module de lemmatisation basée sur une analyse statistique. Exalead possède aussi, comme Google, un module de correction orthographique. Une autre fonctionnalité dérivée de la correction orthographique est la recherche phonétique approchée. La reconnaissance des langues se fait de façon automatique. Parmi ses fonctionnalités originales, Exalead propose aussi des documents audio et vidéo associés au thème de la requête.
Recherche Avancée
Les fonctionnalités de recherche avancée permettent d'activer un certain type d'algorithme, soit, de façon non exhaustive : type de pertinence, langue, localisation géographique du site, recherche phonétique, recherche sur la racine des mots. L'algorithme de recherche d'Exalead, basé par défaut sur une recherche par proximité gère également les exclusions ou encore les préférences.
Dir.com
Lancé par le groupe Iliad il y trois ans, Dir (http://fr.dir.com/) est un projet dont le groupe n'ose – à son grand tort – quasiment plus revendiquer la paternité. Pourquoi tant de frilosité ? Et bien tout simplement parce que devant le succès rencontré par le fournisseur d'accès à Internet Free, société phare du groupe Iliad, le groupe a réorganisé ses priorités. A tel point que lorsqu'on effectue une recherche sur la chaîne de caractères "dir.com" sur le moteur de recherche interne du groupe Iliad, on n'obtient aucune réponse. Mais la recherche s'effectue pourtant à partir de ce moteur. Même le portail www.free.fr n'utilise pas le moteur produit par le groupe. Le fournisseur d'accès lui a préféré une intégration de Google en page d'accueil !
Pourtant il y a trois ans les objectifs étaient bien différents : L'éditeur n'affichait rien de moins que l'ambition de challenger Google sur les pages francophones. Actuellement, l'index mis à jour toutes les quatre semaines par le spider Pompos comporte environ 100 millions de pages en Français. Le moteur ne propose pas de liens sponsorisés.
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).