Microsoft, via sa filiale "search" MSN, a lancé il y a quelques jours de cela, une version "alpha" de son futur moteur de recherche. Une bonne occasion, pour effectuer quelques tests pour voir à quoi ressemble cette première mouture, tout en gardant en mémoire qu'il ne s'agit là que d'une version très provisoire... Ces tests nous fournissent cependant quelques données intéressantes quant à la future version finale du moteur.

Le 1er juillet dernier, Microsoft/MSN a sorti une version "beta preview" de son futur moteur de recherche en France (http://techpreview.search.msn.fr/) et dans 28 pays (http://techpreview.search.msn.com/worldwide.aspx).

Bien entendu, il ne s'agit que d'une première version, peut-être plus destinée à tester le robot (spider) du moteur que l'algorithme de pertinence lui-même. Il nous cependant semblé intéressant de commencer à étudier cet outil, ne serait-ce que pour mieux prendre en compte son évolution dans les mois qui viennent.

Nous avons donc examiné plusieurs critères d'étude : comment les requêtes sont-elles prises en compte (minuscules/majuscules, troncature, etc.) et les documents indexés, syntaxe de recherche (ET, OU, SAUF, syntaxe avancée, notamment par rapport à celle de Google, etc.), présentation des résultats, etc.

Prenons, dans un premier temps, en compte, la façon dont sont recherchés les mots clés : minuscules ? Majuscules ? Avec troncature ? Le moteur effectue-t-il ses recherches dans les balises meta et prend-il en compte les fichiers PDF et les pages dynamiques ? Réponses :

 Prise en compte des requêtes et indexation

Minuscules / majuscules Idem. IBM = Ibm = ibm
Accentuation Importante. Le moteur recherche l'occurrence exacte du mot demandé.

électricité recherche électricité et rien d'autre.

electricite recherche electricite et rien d'autre.

Ordre des mots Important. dakar paris donne un résultat différent de paris dakar.
Troncature Pas de troncature par défaut. Seul le mot demandé est recherché (abonda ne trouve pas abondance).
Recherche dans les balises Meta Description des pages NON
Recherche dans les balises Meta Keywords des pages NON
Recherche dans les commentaires des codes HTML NON
Indexation des documents PDF OUI (peu de documents à ce format semblent cependant disponibles)
Indexation des sites dynamiques OUI (nombreuses pages contenant des signes "?" et "&" dans l'url)

Très important : la syntaxe d'interrogation simple et avancée. Quelles sont les possibilités que MSN met à notre disposition pour effectuer des requêtes plus approfondies et efficaces?

Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).