Le monde des moteurs de recherche est un monde en perpétuel changement, et ce ce qui en fait son charme et son côté passionnant ! Dans ce cadre, une société française, Linkkit, basée à La Seyne Sur Mer (près de Toulon), vient de développer une nouvelle technologie permettant, selon ses concepteurs, d'augmenter la pertinence d'un moteur de recherche.

Notons bien, en préliminaire de cet article, que la solution qui va être décrite dans ces pages ne constitue pas une solution "moteur de recherche" en elle-même. Elle se greffe, s'adapte à un moteur existant dans le but d'augmenter la pertinence des résultats déjà fournis par l'outil de recherche. Ainsi, la technologie conçue par Linkkit pourrait être utilisée (voire rachetée, car il s'agit là de l'objectif de ses concepteurs) par une société comme Fast, AltaVista (ou Overture :-)), Google ou encore Inktomi (Yahoo!).

Une analyse "communautaire" des liens du Web

Comment fonctionne la technologie développée par Linkkit ? C'est finalement assez simple... Le système peut être expliqué en plusieurs étapes. Imaginons que La technologie soit utilisée par un moteur, que nous baptiserons du nom imaginaire de "GooVista" 🙂

  1. L'utilisateur entre sa requête sur le formulaire de GooVista et lance la recherche.
  2. Comme pour une requête tout à fait "classique", GooVista effectue une recherche dans son index et trouve les pages les plus pertinentes selon son propre algorithme de pertinence.
  3. C'est ici qu'intervient une étape supplémentaire : Au lieu de fournir directement ses résultats à l'internaute, GooVista les redirige vers le module "Linkkit". Il fournit, par exemple, les 500 premiers liens qu'il a trouvés avec, pour chacun d'entre eux, les liens sortants issusde chacune des pages trouvées. Le "lot de pages" de pages fourni peut alors être qualifié de "communautaire" ou "contextuel" puisqu'a priori, tous ces documents parlent de la même chose, du même thème. Enfin, en tout cas, si le moteur GooVista n'est pas le plus mauvais moteur du Web 🙂
  4. Linkkit reçoit ces données et analyse alors les connexions entre elles en s'aidant de la liste des liens sortants fournis par le moteur. Linkkit applique donc ses algorithmes propriétaires (protégés par brevet) en temps réel à un espace communautaire de pages traitant d'un même sujet pour produire le résultat.

Les algorithmes mis en œuvre par Linkkit appartiennent à la famille de l'"analyse relationnelle contextuelle". Ils ont été transposés à partir des indicateurs de "densité" et de "centralité" utilisés en sociologie dans l'analyse des réseaux sociaux. Transposés au monde du web, ces algorithmes ont été adaptés pour intégrer l'existence de "spam relationnel", décrit plus loin dans cet article.

Linkkit renvoie alors le "Top 500" initial au moteur, mais reclassé en fonction des interconnexions des documents : les pages considérées comme étant les plus pertinentes seront celles qui seront le plus souvent "pointées" par les pages du lot fourni. Le travail effectué ne présente donc aucune composante lexicale (prise en compte dans la première étape par le moteur lui-même) et est uniquement basé sur l'interconnectivité des documents à l'intérieur d'un lot de pages pour réorganiser un premier classement effectué par un moteur existant.

 

Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).