De l’indexation des mots clés à l’indexation des concepts (2ème partie)

Depuis que les moteurs de recherche existent, le référencement existe. Mais les moteurs ont grandement évolué depuis près de 20 ans. D’un système « simple » d’indexation de mots clés isolés, ils sont passés à la détection de syntagmes, de synonymes puis aujourd’hui aux entités nommées et aux « index de concepts »… Nous continuons ce mois-ci notre exploration de ces technologies avec la seconde partie de notre article. Une évolution que les référenceurs devront prendre en compte à l’avenir pour s’adapter aux progrès toujours plus importants que font les moteurs de recherche pour mieux analyser le Web et rendre leurs résultats toujours plus pertinents…

Cet article fait partie de la Lettre Réacteur #139 du mois de juillet-août 2012

Début de l’article :

Identifier les entités nommées : une étape de plus dans l’indexation

La « reconnaissance des entités nommées », que nous avons souvent évoquée dans la lettre d’Abondance, est une technique permettant non seulement d’identifier au sein des pages web (et des requêtes) des noms de personne, de lieux, des marques, des numéros de téléphone, des raisons sociales de société etc., mais aussi d’identifier que les termes « Michael Jackson » font allusion, selon les pages, soit à un plombier du Bronx qui porte ce nom, soit à la Popstar.

Pour pouvoir utiliser cette information dans un moteur de recherche, il convient d’ajouter une étape supplémentaire de « balisage » (tagging) dans le processus d’indexation. Nous avons vu que dans le processus traditionnel, beaucoup d’étapes avaient pour objectif de supprimer des signaux, du code et des caractères inutiles. Ce processus de « toilettage » et de « normalisation » ou de « standardisation » est un processus qui détruit de l’information. Là, au contraire, il s’agit d’ajouter de l’information à la page : on part d’un texte non structuré, et on ajoute de l’information structurée.

Exemple de taggage (balisage sémantique) sur le terme Paris : dans le premier cas, le terme est étiqueté comme correspondant à une référence à la ville de Paris, dans le deuxième cas à la célébrité Paris Hilton.

On peut ensuite générer un index spécialisé en stockant pour chaque entité nommée les pages qui les contiennent, et compléter l’index inversé avec ces informations : ainsi, pour renvoyer les pages qui parlent de Michael Jackson, on pourra chercher dans les pages associées à l’entité nommée « Michael Jackson » comme dans les pages qui contiennent « Michael Jackson ».

La suite est réservée à nos abonnés. Déjà abonné ? Se connecter
Envie de lire la suite ?

-10% sur nos Abonnements de 6 mois et + avec le code :

JEVEUXPASPAYERPLEINPOT

Apprenez auprès des meilleurs experts, grâce à leurs partages de connaissances et leurs retours d’expérience.

Canalplus
Saint-Gobain
Radio France
Orange
Inserm
CCI Paris
Cultura
Harmonie Mutuelle
Quechua
Ajouter un commentaire Ajouter un commentaire

Article précédent

Faire de la veille concurentielle avec Google Adwords (et autres)

Article suivant

Revue d'URL (septembre 2012)