La méthode LDA (pour Latent Dirichlet Allocation) est une méthode qui permet de détecter et d'isoler des concepts et des relations sémantiques entre différents termes dans les documents. Elle a supplanté depuis plusieurs années LSI (Latent Semantic Indexing) souvent présentée - à tort - comme au coeur de l'algorithme de Google. Cet article a pour but de vous présenter LDA et pose la question de son éventuelle utilisation par le moteur de recherche leader, et bien sûr des implications que cela amène en SEO / référencement naturel...
Cet article fait partie de la Lettre Réacteur #129 du mois de septembre 2011
Début de l'article :
Il y a bientôt cinq ans, j'avais eu l'occasion de dénoncer l'utilisation de la méthode LSI (Latent Semantic Indexing) comme argument de vente par des agences SEO, essentiellement indiennes et américaines. LSI était une méthode permettant d'isoler, au milieu du "bruit", les relations sémantiques entre des termes. Or l'utilisation de LSI par Google semblait peu crédible, compte tenu des inconvénients et des limites de la méthode.
Une autre méthode l'a supplantée assez vite (dès 2003) : la méthode LDA (Latent Dirichlet Allocation). Or, LDA fournit des résultats beaucoup plus facile à réutiliser dans un algorithme de moteurs, et l'utiliser à grande échelle est envisageable. Ce qui est clair, c'est que LDA est réellement utilisée aujourd'hui pour des applications d'extraction d'information, en particulier sur la découverte des "sujets" abordés dans les documents.
SEOMoz a largement contribué à populariser LDA l'année dernière en annonçant que les classements de Google et LDA étaient remarquablement corrélés (http://www.seomoz.org/blog/lda-and-googles-rankings-well-correlated). Nous verrons plus loin ce que l'on doit penser de cette affirmation.
Mais commençons d'abord par rappeler ce que ce sont ces méthodes de calcul, et à quoi elles servent exactement.
Latent Semantic Indexing : une méthode déjà obsolète en 2005
La méthode LSI (aussi parfois appelée LSA), est toujours présentée par des agences, soit comme la clé de l'algorithme de Google ("Google utilise LSI pour classer ses résultats, donc nous allons optimiser votre site pour l'algorithme LSI"), soit comme mot magique pour valider que leurs méthodes de référencement sont "à la pointe" ("nos algorithmes sophistiqués utilisent l'algorithme LSI pour calculer les optimisations appropriées"). Soyons clairs : ces arguments sont fallacieux, et relèvent même dans certains cas de la tromperie manifeste (la méthode LSI n'est pas vraiment utilisée pour déterminer le contenu optimisé, on cherche juste à adapter le texte au contexte pour qu'il réponde à ce que l'on a compris de la méthode LSI).
...
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).