Le microcosme SEO allemand est en effervescence actuellement autour du concept de "WDF*IDF", qui n'est rien d'autre qu'un dérivé du TF*IDF bien connu depuis de nombreuses années et qui fait partie intégrante des algorithmes de pertinence de Google et consorts. Alors qu'en est-il ? Est-ce vraiment nouveau et faut-il s'y attarder ou n'est-ce que de la poudre aux yeux ?... Voici quelques éléments de réponse...

Cet article fait partie de la Lettre Réacteur #155 du mois de janvier 2014

Début de l'article :

Depuis fin 2012, une "nouvelle" approche du référencement fait fureur au sein de la communauté SEO allemande : optimiser son contenu à l’aide de WDF*IDF. Les conférences sur le sujet et les billets de blogs se sont multipliés outre-Rhin, et la communauté anglo-saxonne commence à en parler. Mais de quoi s'agit-il ?

Nous allons voir que ce qu’ont découvert les allemands n’a rien de nouveau, que cette approche est déjà dépassée depuis longtemps et que cette méthode n’apporte pas grand-chose dans la pratique. C’est néanmoins l’occasion de reparler des méthodes de linguistique statistique utilisées par les moteurs de recherche. Bien connaître ces méthodes est un passage obligé pour être en mesure de comprendre les algorithmes d’un moteur de recherche, et pour mettre au point des techniques de référencement avancées.

Les origines de la formule WDF*IDF

La formule a été introduite par un référenceur allemand, Karl Kratz (photo ci-contre), en avril 2010, dans un billet de son blog à propos de la "densité de mots clés" (Cf. bibliographie en fin d'article). Mais c’est en réalité une conférence de Karl Kratz à Berlin fin 2012 qui a véritablement fait découvrir le concept à la communauté SEO allemande. Depuis lors, toutes les conférences SEO allemandes parlent de la formule et de ses applications.

Mais qu’est-ce que la formule WDF*IDF ?

En réalité, cette formule est plus connue dans le monde anglophone et francophone sous l’appellation : TF*IDF.

Cet acronyme signifie : Term Frequency * Inverse Document Frequency (Fréquence des termes * Inverse de la Fréquence dans les Documents). Certains auteurs préfèrent utiliser le terme WDF (Within Document Frequency : Fréquence au sein du Document) à la place de Term Frequency, pour mieux marquer la différence entre les deux termes de la formule.

...


Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).