tf*idf est le nom consacré pour la mesure du poids des mots dans le modèle vectoriel de Salton…
tf (term frequency), mesure du nombre de fois où un terme apparait dans un document donné. I.e. nombre d'occurences du terme dans le document sur le nombre de termes (en comptant les différentes occurences d'un même terme) dans le document
df (document fréquency) nombre de documents différents dans lesquels on retrouve un terme donné
idf inverse de la fréquence des documents, en générale considérée car permet de relativiser la fréquence des termes puisque certains sont plus ou moins fréquents dans la langue. Mesure l'“importance” d'un terme dans un corpus.
Il existe pas mal de variantes de la formule, la plus répandue est :
tf*idf = log ( N / df ) avec N = nombre de documents dans le corpus.
On prend le log car le ratio N / df peut prendre des valeurs très grandes.
Les poids sont utilisés comme des coordonnées dans l'espace vectoriel de Salton.