Within-document Frequency

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

WDF (Within-document Frequency) bedeutet die dokumentspezifische Gewichtung eines Wortes.

Die Formel für die Dokumentspezifische Wortgewichtung wurde von Donna Harman entwickelt um Worten, die in einem Dokument vorkommen, einen für die Informationswissenschaft nutzbaren Gewichtungswert zu geben. Dieser Gewichtungswert lässt sich zum Beispiel zusammen mit der Inversen Dokumenthäufigkeit (Inverse Document Frequency; IDF) und dem Gewichtungswert P zur einfachen Gewichtungsformel kombinieren. Mit dem WDF wird nicht die relative Häufigkeit eines Wortes im Dokument ermittelt, sondern ein gestauchter Wert, der besser verwendbar ist. Je höher die WDF eines Wortes ist, desto häufiger kommt dieses Wort im Dokument vor.

Die Formel



i=:Wort
j=:Dokument
L=:Gesamtzahl der Wörter in Dokument j
Freq(i,j)=:Häufigkeit des Wortes i im Dokument j

Erklärung zu „+1“: falls Freq(i,j) = 0 ist, erreicht man mit dem „+1“, dass im Zähler log2(1) = 0 steht.

Beispiel

Ein Dokument besteht aus 12000 Wörtern, also ist L=12000. Das Wort i kommt in diesem Dokument 23 mal vor, also ist Freq(i,j)=23.
Nun braucht man nur noch einsetzen und es entsteht:

Als Ergebnis erhält man den Gewichtungswert WDF(i)= 0,3 (gerundet), zum Vergleich ist die relative Häufigkeit des Wortes i hier etwa 0,1917 % ().

Im Bereich der Suchmaschinenoptimierung wird die Berechnung des Gewichtungswertes WDF genutzt, um die Relevanz der Webseite für eine Suchmaschine zu erhöhen. Gegenüber der einfachen Berechnung einer Suchwortdichte wird bei der Berechnung durch den eingesetzten Logarithmus beim WDF - Wert verhindert, dass das Suchwort eine zu starke Gewichtung erfährt.

WDF*IDF

In der Suchmaschinenoptimierung ist auch der Term WDF*IDF populär geworden (der ähnlich TF-IDF ist). Dabei wird die Relevanz eines Dokuments ins Verhältnis zum Wettbewerb gesetzt. IDF bezeichnet die inverse Dokumenthäufigkeit. Der IDF-Wert errechnet sich aus der Gesamtzahl aller indexierten, also der Suchmaschine bekannten Dokumente, geteilt durch die Anzahl all jener Dokumente, die den entsprechenden Suchbegriff enthalten. Das führt dazu, dass der (logarithmisch gestauchte) IDF-Wert umso höher ist, je weniger Dokumente es insgesamt zu dem jeweiligen Suchbegriff gibt. Umgekehrt gilt, dass der IDF-Wert gegen 1 sinkt, wenn das Suchwort bereits auf sehr vielen Seiten verwendet wird.

Die WDF*IDF-Formel ergibt, dass ein relevantes Dokument umso höher gewichtet wird, je seltener seine Themenkombination bislang behandelt wurde, da es dann den bereits bestehenden Inhalten neue und potenziell nützliche Informationen hinzufügt. Entsprechend erhalten Dokumente, die für den Suchbegriff zwar ebenfalls relevant sind, und damit einen hohen WDF-Wert besitzen, aber im Wesentlichen nur das wiederholen, was in anderen Dokumenten bereits geschrieben wurde, einen niedrigeren IDF-Wert und damit eine insgesamt niedrigere WDF*IDF-Gewichtung. Mit einem Wert nahe 1 fällt der IDF-Faktor in der Gleichung WDF*IDF als Rankingfaktor dann kaum noch ins Gewicht.

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Harman, Donna: Ranking algorithms. – In: William B. Frakes; Ricardo Baeza-Yates (Hrsg.): Information Retrieval.
    Data Structures & Algorithms. – Upper Saddle River, NJ: Prentice Hall PTR, 1992, 363–392.
  • Lecture Notes in Computer Science Vol. 1083 - Evaluating Natural Language Processing Systems von Karen Sparck Jones; Julia R. Galliers aus der Reihe Lecture Notes in Computer Science Vol. 1083. Berlin, Springer 1996.