WDF*IDF-Analyse

Die WDF*IDF-Analyse misst die relative Gewichtung von Begriffen in einem Text gegenüber einer definierten Vergleichsmenge, um semantische Relevanzlücken aufzudecken und SEO-Inhalte datengetrieben zu optimieren.

Die WDF*IDF-Analyse (Within-Document Frequency × Inverse Document Frequency) ist eine Weiterentwicklung der klassischen TF*IDF-Metrik. Während TF*IDF nur die absolute Vorkommenshäufigkeit eines Terms betrachtet, normalisiert WDF die Häufigkeit logarithmisch innerhalb des Dokuments. Das Ergebnis ist ein deutlich robusteres Verfahren, um Keyword-Konzentrationen sichtbar zu machen, ohne Texte künstlich aufzublähen.

1. Formeln im Überblick

WDF (Within Document Frequency)
WDFt,d=log⁡(tft,d+1)log⁡(Ld)WDFt,d=log(Ld)log(tft,d+1)
tf = Anzahl des Terms t in Dokument d, L = Länge des Dokuments (Wörter).
IDF (Inverse Document Frequency)
IDFt=log⁡ ⁣(Ndft)IDFt=log(dftN)
N = Anzahl aller Vergleichsdokumente, df = Dokumente, die t enthalten.
WDF*IDF
Scoret,d=WDFt,d×IDFtScoret,d=WDFt,d×IDFt

Durch die Multiplikation werden Terme hervorgehoben, die innerhalb des eigenen Textes häufig, aber außerhalb (im Korpus) selten sind – ein Indikator für thematische Differenzierung.

2. Typischer Workflow

Korpus definieren
Meist setzt man die Top-20 SERP-Ergebnisse für das Ziel-Keyword als Vergleichsmenge.
Tokenisierung & Stoppwort-Filter
Wörter werden vereinheitlicht (Case-Folding, Lemmatisierung), irrelevante Stoppwörter entfernt.
Score-Berechnung
Für jeden Term erhält man einen Soll-Wert (Median/Mean der SERP) und einen Ist-Wert (eigene URL).
Gap-Analyse
Über- oder Unterrepräsentationen identifizieren Content-Lücken.
Redaktionelle Optimierung
Fehlende semantische Konzepte werden sinnvoll in Überschriften, Absätzen oder FAQs ergänzt.

3. Beispiel-Tabelle (gekürzt)

Term	Soll-Score	Ist-Score	Status
kundenbindung	0,028	0,015	Unterdeckt
lifetime value	0,021	0,000	Fehlend
churn-rate	0,009	0,014	Überdeckt
newsletter	0,017	0,018	Optimal

Interpretation: “lifetime value” fehlt komplett, sollte aber integriert werden; “churn-rate” ist leicht überrepräsentiert und kann ggf. zugunsten anderer Begriffe gekürzt werden.

4. Vorteile gegenüber klassischer Keyword-Dichte

Semantik statt Zählerei: Berücksichtigt Kontext und Vergleichskorpus.
Vermeidung von Keyword Stuffing: Logarithmische Skalierung dämpft Exzesse.
Data-Driven Copywriting: Objektive Kennzahlen erleichtern Abstimmung zwischen SEO- und Content-Teams.
SERP-Benchmarking: Zeigt, welche Begriffe in erfolgreichen Wettbewerber-Seiten dominieren.

5. Best-Practices zur Umsetzung

Thematische Cluster bilden: Analysiere Haupt- und Nebenkeywords separat, um Struktur zu wahren.
Nur relevante Terme ergänzen: Blindes “Nachstopfen” führt zu Lesbarkeitsverlust – Textqualität hat Vorrang.
Versionskontrolle: Vergleiche WDF*IDF vor und nach der Optimierung, um Effekte messbar zu machen.
Automatisierte Reports: Tools wie Ryte, Seolyze oder eigene Python-Skripte vereinfachen das Monitoring.
E-A-T beachten: Ergänze nicht nur Begriffe, sondern auch Expertise-Signale (Autor-Bio, Quellenangaben).

6. Grenzen & Fallstricke

Themen-Drift: Zu viele hinzugefügte Terme können den inhaltlichen Fokus verwässern.
Korpus-Bias: Falsche Vergleichsmenge liefert irreführende Soll-Werte.
Entitäten-Erkennung: WDF*IDF berücksichtigt keine Wortbeziehungen; hier helfen NLP-Techniken wie Word2Vec.

Fazit
Die WDF*IDF-Analyse ist ein präzises Werkzeug, um Content-Relevanz quantitativ zu bewerten und gezielt zu verbessern. Richtig eingesetzt stärkt sie thematische Tiefe, steigert Suchmaschinen-Visibilität und verhindert sowohl Keyword-Kannibalisierung als auch sinnentleertes Stuffing.

zurück

0221 / 294 66 25 info[at]rheinformat.com