Die WDF*IDF-Analyse (Within-Document Frequency × Inverse Document Frequency) ist eine Weiterentwicklung der klassischen TF*IDF-Metrik. Während TF*IDF nur die absolute Vorkommenshäufigkeit eines Terms betrachtet, normalisiert WDF die Häufigkeit logarithmisch innerhalb des Dokuments. Das Ergebnis ist ein deutlich robusteres Verfahren, um Keyword-Konzentrationen sichtbar zu machen, ohne Texte künstlich aufzublähen.
1. Formeln im Überblick
- WDF (Within Document Frequency)
WDFt,d=log(tft,d+1)log(Ld)WDFt,d=log(Ld)log(tft,d+1)
tf = Anzahl des Terms t in Dokument d, L = Länge des Dokuments (Wörter). - IDF (Inverse Document Frequency)
IDFt=log (Ndft)IDFt=log(dftN)
N = Anzahl aller Vergleichsdokumente, df = Dokumente, die t enthalten. - WDF*IDF
Scoret,d=WDFt,d×IDFtScoret,d=WDFt,d×IDFt
Durch die Multiplikation werden Terme hervorgehoben, die innerhalb des eigenen Textes häufig, aber außerhalb (im Korpus) selten sind – ein Indikator für thematische Differenzierung.
2. Typischer Workflow
- Korpus definieren
Meist setzt man die Top-20 SERP-Ergebnisse für das Ziel-Keyword als Vergleichsmenge. - Tokenisierung & Stoppwort-Filter
Wörter werden vereinheitlicht (Case-Folding, Lemmatisierung), irrelevante Stoppwörter entfernt. - Score-Berechnung
Für jeden Term erhält man einen Soll-Wert (Median/Mean der SERP) und einen Ist-Wert (eigene URL). - Gap-Analyse
Über- oder Unterrepräsentationen identifizieren Content-Lücken. - Redaktionelle Optimierung
Fehlende semantische Konzepte werden sinnvoll in Überschriften, Absätzen oder FAQs ergänzt.
3. Beispiel-Tabelle (gekürzt)
Term | Soll-Score | Ist-Score | Status |
---|---|---|---|
kundenbindung | 0,028 | 0,015 | Unterdeckt |
lifetime value | 0,021 | 0,000 | Fehlend |
churn-rate | 0,009 | 0,014 | Überdeckt |
newsletter | 0,017 | 0,018 | Optimal |
Interpretation: “lifetime value” fehlt komplett, sollte aber integriert werden; “churn-rate” ist leicht überrepräsentiert und kann ggf. zugunsten anderer Begriffe gekürzt werden.
4. Vorteile gegenüber klassischer Keyword-Dichte
- Semantik statt Zählerei: Berücksichtigt Kontext und Vergleichskorpus.
- Vermeidung von Keyword Stuffing: Logarithmische Skalierung dämpft Exzesse.
- Data-Driven Copywriting: Objektive Kennzahlen erleichtern Abstimmung zwischen SEO- und Content-Teams.
- SERP-Benchmarking: Zeigt, welche Begriffe in erfolgreichen Wettbewerber-Seiten dominieren.
5. Best-Practices zur Umsetzung
- Thematische Cluster bilden: Analysiere Haupt- und Nebenkeywords separat, um Struktur zu wahren.
- Nur relevante Terme ergänzen: Blindes “Nachstopfen” führt zu Lesbarkeitsverlust – Textqualität hat Vorrang.
- Versionskontrolle: Vergleiche WDF*IDF vor und nach der Optimierung, um Effekte messbar zu machen.
- Automatisierte Reports: Tools wie Ryte, Seolyze oder eigene Python-Skripte vereinfachen das Monitoring.
- E-A-T beachten: Ergänze nicht nur Begriffe, sondern auch Expertise-Signale (Autor-Bio, Quellenangaben).
6. Grenzen & Fallstricke
- Themen-Drift: Zu viele hinzugefügte Terme können den inhaltlichen Fokus verwässern.
- Korpus-Bias: Falsche Vergleichsmenge liefert irreführende Soll-Werte.
- Entitäten-Erkennung: WDF*IDF berücksichtigt keine Wortbeziehungen; hier helfen NLP-Techniken wie Word2Vec.
Fazit
Die WDF*IDF-Analyse ist ein präzises Werkzeug, um Content-Relevanz quantitativ zu bewerten und gezielt zu verbessern. Richtig eingesetzt stärkt sie thematische Tiefe, steigert Suchmaschinen-Visibilität und verhindert sowohl Keyword-Kannibalisierung als auch sinnentleertes Stuffing.