WDF*IDF-Analyse

WDF*IDF-Analyse

Die WDF*IDF-Analyse misst die relative Gewichtung von Begriffen in einem Text gegenüber einer definierten Vergleichsmenge, um semantische Relevanzlücken aufzudecken und SEO-Inhalte datengetrieben zu optimieren.

Die WDF*IDF-Analyse (Within-Document Frequency × Inverse Document Frequency) ist eine Weiterentwicklung der klassischen TF*IDF-Metrik. Während TF*IDF nur die absolute Vorkommenshäufigkeit eines Terms betrachtet, normalisiert WDF die Häufigkeit logarithmisch innerhalb des Dokuments. Das Ergebnis ist ein deutlich robusteres Verfahren, um Keyword-Konzentrationen sichtbar zu machen, ohne Texte künstlich aufzublähen.

1. Formeln im Überblick

  • WDF (Within Document Frequency)
    WDFt,d=log⁡(tft,d+1)log⁡(Ld)WDFt,d​=log(Ld​)log(tft,d​+1)​
    tf = Anzahl des Terms t in Dokument d, L = Länge des Dokuments (Wörter).
  • IDF (Inverse Document Frequency)
    IDFt=log⁡ ⁣(Ndft)IDFt​=log(dft​N​)
    N = Anzahl aller Vergleichsdokumente, df = Dokumente, die t enthalten.
  • WDF*IDF
    Scoret,d=WDFt,d×IDFtScoret,d​=WDFt,d​×IDFt​

Durch die Multiplikation werden Terme hervorgehoben, die innerhalb des eigenen Textes häufig, aber außerhalb (im Korpus) selten sind – ein Indikator für thematische Differenzierung.

2. Typischer Workflow

  1. Korpus definieren
    Meist setzt man die Top-20 SERP-Ergebnisse für das Ziel-Keyword als Vergleichsmenge.
  2. Tokenisierung & Stoppwort-Filter
    Wörter werden vereinheitlicht (Case-Folding, Lemmatisierung), irrelevante Stoppwörter entfernt.
  3. Score-Berechnung
    Für jeden Term erhält man einen Soll-Wert (Median/Mean der SERP) und einen Ist-Wert (eigene URL).
  4. Gap-Analyse
    Über- oder Unterrepräsentationen identifizieren Content-Lücken.
  5. Redaktionelle Optimierung
    Fehlende semantische Konzepte werden sinnvoll in Überschriften, Absätzen oder FAQs ergänzt.

3. Beispiel-Tabelle (gekürzt)

TermSoll-ScoreIst-ScoreStatus
kundenbindung0,0280,015Unterdeckt
lifetime value0,0210,000Fehlend
churn-rate0,0090,014Überdeckt
newsletter0,0170,018Optimal

Interpretation: “lifetime value” fehlt komplett, sollte aber integriert werden; “churn-rate” ist leicht überrepräsentiert und kann ggf. zugunsten anderer Begriffe gekürzt werden.

4. Vorteile gegenüber klassischer Keyword-Dichte

  • Semantik statt Zählerei: Berücksichtigt Kontext und Vergleichskorpus.
  • Vermeidung von Keyword Stuffing: Logarithmische Skalierung dämpft Exzesse.
  • Data-Driven Copywriting: Objektive Kennzahlen erleichtern Abstimmung zwischen SEO- und Content-Teams.
  • SERP-Benchmarking: Zeigt, welche Begriffe in erfolgreichen Wettbewerber-Seiten dominieren.

5. Best-Practices zur Umsetzung

  • Thematische Cluster bilden: Analysiere Haupt- und Nebenkeywords separat, um Struktur zu wahren.
  • Nur relevante Terme ergänzen: Blindes “Nachstopfen” führt zu Lesbarkeitsverlust – Textqualität hat Vorrang.
  • Versionskontrolle: Vergleiche WDF*IDF vor und nach der Optimierung, um Effekte messbar zu machen.
  • Automatisierte Reports: Tools wie Ryte, Seolyze oder eigene Python-Skripte vereinfachen das Monitoring.
  • E-A-T beachten: Ergänze nicht nur Begriffe, sondern auch Expertise-Signale (Autor-Bio, Quellenangaben).

6. Grenzen & Fallstricke

  • Themen-Drift: Zu viele hinzugefügte Terme können den inhaltlichen Fokus verwässern.
  • Korpus-Bias: Falsche Vergleichsmenge liefert irreführende Soll-Werte.
  • Entitäten-Erkennung: WDF*IDF berücksichtigt keine Wortbeziehungen; hier helfen NLP-Techniken wie Word2Vec.

Fazit
Die WDF*IDF-Analyse ist ein präzises Werkzeug, um Content-Relevanz quantitativ zu bewerten und gezielt zu verbessern. Richtig eingesetzt stärkt sie thematische Tiefe, steigert Suchmaschinen-Visibilität und verhindert sowohl Keyword-Kannibalisierung als auch sinnentleertes Stuffing.