TF-IDF

Term Frequency — Inverse Document Frequency

Метод оценки значимости слова в тексте относительно других документов.

TF-IDF — формула из двух частей. TF (term frequency) — как часто слово встречается в тексте. IDF (inverse document frequency) — насколько слово редкое во всей коллекции. Перемножив их, получаем вес: высокий — у слов, которые часто в этом тексте, но редки в остальных, то есть характерны именно для темы.

В SEO TF-IDF используют, чтобы понять, какими словами и формулировками топовые тексты раскрывают тему, и каких терминов не хватает вашему контенту. Это помощник для полноты раскрытия, а не прямой фактор ранжирования — поисковики давно считают релевантность сложнее, в том числе через эмбеддинги и LSI.

Суть
вес слова

Оценка значимости термина для конкретного текста

Формула
TF × IDF

Частота в тексте делится на распространённость в корпусе

Зачем
найти нехватку

Подсказывает, каких слов мало против топа конкурентов

TF-IDF помогает закрыть контентный разрыв
Пример

Слово «амортизатор» встречается в твоём тексте 8 раз, но редко на сайтах конкурентов — TF-IDF считает его значимым для темы. Добив такие слова, ты закрываешь контентный разрыв и обходишь топ.