Рейтинг SEO анализаторов текста или какой ТА лучше использовать для SEO оптимизации.

Казалось бы, текстовый анализ в SEO - дело привычное. Но не спешите с выводами! С появлением нейросетей вроде BERT и GPT мир поисковой оптимизации перевернулся с ног на голову. Возникает вопрос: насколько актуальны старые добрые методы в новых реалиях? Запасайтесь попкорном, статья будет длинной, с картинками, графиками и кодом.

Работает ли вообще текстовый анализ (ТА) в эпоху накрутки ПФ?

Отвечу двумя доводами, сначала на языке фактов. То, что вы видите на рисунке - это схема обучения YATI - нейросети от Яндекса которая сейчас используется на поиске. Обратите внимание, что при обучении, использовались, как ни странно, тексты.

Рейтинг SEO анализаторов текста или какой ТА лучше использовать для SEO оптимизации.

Ну и второе, допустим, крутите вы ПФ сайту, а он зараза такая не лезет в ТОП, пишет создателю чудо софта "Уважаемый, ваш софт не работает", а в ответ вам приходит "Ваш сайт плохо оптимизирован, добавьте вхождений ключевых фраз и LSI слов, поработайте с метатегами. Как-то так)

Любой SEO Текстовый анализатор работает работает по принципу, взял текст, оцифровал, что-то посчитал, с чем-то сравнил и выдал некие цифры, графики. таблицы либо ТЗ на копирайтинг.
Любой SEO Текстовый анализатор работает работает по принципу, взял текст, оцифровал, что-то посчитал, с чем-то сравнил и выдал некие цифры, графики. таблицы либо ТЗ на копирайтинг.

Все ТА по принципу действия можно разделить на 3 большие группы:

Классические методы (tf/idf): динозавры, которые всё ещё живы

Помните времена, когда SEO было простым, как дважды два? Раскидал ключи по тексту, купил ссылок — и ты в топе! 😅 Так вот, метод tf/idf — это как раз из той эпохи. Яндекс использовал его до 2016 года. Да-да, вы не ослышались — 2016!

Как это работает:

1. TF (term frequency) - считаем, сколько раз слово встречается в тексте.

2. IDF (обратная частота документа) — смотрим, насколько это слово редкое в целом.

3. Умножаем одно на другое - вуаля, важность слова готова!

Пример для гиков: допустим, слово «SEO» встречается 5 раз в тексте из 100 слов. TF = 5/100 = 0,05 В интернете 1 000 000 документов, «SEO» встречается в 1000 из них. IDF = log(1 000 000/1 000) = 3 TF-IDF = 0,05 * 3 = 0,15

Звучит просто? Так и есть! Но у этого подхода есть свои подводные камни:

  • Игнорирует контекст (а он важен, поверьте!)
  • Не учитывает порядок слов (а это иногда критично)
  • Как и кто его посчитал внутри своего текстового анализатора – одному богу известно.
  • Как давно и насколько корректно собиралась база idf тоже непонятно.

Но не спешите хоронить tf/idf! Некоторые ТА до сих пор его используют:

Анализаторы на основе количественных метрик: или Доколумбова эпоха

Как они работают? Берут ключевое слово, смотрят на сайты в топе и считают всё, что можно посчитать, желательно ещё в разных зонах документов. Например:

  • "Пластиковое окно" встречается 40 раз
  • "Окна" - 50 раз
  • "Подоконник" - 15 раз

На основе этих данных они создают «идеальный» текст для SEO.

Cтоп! А что, если сайты в топе — не лучший пример? 🤔 Может, они там из-за накрутки ПФ или ссылок?

Ограничения этого подхода:

  • Контекст? Не, не слышали (опять!)
  • Неясно на какие сайты из ТОПа ориентироваться
  • Качество контента? А это ещё что такое?

Нейросетевые анализаторы: будущее уже наступило!

А теперь держитесь крепче, потому что мы вступаем в мир искусственного интеллекта! 🤖

Простые нейросети (2013-2018): слова становятся векторами

Представьте, что каждое слово — это точка в многомерном пространстве. Близкие по смыслу слова находятся рядом. Например, «кот» и «кошка» будут соседями, а «автомобиль» — где-то далеко.

Как это работает на практике? Используется косинусная близость - мера сходства между векторами. Значения от 0,2 до 1, где 1 - полное совпадение.

Пример для гиков: A = [1, 2, 3] ("кошка") B = [2, 3, 4] ("кот")

Проводим расчеты: (A • B) / (||A|| * ||B||) = 0.9925

Итого, косинусная близость = 0.9925 (очень похожи!)

Но и у этого подхода есть проблемы:

  • Не учитывает контекст (опять двадцать пять!)
  • Каждое слово имеет только одно значение (а как же многозначные слова?)
  • Вопрос «свежести» базы, неологизмы появляются каждый день, кто знал про квадробоберов года назад?

Трансформеры (с 2018 года): революция в мире NLP

В 2018 году появился BERT, и мир NLP перевернулся! Теперь нейросети могут понимать контекст и даже улавливать нюансы языка.

Как это работает?

1. Энкодер (BERT) "сжимает" текст, сохраняя ключевую информацию.

2. Декодер (GPT) может "разжать" это представление (промпт) и создать новый текст.

Ключевая фишка - механизм внимания (attention). Представьте, что вы читаете предложение и обращаете внимание на разные слова, чтобы понять смысл. Трансформеры делают то же самое!

Что это дает для SEO?

  • Лучшее понимание намерения пользователя
  • Более точный анализ релевантности страницы
  • Возможность создавать тексты, которые реально отвечают на запросы пользователей
Рейтинг SEO анализаторов текста или какой ТА лучше использовать для SEO оптимизации.

В следующей части мы сравним все эти инструменты и посмотрим, кто же победит в битве анализаторов! Готовы к самому интересному? 🏆

Какой ТА лучше, JustMagic, RushAnalytics, GAR Антона Маркина, Megaindex или может Chat GPT?

Ну что, готовы к самому сочному? 🍖 Сейчас мы устроим настоящий батл между текстовыми анализаторами!

Будем сравнивать по ряду критериев, основной из которых - наличие семантически связанных SRW (LSI) слов. О влиянии этих слов на релевантность текста я провел мини эксперимент и выложил результаты у себя в телеграм канале. Спойлер - влияют!

Как мы это делали:

1. Выбрали ключевую фразу «окна ПВХ» (классика жанра, ничего не скажешь 😅)

2. Прогнали её через каждый анализатор, выгрузили LSI слова.

3. Взяли первые 50 фраз, которые выдал каждый инструмент

4. Измерили косинусную близость между нашим ключом и полученными SRW(LSI) словами

5. Посчитали среднее значение косинусной близости пар ключ/SRW слово

6. За нулевую точку (максимально нерелевантный текст) мы взяли текст про Большой театр.

Рейтинг SEO анализаторов текста или какой ТА лучше использовать для SEO оптимизации.

А ещё мы оценили удобство использования, полноту анализа и стоимость. Потому что, знаете ли, не косинусной близостью единой жив SEO-шник!

Результаты

Рейтинг SEO анализаторов текста или какой ТА лучше использовать для SEO оптимизации.

Не буду утомлять вас всеми цифрами (если интересно, загляните в таблицу), но вот самые сочные выводы:

1. Эффективность алгоритмов:

Нейросетевые анализаторы (vector_keywords_bot, ChatGPT-4o) показали релевантность - 97-100%! Да да! ChatGPT-4o вытащил LSI слова чуть ли не лучше остальных! Ссылка на секретный промпт в конце статьи!

Классические tf/idf (artur2k, SEO-лемма, GAR) — 87-97%

Анализаторы на основе количественных показателей — 73-93%

2. Полнота анализа:

Большинство инструментов дают достаточно полный набор слов (4-5 из 5)

Арсенкин немного подкачал (3 из 5). Видимо, решил не переусердствовать 😉

3. Удобство использования:

GAR получил высший балл (5 из 5). Видимо, создатели думали не только о функционале, но и о пользователях!

Остальные инструменты получили 3-4 балла. Неплохо, но есть куда расти

4. Стоимость и доступность:

Большинство анализаторов платные. Ну а вы чего хотели? Качество стоит денег!

Miratext, vector_keywords_bot и ChatGPT 4o1-mini предлагают бесплатный доступ. Отличный вариант для начинающих или тех, кто на мели 💸

5. Наличие вхождений:

Большинство анализаторов показывают наличие вхождений ключевых слов.

6. Дополнительный фактор "Faith":

GAR и JustMagic получили дополнительный балл за "веру" в инструмент. Сами знаете, "сделал, посмотрел, помолился" 😄

Общие выводы:

1. Нейросетевые анализаторы рулят по релевантности, но пока проигрывают по юзабилити тому же GAR

2. Классические tf/idf всё ещё в игре и могут дать фору молодым

3. Выбор инструмента зависит от ваших потребностей, бюджета и любви к интерфейсам

4. Комбинирование разных типов анализаторов может дать самый сок

Рекомендации:

1. Хотите точности? Берите нейросетевые анализаторы типа vector_keywords_bot или ChatGPT 4o

2. Нужен комплексный анализ и удобство? GAR - ваш выбор

3. Начинающим или экономным - Miratext или vector_keywords_bot

4. Работаете с нестандартными текстами? Комбинируйте несколько анализаторов

Помните, что выбор анализатора — это как выбор инструмента для ремонта. Молоток может и гвоздь забить, и стену разрушить. Главное — знать, когда и как его использовать!

В следующей части мы поговорим о том, как применить все эти знания на практике. Готовы оптимизировать тексты по-новому?

Секретный промпт

PS Ну и обещанный секретный промпт от ChatGPT, который соверешеннонеожиданно показал один из лучших результатов тут!

Спасибо за внимание!

Подписывайтесь на мой канал Python SEO 2 Нейрона в котором я, доступным языком, на примерах объясняю как работают нейросети и как это использовать в SEO.

66
7 комментариев

Не всё так просто.
Да, Яндекс свои нейросетевые технологии с размаху для всего подряд начал использовать. Но самые базовые алгоритмы у него никуда не делись и до сих пор в приоритете. Ну вот тупо берем посадку, которая никак не хочет выше топ-30 заходить. Ассортимент сравнимый с топовыми, хост старый, всё как у людей - кроме текстовых метрик.
Семантический анализ показывает высокую релевантность (иной раз и повыше топовых), а вот на уровне BM25 - недобор или перебор. Исправляем, получаем результат. И вот так на чистом синтаксисе получаем рост.
А на уровне семантики - нет, потому что там и текста как такового нету, разве что мусорный plain-text внизу, который вообще лучше удалить нафиг.

Согласен на все 100% главный инструмент SEOшника мозг. Просто было интересно посмотреть, что там они считают. Нуи разныезоны документяони по разному, для Тайтлов судя по сливам до сих пор BM25

1

Секретный промпт разочаровал. Но подписку не аннулирую пока.

Я надеюсь эта единственная капля дёгтя не испортит весь тот экспертный контент который я публикуюна канале )

1