Почему «Яндекс» понижает в выдаче страницы с некачественными текстами и как этого избежать

Руководитель лаборатории поисковой аналитики компании «Ашманов и партнёры» рассказал, за что наказывает сайты алгоритм «Баден-Баден» и как улучшить качество текстов с помощью сервиса «Тургенев».

«Баден-Баден» — это хорошо

Поисковики активно формируют ландшафт интернета. Заповедных лесов, в которых водятся дикие сайты, чьи создатели не думают о поисковых запросах, уже почти не осталось. Всё перепахано, удобрено и засеяно квадратно-гнездовым методом.

Все ссылки, включая естественные, нажиты упорным трудом. Все слова посчитаны — не только ключевые, но и их синонимы, дополнения к запросам (которые «Яндекс» выделяет в сниппетах), LSI-семантика.

И пейзаж этот уныл. Граница между поисковым спамом, пытающимся манипулировать выдачей, и обычными сайтами стёрта. Манипулировать пытаются все. Искусственные тексты часто ужасны. Они и так были бы плохо написаны, потому что пишут их неизвестно кто, зачем и для кого, а тут ещё добавляется необходимость употребить слова запроса по 30 раз (для коммерческих запросов).

Хорошо, что «Яндекс» это осознал. Лес, конечно, уже не вернуть, но хоть почву рекультивировать ещё не поздно.

В 2015 году был выпущен алгоритм «Минусинск», наказывающий за покупные ссылки. И ссылки сначала со скрипом, а потом и с энтузиазмом стали снимать. В 2017 году «Яндекс» добрался до SEO-текстов. Новый алгоритм «Баден-Баден» грозит понижением позиций сайтам с переоптимизированными, неестественными, бесполезными для пользователей текстами.

За что сейчас наказывают

Чтобы попасть под санкции алгоритма, нужно сильно отличиться. Так поначалу было и со ссылками — наказывали понемногу, дозированно, чтобы не просадить релевантность поисковой выдачи.

Мы не всегда знаем, из-за чего понизились позиции сайта в выдаче и поспособствовал ли этому «Баден-Баден». «Яндекс» описывает критерии своего фильтра общими словами, владельцев сайтов информирует ограниченно, техподдержка темнит, отвечая на вопросы.

Фильтр может накладываться на отдельные страницы — в этом случае вебмастера никаких уведомлений не получают, о наличии санкций нужно догадаться самим по просевшему трафику. Если наберётся много текстов, которые нарушают условия алгоритма «Баден-Баден», фильтр может быть наложен на сайт в целом.

В этом случае появляется уведомление в «Яндекс.Вебмастере», но на какие именно страницы наложены санкции, там всё равно не говорится. Можно задать вопрос техподдержке, и, скорее всего, на него даже ответят и дадут ссылку на одну «плохую» страницу. Но эта страница часто ничем не выделяется среди остальных, поэтому ясности это не вносит.

Мы искали сведения о сайтах и страницах, которые были понижены в выдаче из-за алгоритма «Баден-Баден», но реальных примеров нашли мало. Несколько клиентов нашей компании, несколько сообщений от владельцев сайтов (часть из них сомнительные: в техподдержку не обращались или не получили ответа) и три десятка кейсов из открытых источников.

Обычная жертва «Баден-Баден» — коммерческий сайт (не информационный), у которого на страницах разделов, а часто и на главной, наряду со списками товаров или услуг лежат совершенно ужасные тексты: почти целиком состоящие из SEO-штампов и «воды». Такие тексты плохо написаны, часто переоптимизированны, содержат ключевые слова в неестественном порядке или в неестественных сочетаниях.

Пример

Зимние удилища для увлекательной рыбалки со льда предлагает купить наш интернет-магазин рыболовных товаров. Зимняя рыбалка является излюбленным развлечением множества россиян, позволяя проводить время на свежем воздухе за приятным занятием даже в морозные дни. Поэтому удилища соответствующего назначения обязательно имеются в арсенале уважающего себя рыболова.

Купить зимнее удилище в интернет-магазине по доступным ценам легко и выгодно. А если почитать наш обзор про разновидности зимних удилищ, то сделать выбор будет еще проще! Зимние удилища для блеснения имеют универсальное назначение, смогут справиться с увесистой и активной рыбой, попавшейся на крючок.

Если читателя от этого образца не коробит, то он счастливый человек, но ему лучше ничего не писать самому и не принимать работу копирайтеров.

Если задать в техподдержку «Яндекса» вопрос, за что сайт понижен в выдаче, то в ответном письме, скорее всего, будет ссылка на другую, более нейтральную страницу, к которой у робота тоже есть претензии, но гораздо менее серьёзные.

Стоит проверить, есть ли на главной странице или в разделах что-то похожее на текст про удилище. Начать надо с исправления подобных текстов. Со страницей, присланной техподдержкой «Яндекса», тоже придётся разбираться, поэтому лучше принять меры заранее и не попадать под фильтр вообще.

Как мы придумали «Тургенева»

Мы уже три года занимаемся мониторингом факторов ранжирования в «Яндексе» и Google. Количество параметров, за которыми мы следим, вплотную приблизилось к 500, и теперь среди них есть не только те, которые отвечают за риск «Минусинска», но и те, которые отвечают за риск «Баден-Бадена».

Наш мониторинг имеет прикладную задачу — его результаты используются при продвижении клиентских сайтов. Мы автоматически оцениваем, каких слов не хватает на каждой продвигаемой странице и в отдельных её зонах, и строим рекомендации для копирайтеров по доработке текстов. Да, мы тоже косвенно вносим свой вклад в деградацию ландшафта интернета, но без этого страницы сайтов просто не попадают в топ.

Оказалось, что нужно не только что-то добавить, но и что-то убрать или переделать. Мы не могли этим не заняться и в целом решили проблему: почти все известные нам примеры сайтов, попавших под фильтр, неплохо «ловятся», и при этом для хороших текстов редко показывается высокий риск.

Мы оцениваем риск «Баден-Бадена» достаточно условно. Мы не «Яндекс» и считаем не так, как он. Вместо машинного обучения у нас формулы и словари. Но вспомним, с чего всё начиналось.

Наша главная задача — оценить качество текста, его естественность и возможную переоптимизированность. И это лучше делать, разбив целое на отдельные слагаемые. Тем самым мы не просто скажем, что текст плох и не нравится роботу, мы сможем объяснить, чем именно он плох и поможем его исправить.

Когда мы научились отделять зёрна от плевел, возникла мысль, что нам не жалко поделиться своими результатами со всеми желающими и сделать бесплатный сервис. Правда, пока только для проверки текстов (а не сайтов в целом и даже не веб-страниц), что несколько ограничивает его возможности.

Во-первых, некоторые параметры зависят от контекста: например, нормальная «водность» у текстов про поисковую оптимизацию и про бурение скважин на воду несколько различается. Во-вторых, довольно важный фактор — размер текстового блока, но он действует только для коммерческих страниц и только в контексте конкретных запросов: если он заметно больше, чем у конкурентов, это создает заметный дополнительный риск.

Мы решили, что пусть нашим клиентам будет доступно всё, а остальным — многое. Сервис и с этими ограничениями, кажется, получился довольно полезным.

Мы долго размышляли, как назвать «Тургенева» (тогда ещё безымянного), но когда пришли к нынешнему названию, сразу поняли, что оно правильное. Во-первых, Тургенев — как настоящий, так и апокрифический — тесно связан с Баден-Баденом. Во-вторых, мы вместе с «Яндексом» боремся за чистоту русского языка.

Как «Тургенев» оценивает текст

Текст может получить штрафные баллы по одному или нескольким параметрам. Баллы суммируются: чем их больше, тем выше риск. От пяти баллов мы считаем риск средним, от восьми — высоким, от 13 — критическим. Две основные группы параметров связаны с переоптимизацией (повторы) и качеством текста (стилистика).

Оценка текста главной страницы магазина Wildberries сервисом «Тургенев»
Оценка текста главной страницы магазина Wildberries сервисом «Тургенев»

«Академическая тошнота» — параметр, зависящий от количества повторов слов. Чем чаще слово повторяется, тем больший вклад вносит, но учитываются и более редкие повторы.

«Сверхчастые слова» свидетельствуют о перекошенности статистической картины частот слов. Например, если какое-то содержательное слово встречается чаще, чем предлоги, это вызывает подозрения и может говорить о переоптимизации текста.

«Сверхконцентрация "и"» — если союзов «и» в тексте слишком много, это может говорить о том, что автор злоупотребляет сочинительными рядами («легко и выгодно», «увесистая и активная рыба»).

«Плотность стилистических проблем» — количество стилистических «квантов», полученных текстом, делённое на его длину в словах. Каждое слово, если оно входит в сочетания, которые мы считаем проблемными, в зависимости от тяжести этих проблем получает от одного до трёх очков (квантов).

Мы считаем общее количество квантов и делим его на количество слов. Если результат выше 0,1, ставятся штрафные баллы. Если же он превышает 0,25, уже за одно это текст получает восемь баллов, что соответствует высокому риску попадания под фильтр.

«Количество стилистических проблем» — если текст получил больше ста стилистических квантов, ему ставятся дополнительные штрафные баллы. Получить высокую долю проблем на длинном тексте — большее достижение, чем получить её же на коротком.

Параметр позволяет косвенно учесть длину текстового блока, которая важна для коммерческих запросов. Так что если текст (и запрос, по которому он должен находиться) информационный, а доля проблем невелика, баллы, полученные за этот параметр, можно не учитывать.

«Покрытие запросами» и «покрытие точными запросами» — порядка двух млн запросов (в основном коммерческих) длиной от двух до шести слов и сравниваются с оригинальным текстом. Высокое покрытие запросами (особенно в точной форме) может свидетельствовать о переоптимизации текста. Низкое покрытие ни о чём не говорит.

«Доля содержательного текста» — замена любимой SEO-специалистами «водности». Мы смотрим, какая доля текста останется, если из него убрать не только «стоп-слова» (союзы, предлоги и тому подобное), но и просто слова с общим значением (действительно, действительность, действовать, декор, делиться на и прочее).

Нормальные значения параметра сильно зависят от тематики и жанра, поэтому нам пришлось выбрать порог (0,23), который для некоторых текстов ни о чём плохом не говорит. Например, у этого текста доля содержательности — 0,21. Но 0,18, за которые можно получить два балла, — это очень мало уже практически для любой тематики.

«Удобочитаемость» — условно оценивает количество лет, которые нужно учиться, чтобы свободно читать текст (поэтому чем меньше, тем лучше); зависит от средних длин слов и предложений. Высокие значения могут говорить о том, что создатели сайта мало заботились о своих потенциальных читателях.

И у нас есть ещё идеи. Например, удобочитаемость можно считать более гибко, а покрытие запросами — так, чтобы неестественные сочетания получали больший вес. Но это в будущем, «Тургенев» будет развиваться.

Как решаются стилистические проблемы

Стилистика — это то, за что можно получить от «Тургенева» максимум штрафных баллов. При плотности стилистических проблем 0,1 текст получает один балл (и это уже повод задуматься о его редактировании). При плотности 0,13 — будет уже два балла, а дальше они нарастают в соответствии с числами Фибоначчи. За плотность 0,25 и выше пользователь получит сразу восемь баллов — высокий риск «Баден-Бадена».

Если текст достаточно длинный, могут добавиться ещё баллы за количество проблем. Чем дальше от нормы, тем больше оснований полагать, что за стилистическими ошибками стоит нечто большее — насквозь неестественный SEO-текст, какой роботам «Яндекса» не нравится. Тут важно, за что пользователь получает стилистические кванты.

Когда плотность стилистических проблем небольшая, она вполне может быть набрана за счёт условных ошибок — слов, которые создают проблему часто, но далеко не всегда. По одному кванту на слово получают следующие слова и словосочетания:

  • «большинство» — обобщение;
  • «возникновение» — канцеляризм;
  • «волшебник» — лишняя образность;
  • «и тому подобное» — лишняя разговорность;
  • «испытывать трудности» — шаблон.

Большая плотность означает, что автор использует:

  • «исходя из собственных предпочтений» — шаблон;
  • «комплекс работ по планированию» — канцеляризм;
  • «конечно, вы можете» — манипуляция читателем;
  • «стоит обязательно рассмотреть» — поучение читателя;
  • «круглосуточно в Москве» — ключевые слова;
  • «кроха первого года жизни» — смешение стилей;
  • «крупная оптовая реализация» — сочетание несочетаемого.

Все эти маркеры плохого стиля, дающие от двух до трёх квантов за слово, собраны из SEO-текстов, и их высокая концентрация говорит не только о том, что текст нуждается в редактировании, но и о том, что он малополезный и неестественный. А отсюда уже прямая дорога в «Баден-Баден».

Метод, который мы используем для детектирования стилистических проблем, крайне прост, но вряд ли кто-то возьмётся этот простой фокус повторить. Нужно составить словарь проблемных слов и сочетаний и смотреть, встречаются ли они в проверяемом тексте. Слова не должны сильно «шуметь» и не должны быть слишком специфическими.

Сочетание «кровельный вопрос» (из предложения «Купить мастику — главное в решении кровельного вопроса для плоской крыши») было бы прекрасным маркером, если бы имело шанс встретиться снова в другом тексте, но вероятность этого крайне мала.

Дотошный читатель легко заметит, что в порядке исключения мы добавили в словарь даже «решение кровельного вопроса» — уж больно красиво сказано, вдруг кому-нибудь захочется повторить.

Сейчас в словаре 17650 маркеров, но он, конечно, ещё будет расти.

Желательно каждому маркеру приписать подсказки — типовые (их сейчас около 200) или индивидуальные, чтобы хотя бы приблизительно объяснить, что конкретно нам здесь не нравится. Маркеров без подсказок осталось уже меньше трёх тысяч, и мы постараемся постепенно изжить их совсем.

Что делать с оценками «Тургенева»

Если баллов много — не паникуйте (не факт, что у «Яндекса» дойдут до вас руки в ближайшее время), но постарайтесь исправить ситуацию: профилактика дешевле лечения.

Если баллов мало — не обольщайтесь (не факт, что у «Яндекса» нет претензий к проверенной странице, не говоря уже о других) и проанализируйте полученные результаты — не нужно ли что-нибудь отредактировать.

Если пишете текст, независимо от количества полученных баллов (даже при нуле за стилистику), посмотрите на отмеченные в нём стилистические проблемы. Постарайтесь устранить ошибки, если замечания сервиса не кажутся вам безосновательными. Если опыт анализа и исправления ошибок поможет вам писать лучше, мы будем знать, что работали не зря.

Чего не надо делать:

  • редактировать всё отмеченное без разбора — так только повысится неестественность текста;
  • заменять отмеченные слова на аналоги — лучше переписать предложение или что-то из него просто убрать;
  • любой ценой пытаться достичь нуля баллов;
  • бездумно убирать из текста слова запроса — можно просадить релевантность и вылететь из топа.

Как нам помочь

Если вы дочитали до этого места, возможно, ваш сайт уже бывал в «Баден-Бадене», то есть попадал под фильтр. Мы будем очень признательны, если вы поделитесь с нами этим опытом в комментариях. Это поможет точнее оценивать риск попадания под фильтр для всех — но и лично вам может быть полезно.

1111
21 комментарий

пилю я, скажем, сервис - каталог организаций. заполняю уникальным контентом, езжу, фоткаю, собираю инфу.
без текстов на каждой странице категории(типа "кинотеатры в Тольятти") мне в топ не попасть, увы(а как? нагнать народ контекстом в ожидании ПФ? и сколько времени должно пройти, сколько бюджетов слить?).
конечно, я заказываю тексты. само собой они вряд ли будут полезными, если это каталог организаций(или доска объявлений).
в итоге сижу с крутым сервисом и говеными сео-текстами(что можно объяснить юзеру, которому я собираюсь показать "кинотеатры в Тольятти". Вот список, элемент списка = кинотеатр в Тольятти. Именно то, что вы искали) и тут вы такие "тексты должны быть полезными, фильтры, тургеневы, ататат". убираю тексты. и я опять с контентом, сервисом и без трафика, пока всякие дорвеи или мешапы делят топ.
какова корректная логика продвижения(для сервисов в моем случае)?

1

Надо брать хороших копирайтеров, платить им много денег и подходить к вопросу с фантазией. Тогда тексты могут получиться нетипичными и даже увлекательными. Просто все обычно жмутся на копирайтеров, а потом плачут о говеных текстах.

2

Артём, спасибо за комментарий. Мы не призываем "убирать тексты", наоборот, мы пишем о том, что не следует "бездумно убирать из текста слова запроса — можно просадить релевантность и вылететь из топа."

Вопросы создателям:
1 Я так понял это более продвинутый аналог Главреда?
2 Подходит ли сервис для информационных сайтов?

1

1. Ну можно и так сказать. Но мы бы рекомендовали пользоваться обоими сервисами -- они сильно разные.

2. Да, с оговорками. То есть конкретно "Баден-Баден" им пока грозит меньше, а всё, что касается качества текста, повторов и т.п., смотреть можно.

1

Я дочитал до конца, я понимаю что "В ЦК не дураки сидят - вы же полетите на Солнце ночью", но попытка догадаться, что же там опять намутил Яндекс, с помощью 500 шаман .. ашманских факторов мне кажется весьма неоднозначной. Либо у Вас доступ к инсайду, все-таки? :)

Вот скажем, правила русского языка, учат в школе с 1-го по 11-й класс. Их ведь невозможно запомнить в полном объеме, вот кто помнит чем первое склонение отличается от второго, кроме преподавателей русского? Однако, прочитав 100 000 страниц книжек на русском (лучше XX века), в принципе уже более-менее легко отличить естественный текст от роботизированного, да и ошибки в орфографии, пунктуации - прямо кричат со страницы "Я АШИБКА!"
 
Естественная же картина мира состоит в том, что
тексты на продающих сайтах _никто не читает_.
Кроме поисковиков.
 
И единственная цель этих текстов - более-менее совпасть с 5-6 вариантами поискового запроса, часто вводимого неправильно: не очень русским | не совсем трезвым | T9 "улучшенным" образом.

Яндекс из всего этого постепенно делает: "А ну-ка продайте мне ручку, не употребляя ни разу слова: ручка, авторучка, перо, стержень, писать, рисовать, чиркать, шариковая, синяя, черная, цветная".
 
Ну да, давайте описания к товарам "заказывать" Тургеневу, превращая их в художественные тексты. Как говорится, Букера в прошлом году взяли описания товаров на портале Морозильник.Ну, а Пулитцеровскую премию выиграла серия злободневных репортажей в подразделе Amazon, посвященных вейпам.


 

1

Правил русской орфографии много, но принципов три: этимологический (пишется так, потому что писалось так в том слове, от которого образовано, возможно, даже еще иностранном), морфологический (одна и та же морфема всегда пишется одинаково) и гораздо более редкий фонетический, который им противоречит (пишется так, как слышится). Дальше, за очень редкими исключениями, см. словарь. Понимая эти принципы и соображая, какой когда действует, уже можно писать грамотно. Учат десять лет, потому что забывают объяснить их детям.

Наши 500 параметров -- это как раз попытка выяснить принципы ранжирования. Нет, инсайда нет.

Заказывать описания нам мы, кажется, нигде на сайте "Тургенева" даже не предложили. Смысл SEO-текстов в том, чтобы дополнить основной текст страницы (описания товаров и услуг) тем, что туда не лезет. Поэтому, да, другие варианты запроса -- хорошая идея (но не неграмотные, их Яндекс и сам исправит). И всякие дополнения к запросу -- про географию, цену и т.п. Если всё поместилось в основную часть страницы, без SEO-текста лучше вообще обойтись.