"Просканирована, но не проиндексирована": как мы вытащили 300+ тонких страниц в индекс
Мы делаем Taliora - сервис самопознания по дате рождения (нумерология, астрология, совместимость). Контентный продукт: десятки калькуляторов и сотни справочных страниц. Классическая ситуация для такого проекта - много программатик-страниц и молодой домен, который поисковики индексируют медленно и выборочно. Расскажу, что мы делали с индексацией и что реально сработало, а что нет. Цифры и грабли - настоящие.
Проблема: Просканирована, но не проиндексирована
В какой-то момент Google Search Console показал картину, знакомую любому, кто запускал программатик-SEO: из ~1000 известных URL проиндексировано ~590, а ~410 висят в статусе Crawled - currently not indexed. Яндекс.Вебмастер показывал то же: знает 647 страниц, в поиске — 373. То есть оба движка независимо отказывались брать ~40% страниц.
Когда два поисковика синхронно отвергают почти половину сайта — это не баг настроек. Это сигнал о воспринимаемом качестве: на молодом домене с низким авторитетом поисковик не хочет тратить краулинговый бюджет на тонкие, шаблонные страницы.
Шаг 1. Не гадать, а проверить sitemap и контент
Первое, что мы сделали - прогнали весь sitemap программно: статус каждого URL, наличие noindex, конфликты с robots.txt, дубли, канонические. Вывод: sitemap технически чист - все 200, без редиректов и noindex. Значит, проблема не в технике.
Дальше - измерили реальный объём уникального текста по страницам. И тут нашлось главное: один большой кластер (сонник, 369 страниц) состоял на ~40% из тонких страниц - база ~80-100 слов на символ, без глубины. Именно они и были основными кандидатами в crawled - not indexed.
Урок: прежде чем что-то менять, отделите технические проблемы (их часто нет) от контентных (обычно дело в них). Аудит sitemap занимает час и экономит недели.
Шаг 2. Обогащать, а не резать
Соблазн на молодом домене - удалить тонкие страницы ради чистоты индекса. Мы сознательно этого не делали: среди тонких были популярные запросы (к чему снится змея, вода, зубы), которые имеют трафиковый потенциал. Резать рабочий контент ради метрики — потерять то, что только начинает ранжироваться.
Вместо этого мы каждую тонкую страницу дописали до уровня сильных: к базовому толкованию добавили два уникальных блока — психологическую интерпретацию (по Юнгу) и культурно-мифологическую историю символа. Около 250–300 слов осмысленного, неповторяющегося текста на страницу.
Объём работы ~150 страниц вручную не сделать. Поэтому генерацию мы распараллелили: разбили на партии, прогнали через модель со строгой схемой вывода (каждая запись — символ, психология, история фиксированной длины), потом свели и проверили на дубли и качество. В итоге все 300+ страниц кластера стали "солидными" - 250–300 слов вместо 80.
Урок: AI-генерация контента в SEO работает не как нагенерить 1000 страниц, а как «довести до качества то, что уже есть, под строгим контролем формата и с ручной проверкой». Разница между спамом и пользой — именно в этом.
Шаг 3. Перелинковка - самый недооценённый рычаг
"Crawled - not indexed" часто означает страница есть, но мы не считаем её важной. Главный сигнал важности для Google — внутренние ссылки с авторитетных страниц.
Мы проверили обнаружимость новых тематических кластеров с главной и нашли орфанов: несколько разделов (личный год, число жизненного пути - 145 страниц, знаки зодиака) вообще не были связаны с главной. Добавили их в блок справочников на главной — авторитет главной теперь течёт на эти хабы.
Урок: перед тем как строить ссылки извне, убедитесь, что внутри сайта важные страницы вообще связаны с главной. Это бесплатно и часто даёт больше, чем внешние ссылки.
Шаг 4. GEO: оптимизация под AI-ответы, а не только под синие ссылки
Отдельно мы готовим страницы под цитирование в AI (Google AI Overviews, Яндекс Нейро, ChatGPT Search). Что для этого делаем:
— Прямой ответ-определение в первых 300 символах под H1 (формат "X — это") SpeakableSpecification в JSON-LD - для голосовых ассистентов.— FAQPage на каждой странице - AI любит структурированные Q&A для цитат.— llms.txt в корне — отдельный файл-описание сервиса для ИИ-краулеров.
Это не даёт мгновенного трафика, но в горизонте года GEO-оптимизация — то, что отличает "нас цитируют в ответе" от "нас нет".
Шаг 5. Дистрибуция: где живёт RU-аудитория
Параллельно мы качаем внешнюю заметность — но без иллюзий. Проверили площадки на живость: Quora RU-сегмент (ru.quora.com) и Яндекс Кью - мертвы (Google по ним находит ноль). Реально живые RU-каналы для нашей ниши - Дзен (прямой трафик), Ответы@Mail.ru, Большой Вопрос, тематические форумы. Туда идут полезные ответы по реальным вопросам с естественной ссылкой-источником — не спам-дроп.
Урок: не доверяйте спискам площадок "на веру". Проверьте каждую через site:домен запрос в Google - половина окажется мёртвой.
Что в итоге
Sitemap чист, контент крупнейшего кластера обогащён, перелинковка усилена, GEO-разметка на месте, дистрибуция идёт по живым каналам. Индексация - процесс инерционный: эффект обогащения и перелинковки проявляется за 2-4 недели переобхода. Мы в этом окне сейчас.
Главный вывод для любого контентного проекта на молодом домене: поисковик индексирует не количество, а воспринимаемую ценность. Лучше 300 сильных страниц, чем 1000 тонких.
Если интересно посмотреть, как это выглядит в готовом продукте — наши открытые справочники и калькуляторы по дате рождения лежат здесь: https://taliora.ru/?utm_source=vc&utm_medium=article&utm_campaign=seo_case