"Просканирована, но не проиндексирована": как мы вытащили 300+ тонких страниц в индекс

Мы делаем Taliora - сервис самопознания по дате рождения (нумерология, астрология, совместимость). Контентный продукт: десятки калькуляторов и сотни справочных страниц. Классическая ситуация для такого проекта - много программатик-страниц и молодой домен, который поисковики индексируют медленно и выборочно. Расскажу, что мы делали с индексацией и что реально сработало, а что нет. Цифры и грабли - настоящие.

В какой-то момент Google Search Console показал картину, знакомую любому, кто запускал программатик-SEO: из ~1000 известных URL проиндексировано ~590, а ~410 висят в статусе Crawled - currently not indexed. Яндекс.Вебмастер показывал то же: знает 647 страниц, в поиске — 373. То есть оба движка независимо отказывались брать ~40% страниц.

Когда два поисковика синхронно отвергают почти половину сайта — это не баг настроек. Это сигнал о воспринимаемом качестве: на молодом домене с низким авторитетом поисковик не хочет тратить краулинговый бюджет на тонкие, шаблонные страницы.

Первое, что мы сделали - прогнали весь sitemap программно: статус каждого URL, наличие noindex, конфликты с robots.txt, дубли, канонические. Вывод: sitemap технически чист - все 200, без редиректов и noindex. Значит, проблема не в технике.

Дальше - измерили реальный объём уникального текста по страницам. И тут нашлось главное: один большой кластер (сонник, 369 страниц) состоял на ~40% из тонких страниц - база ~80-100 слов на символ, без глубины. Именно они и были основными кандидатами в crawled - not indexed.

Урок: прежде чем что-то менять, отделите технические проблемы (их часто нет) от контентных (обычно дело в них). Аудит sitemap занимает час и экономит недели.

Соблазн на молодом домене - удалить тонкие страницы ради чистоты индекса. Мы сознательно этого не делали: среди тонких были популярные запросы (к чему снится змея, вода, зубы), которые имеют трафиковый потенциал. Резать рабочий контент ради метрики — потерять то, что только начинает ранжироваться.

Вместо этого мы каждую тонкую страницу дописали до уровня сильных: к базовому толкованию добавили два уникальных блока — психологическую интерпретацию (по Юнгу) и культурно-мифологическую историю символа. Около 250–300 слов осмысленного, неповторяющегося текста на страницу.

Объём работы ~150 страниц вручную не сделать. Поэтому генерацию мы распараллелили: разбили на партии, прогнали через модель со строгой схемой вывода (каждая запись — символ, психология, история фиксированной длины), потом свели и проверили на дубли и качество. В итоге все 300+ страниц кластера стали "солидными" - 250–300 слов вместо 80.

Урок: AI-генерация контента в SEO работает не как нагенерить 1000 страниц, а как «довести до качества то, что уже есть, под строгим контролем формата и с ручной проверкой». Разница между спамом и пользой — именно в этом.

"Crawled - not indexed" часто означает страница есть, но мы не считаем её важной. Главный сигнал важности для Google — внутренние ссылки с авторитетных страниц.

Мы проверили обнаружимость новых тематических кластеров с главной и нашли орфанов: несколько разделов (личный год, число жизненного пути - 145 страниц, знаки зодиака) вообще не были связаны с главной. Добавили их в блок справочников на главной — авторитет главной теперь течёт на эти хабы.

Урок: перед тем как строить ссылки извне, убедитесь, что внутри сайта важные страницы вообще связаны с главной. Это бесплатно и часто даёт больше, чем внешние ссылки.

Отдельно мы готовим страницы под цитирование в AI (Google AI Overviews, Яндекс Нейро, ChatGPT Search). Что для этого делаем:

— Прямой ответ-определение в первых 300 символах под H1 (формат "X — это") SpeakableSpecification в JSON-LD - для голосовых ассистентов.— FAQPage на каждой странице - AI любит структурированные Q&A для цитат.— llms.txt в корне — отдельный файл-описание сервиса для ИИ-краулеров.

Это не даёт мгновенного трафика, но в горизонте года GEO-оптимизация — то, что отличает "нас цитируют в ответе" от "нас нет".

Параллельно мы качаем внешнюю заметность — но без иллюзий. Проверили площадки на живость: Quora RU-сегмент (ru.quora.com) и Яндекс Кью - мертвы (Google по ним находит ноль). Реально живые RU-каналы для нашей ниши - Дзен (прямой трафик), Ответы@Mail.ru, Большой Вопрос, тематические форумы. Туда идут полезные ответы по реальным вопросам с естественной ссылкой-источником — не спам-дроп.

Урок: не доверяйте спискам площадок "на веру". Проверьте каждую через site:домен запрос в Google - половина окажется мёртвой.

Sitemap чист, контент крупнейшего кластера обогащён, перелинковка усилена, GEO-разметка на месте, дистрибуция идёт по живым каналам. Индексация - процесс инерционный: эффект обогащения и перелинковки проявляется за 2-4 недели переобхода. Мы в этом окне сейчас.

Главный вывод для любого контентного проекта на молодом домене: поисковик индексирует не количество, а воспринимаемую ценность. Лучше 300 сильных страниц, чем 1000 тонких.

Если интересно посмотреть, как это выглядит в готовом продукте — наши открытые справочники и калькуляторы по дате рождения лежат здесь: https://taliora.ru/?utm_source=vc&utm_medium=article&utm_campaign=seo_case

"Просканирована, но не проиндексирована": как мы вытащили 300+ тонких страниц в индекс

Проблема: Просканирована, но не проиндексирована

Шаг 1. Не гадать, а проверить sitemap и контент

Шаг 2. Обогащать, а не резать

Шаг 3. Перелинковка - самый недооценённый рычаг

Шаг 4. GEO: оптимизация под AI-ответы, а не только под синие ссылки

Шаг 5. Дистрибуция: где живёт RU-аудитория

Что в итоге