Ларчик открывается просто: поисковые системы накопили достаточно большие объёмы информации как по запросам, так и по аудитории, и в обработке запроса учитывают самые разные цели поиска на основе контекстов. Они знают, что именно вы искали, что искали до этого, что искали и как реагировали на выдачу другие люди, похожие на вас. А значит, релевантность в конкретном временном срезе определяется в том числе и контекстом конкретного документа и источника - в том числе и в исторической перспективе. Вы можете писать очень интересные, полезные, экспертные статьи, но если у поисковой системы нет никаких данных о взаимодействии пользователей с вашим сайтом, это не даст ровным счётом ничего.
Немного об интенте с учетом регионального контекста:
Как в старом советском анекдоте про пионера и уголовника в одном купе.
- Ты откуда?
- Из лагеря.
- И я. А куда?
- К бабе.
- Я тоже...
Было дело баловался с Алисой, когда выпустили yalm2.0)))
Удивительный, к слову, момент. Материалов, как подобрать промпты для клепания ненужного контента - тонны. Но кажется, что никто не пытается работать с семантикой напрямую с языковой моделью - или молчат.
Всё верно. Улучшать контент/контекст можно условно бесконечно. Тут хорошо работает итерационный подход, когда с каждой итерацией добавляется 1-2 новых блока. Когда блоки закончатся, можно анализировать входящий трафик и дорабатывать уже имеющиеся блоки с учётом обнаруженных запросов/интентов.
Долгий будет разгон по ПФ. В идеале сразу страницы по максимуму делать. Да, потом анализировать что в итоге получилось.