Сайт должен быть признан относящимся к заданной тематике, предоставлять развернутую и достоверную информацию, соответствующую существующему домену знаний, максимально полно представлять граф тем и подтем из соответствующего кластера. Для оценки используются статус издателя, социальные сигналы, исторические данные, соответствие предметной информации, шаблоны поиска и многое другое. Поисковая система должна знать: этот сайт посвящён данной теме, здесь представлена вся необходимая информация, её предоставляют и проверяют специалисты, а посетители находили здесь то, что искали.
Очень полезный контент, спасибо!
Получение эмбеддингов, расчет косинусных расстояний и списков сущностей на основе текстов конкурентов - все через python?
Извлечь вложения можно через js или python - был бы доступ по API к модельке. Там скрипт короткий, готовый идёт вместе со Screaming Frog начиная с версии 20 - там просто свой ключ указать в шаблон и можно выдёргивать. Можно и напрямую, без "Фрога", сразу в гуглотаблицы.
Косинусы потом отдельно считать надо, примерно теми же средствами. Можно тоже через Гуглотаблицы, просто скрипт прицепить. Можно через Python с выгрузкой в csv.
Получила большое эстетическое удовольствие.
Да, все так. Но можно же и ПФ накрутить...
ПФ семантике не помеха, это добро хорошо в комплексе использовать. Нету трафика и пользовательских сигналов - всё остальное Яша может счесть не слишком важным, особенно если в теме крутят или у конкурентов естесственного трафа много.
В начале опечатка? Имелось в виду "информационные" наверное.
"Изначальное деление запросов на коммерческие и транзакционные не должно использоваться для работы над контентом."
Вообще не надо делить запросы по типам на старте, потому что цель — изучить тему и структурировать её по смыслам/интентам. К сожалению, такой подход требует глубокой проработки ядра, от чего часть сообщества отвалилась — в угоду скорости, конкурентоспособности и лени.