Утечка исходного кода поиска Яндекса - теперь нам достоверно известны все факторы ранжирования сайтов
Приветствую! Давеча пользователи форума Hacker News сообщили о великолепной находке - исходные коды сервисов Яндекса почти на 45 GB.
5274просмотров
Представители Яндекса уже подтвердили слив данных, так что это не фейк и не розыгрыш. Все папки внутри архива датируются 24.02.2022, но некоторые логи созданы в мае. Видимо, кто-то решил прихватить с собой флешку с ценной информацией перед увольнением :)
В скаченном архиве много папок, но меня заинтересовали следующие: antirobot, captcha, extsearch, kernel, metrika, robot, search, wmconsole.
Бегло проанализировав содержимое можно констатировать факт, что был слит полный репозиторий Search Engine and Indexing Bot.
В папке kernel.tar\web_factors_info\ лежит файл с 1923 факторами ранжирования Яндекса, включая TG_DEPRECATED (устаревшие, некоторые из них ссылаются на обновленную версию). Вот несколько интересные из них:
Factor {
Index: 42
CppName: "FI_IS_MAIN_PAGE"
Name: "IsMainPage"
Tags: [TG_DOC, TG_STATIC, TG_BINARY, TG_REARR_USE, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE]
Description: "Если главная страница владельца (чаще всего домен второго уровня, например xxxx.ru), то фактор равен 1. Для бомжатников, хостингов, личных блогов и т.д. (например, лайфджорнал, народ.ру и пр.) - домены третьего уровня (типа xxxxx.narod.ru) так же будут иметь фактор равный 1."
Authors: ["aalekseev", "denplusplus"]
Responsibles: "alsafr"
}
Factor {
Index: 1908
CppName: "FI_RANDOM_COMMERCIAL"
Name: "RandomCommercial"
Tags: [TG_OWNER, TG_STATIC, TG_OFTEN_ZERO, TG_META, TG_DATA_FROM_SAASKV, TG_UNUSED, TG_NOT_01]
Description: "'Случайный' фактор для коммерческих сайтов."
Wiki: "https://wiki.yandex-team.ru/jandekspoisk/kachestvopoiska/relevance/web/factors/RandComm/"
Ticket: "SEARCHSPAM-14815"
Authors: ["tyamgin"]
Responsibles: ["tyamgin", "ashagarov", "sdormidontov"]
ImplementationTime: "2020-03-11"
MinValue: -1.0
}
Factor {
Index: 1895
CppName: "FI_HOST_BIZ_KERNEL_PERCENTILE"
Name: "HostBizKernelPercentile"
Ticket: "SEARCHSPAM-14593"
Wiki: "https://wiki.yandex-team.ru/JandeksPoisk/Antispam/biz-kernel-basic-description/"
Tags: [TG_USER, TG_HOST, TG_STATIC, TG_L2, TG_UNUSED]
Description: "Показатель качества сайта с точки зрения факторов про пользовательское поведение, агрегированных до владельцев."
Authors: ["ashagarov"]
Responsibles: ["ashagarov", "sdormidontov"]
ImplementationTime: "2019-08-28"
}
Factor {
Index: 705
CppName: "FI_DOC_CREATE_MONTH"
Name: "DocCreateMonth"
Ticket: "BUKI-1583"
Wiki: "http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/DocMonthFactors"
Tags: [TG_DATE, TG_DOC, TG_DOC_TEXT, TG_STATIC, TG_DEPRECATED, TG_UNDOCUMENTED, TG_L2]
Description: "Время создания документа с точностью до месяца 1.0 -- текущий месяц, 0 —- 10 лет назад и старше. Временно отключен"
Authors: "bochkarev"
Responsibles: "bochkarev"
}
Factor {
Index: 6
CppName: "FI_LINK_RELEV_ALL_WORDS"
Name: "LRp1"
Group: "Dynamic"
Tags: [TG_DOC, TG_DYNAMIC, TG_LINK_TEXT, TG_UNDOCUMENTED, TG_DEPRECATED]
Description: "(strict) есть все слова запроса в одном линке."
Authors: ["gulin", "leo"]
Responsibles: ["gulin", "leo"]
}
Как видно, есть описание алгоритмов рандомизации в коммерческой выдаче, а также много алгоритмов по поведенческим факторам ранжирования.
Теперь нас ждет множество часов изучения данных, как на самом деле работают сервисы Яндекса, развенчание множества заблуждений, мифов и легенд, связанных с SEO, и корректировка стратегии продвижения проектов.
Помимо факторов ранжирования занятно посмотреть как технически настроено цензурирование контента в новостях и поиске, какой код отвечает за увеличение цены в Маркете, если заходишь с устройства Apple, почему в такси у тебя постоянно «Повышенный спрос», что записывает «Умная колонка Яндекса», и еще много чего.
Артём! Обяъсните, пожалуйста, для чего вы здесь пишите свой публикации, если с неуваженеим относитесь к людям? Задал Вам месяц назад вопрос, вы меня взяли и заблокировали в Телеграме и на Vc.ru. Для чего тогда и с какой целью здесь Ваши публикации?
актуальность факторов конечно под вопросом, особенно это отчетливо понимаешь под упоминаниями о народ.ру, Яндекс-Каталог, DMOZ... последние 2 сервиса закрылись в 2017 году...
Как про ПФ чего-нить ценного накопаешь, разбуди.
Сам не копал, но из того что пишут: долгосрочные интересы рулят, канвас и пасивные принты не учитываются.
Артём! Обяъсните, пожалуйста, для чего вы здесь пишите свой публикации, если с неуваженеим относитесь к людям? Задал Вам месяц назад вопрос, вы меня взяли и заблокировали в Телеграме и на Vc.ru. Для чего тогда и с какой целью здесь Ваши публикации?
актуальность факторов конечно под вопросом, особенно это отчетливо понимаешь под упоминаниями о народ.ру, Яндекс-Каталог, DMOZ... последние 2 сервиса закрылись в 2017 году...
Так и предчувствую скоро новые курсы по SEO на основе слитых данных из Яндекса.
:)
Есть ли там что-то принципиально новое?
Трактовка может быть разной, поэтому курсы вероятны.
За магнет ссылку просто ❤❤❤
Вот про божатников обидно было. Хотя, это же говнояндекс, который сливает карты клиентов, так что не буду обижаться.
Разрабы называют вещи своими именами)))))
95 фактор интересен,
содержимого wiki-team в полном архе нет?
Надо покопаться, не встречал, в той папке просто описание факторов.
Хайпожерство! Надеюсь Яндекс, проведет хакатон на поиск уязвимостей
Ну что там, есть инфа, в файле есть вики яндекс ? ))
Конечно нет, в архиве только репы.
Но, как говорится, еще не вечер)))
зато вчера "умные" люди спорили что нету... @Банан
Вы дальше первого коммента не читаете? Что значит слово алгоритм знаете? Или вы только по части остроумных комментариев специалист?
Фактор гадкости контента
Factor {
Index: 755
CppName: "FI_NASTY_CONTENT"
Name: "NastyContent"
Ticket: ["FACTOR-113", "SEARCHSPAM-2435"]
Wiki: "http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/NastyContent"
Tags: [TG_STATIC, TG_DOC, TG_THEME_CLASSIF, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE]
Description: "Фактор гадкости контента."
Authors: "melkov"
Responsibles: "alsafr"
}
жаль вики внутренняя(
Жаль не всё вынесли )
Ну всё, Яндекс, трепещи )