Утечка исходного кода поиска Яндекса - теперь нам достоверно известны все факторы ранжирования сайтов
Приветствую! Давеча пользователи форума Hacker News сообщили о великолепной находке - исходные коды сервисов Яндекса почти на 45 GB.
Представители Яндекса уже подтвердили слив данных, так что это не фейк и не розыгрыш. Все папки внутри архива датируются 24.02.2022, но некоторые логи созданы в мае. Видимо, кто-то решил прихватить с собой флешку с ценной информацией перед увольнением :)
В скаченном архиве много папок, но меня заинтересовали следующие: antirobot, captcha, extsearch, kernel, metrika, robot, search, wmconsole.
Бегло проанализировав содержимое можно констатировать факт, что был слит полный репозиторий Search Engine and Indexing Bot.
В папке kernel.tar\web_factors_info\ лежит файл с 1923 факторами ранжирования Яндекса, включая TG_DEPRECATED (устаревшие, некоторые из них ссылаются на обновленную версию). Вот несколько интересные из них:
Как видно, есть описание алгоритмов рандомизации в коммерческой выдаче, а также много алгоритмов по поведенческим факторам ранжирования.
На самом деле, я ожидал увидеть код типа:
В некоторых случаях оно так и есть :)
Кроме того, был обнаружен файл с 318 факторами того, как Яндекс делает аналитику по запросам и затем по полученным данным ранжирует сайты, например:
Скачать полный файл с факторами ранжирования можно в моемGitHub.
Скачать полный архив с исходным кодом можно по magnet-ссылке:
Теперь нас ждет множество часов изучения данных, как на самом деле работают сервисы Яндекса, развенчание множества заблуждений, мифов и легенд, связанных с SEO, и корректировка стратегии продвижения проектов.
Помимо факторов ранжирования занятно посмотреть как технически настроено цензурирование контента в новостях и поиске, какой код отвечает за увеличение цены в Маркете, если заходишь с устройства Apple, почему в такси у тебя постоянно «Повышенный спрос», что записывает «Умная колонка Яндекса», и еще много чего.
актуальность факторов конечно под вопросом, особенно это отчетливо понимаешь под упоминаниями о народ.ру, Яндекс-Каталог, DMOZ... последние 2 сервиса закрылись в 2017 году...
Как про ПФ чего-нить ценного накопаешь, разбуди.
Сам не копал, но из того что пишут: долгосрочные интересы рулят, канвас и пасивные принты не учитываются.
Комментарий удален автором поста
Так и предчувствую скоро новые курсы по SEO на основе слитых данных из Яндекса.
:)
Есть ли там что-то принципиально новое?
Трактовка может быть разной, поэтому курсы вероятны.
актуальность факторов конечно под вопросом, особенно это отчетливо понимаешь под упоминаниями о народ.ру, Яндекс-Каталог, DMOZ... последние 2 сервиса закрылись в 2017 году...
За магнет ссылку просто ❤❤❤
Вот про божатников обидно было. Хотя, это же говнояндекс, который сливает карты клиентов, так что не буду обижаться.
Разрабы называют вещи своими именами)))))
95 фактор интересен,
содержимого wiki-team в полном архе нет?
Надо покопаться, не встречал, в той папке просто описание факторов.
Комментарий удален автором поста
Ну что там, есть инфа, в файле есть вики яндекс ? ))
Конечно нет, в архиве только репы.
Но, как говорится, еще не вечер)))
Комментарий удален автором поста
Комментарий удален автором поста
Фактор гадкости контента
Factor {
Index: 755
CppName: "FI_NASTY_CONTENT"
Name: "NastyContent"
Ticket: ["FACTOR-113", "SEARCHSPAM-2435"]
Wiki: "http://wiki.yandex-team.ru/JandeksPoisk/KachestvoPoiska/ObshayaFormula/TekushhieKomponenty/NastyContent"
Tags: [TG_STATIC, TG_DOC, TG_THEME_CLASSIF, TG_UNDOCUMENTED, TG_OFTEN_ZERO, TG_L2, TG_NN_OVER_FEATURES_USE]
Description: "Фактор гадкости контента."
Authors: "melkov"
Responsibles: "alsafr"
}
жаль вики внутренняя(
Жаль не всё вынесли )
Ну всё, Яндекс, трепещи )