Оффтоп Daria Khokhlova
6 877

«Яндекс» открыл алгоритм машинного обучения CatBoost, который планирует использовать в «Поиске» и других продуктах

«Яндекс» открыл исходный код алгоритма машинного обучения CatBoost, которым компания планирует заменить «Матрикснет» в «Поиске» и всех остальных своих проектах. Сторонние разработчики смогут бесплатно использовать CatBoost в собственных системах для прогнозирования или анализа данных. Об этом vc.ru рассказали представители компании.

В закладки

С помощью инструментов CatBoost сторонние разработчики смогут внедрить и настроить в собственных продуктах модели машинного обучения, занимающиеся анализом разнородных данных сразу нескольких типов — например, о местонахождении пользователя, истории операций и типе устройства.

Разработку можно использовать в самых разных областях, в которых для прогнозирования или анализа важно учитывать сразу несколько типов факторов, влияющих на результат, говорят в «Яндексе».

«Яндекс» пока не применяет CatBoost в своих проектах полноценно, но разработчики уже провели тестирование технологии и она «показала свою состоятельность». В «Поиске» и других сервисах компания с 2009 года использует другой алгоритм машинного обучения — «Матрикснет».

CatBoost применялся для улучшения результатов поиска, ранжирования ленты рекомендаций «Яндекс.Дзен» и для расчёта прогноза погоды в технологии «Метеум» — и во всех случаях показал себя лучше «Матрикснета». Его также использует команда Yandex Data Factory — в своих решениях для промышленности: оптимизации расходов сырья и предсказания дефектов. Алгоритм внедрил Европейский центр ядерных исследований (ЦЕРН) для объединения данных, полученных с разных частей одного из детекторов Большого адронного коллайдера.​

— «Яндекс»

Постепенно CatBoost заменит «Матрикснет» во всех продуктах компании, говорят представители «Яндекса». Точные сроки внедрения компания не называет.

CatBoost, как и «Матрикснет», реализует модель градиентного бустинга. Особенность алгоритмов машинного обучения такого типа заключается в том, что они эффективнее, чем другие модели, работают с разнородными данными, которые описывают различные факторы: например, информацию о демографии, предпочтениях пользователя и историю запросов.

Основным преимуществом CatBoost перед «Матрикснетом» создатели называют его способность работать не только с числовыми, но и с другими данными.

Если «Матрикснет» обучает модели на числовых данных, то CatBoost учитывает и нечисловые, например виды облаков или типы зданий. Раньше такие данные приходилось переводить на язык цифр, что могло изменить их суть и повлиять на точность работы модели. Теперь их можно использовать в первоначальном виде.

Благодаря этому CatBoost показывает более высокое качество обучения, чем аналогичные методы для работы с разнородными данными. Его можно применять в самых разных областях — от банковской сферы до промышленности.​

— «Яндекс»

В беседе с vc.ru представители компании также отметили, что «Яндекс» никогда не предоставлял сторонним разработчикам прямого доступа к алгоритму «Матрикснет». Они могли использовать «Матрикснет» лишь косвенно — через API других продуктов компании.

В репозитории CatBoost на GitHub сторонним разработчикам доступны все необходимые библиотеки для внедрения алгоритма CatBoost в свои системы, обучающие материалы и несколько примеров использования технологии, а также инструмент CatBoost Viewer для визуализации работы алгоритма.

Библиотека доступна на языках программирования R и Python, она поддерживает операционные системы Linux, Windows и macOS.

#новость

{ "author_name": "Daria Khokhlova", "author_type": "editor", "tags": ["\u043d\u043e\u0432\u043e\u0441\u0442\u044c","\u043d\u043e\u0432\u043e\u0441\u0442\u0438"], "comments": 42, "likes": 18, "favorites": 1, "is_advertisement": false, "subsite_label": "flood", "id": 25235, "is_wide": false }
{ "id": 25235, "author_id": 5723, "diff_limit": 1000, "urls": {"diff":"\/comments\/25235\/get","add":"\/comments\/25235\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/25235"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199791 }

42 комментария 42 комм.

Популярные

По порядку

Написать комментарий...
5

И тишина,.. все побежали кодить?

Ответить
2

Ну интересно же!

Ответить

Комментарий удален

Комментарий удален

Комментарий удален

Комментарий удален

Комментарий удален

Комментарий удален

6

Надо будет затестить. Пожелание к представителям Яндекса: сделайте демо-кейс с какой-нибудь toy-задачей, реализованной на основе CatBoost. По опыту это позволяет гораздо быстрее "въехать" в незнакомый фреймворк и начать использовать его в собственных проектах.

Ответить
0

у них довольно хорошая документация и примеры.

Ответить
6

Денис, уже, есть несколько на выбор: https://github.com/catboost/catboost/tree/master/catboost/tutorials
:)

Ответить
0

Спасибо, то что нужно!

Ответить
0

CatBoost.ru забрал. Видимо просто так, как в 80% регистраций потратил денег )

Ответить
2

в Яндексе все в шоке, как они без этого домена

Ответить
2

я думаю яндекс уже задумался над сворачиванием CatBoost-а, домена то нет...

Ответить
1

Офигеть! Чувак! Ты просто крутой! Не ну! Офигеть!

Ответить
0

главное оценил!

Ответить
1

Вам еще надо зарегать Баден-Баден и Палех

Ответить
0

могу. прислать карту сбера?

Ответить
1

А если у Яндекса торговая марка, заберут домен?

Ответить
–10

Самое грустное в этом всем, что большие компании, как обычно открывают доступ к подобным сервисам лишь для того, чтобы обучить собственные сетки, а затем после набора нужных данных доступ прикрывается и пользователь дурачок остаётся ни с чем. В принципе это хорошо продемонстрировано на истории с Yandex Market.

Ответить
8

Они выложили исходный код, а не доступ к сервису

Ответить
5

Одна из целей публикации открытых технологий — получать ценный фидбек от сообщества и развивать свою разработку.

Получается win-win — людям полезный тул, компании бесплатные тестировщики и массовая обкатка на интересных кейсах.

P.S. Яндекс уже делился технологиями, я говорю про ClickHouse, Томита-парсер, mystem. Так что ваш пессимизм в данном случае необоснован.

Ответить
3

Верно все написали, я бы еще добавил что компаниям выгодно публиковать код потому что программисты, зная что он будет на гитхабе, будут делать его максимально чистым с минимумом костылей и прочего безобразия в структуре кода.
Гитхаб по сути контролирует программистов по лучше любого начальника сверху.

Ответить
0

Да, всё так и есть :)

Ответить
0

Тут какая-то ерунда - вот делятся они офигенно, и все время публикуют инфу об очередном инфо-прорыве .. у них сотни (тысячи?) программистов в десятках департаментов, а сами продукты (Поиск, Почта, РСЯ) - не просто хуже Google аналогов, а еще и стремительно ухудшаются.

Может есть секрет какой, но в новом интерфейсе РСЯ гордо _спрятано_ состояние счета площадки - его просто нет. В почте в HTML макетах выборочно не работают русскоязычные закладки (anchors) на части письма (в Gmail работают). Поддержка отвечает через 3-5 дней "спасибо за Ваше письмо" ...

Из Яндекса пользуюсь Пробками (иногда), и Картами (часто, уточнить где какая компания находится).

Поиск у Яндекса обычно показывает ситуацию 2-3 месячной давности, по сравнению с Гуглом. И это еще хорошо ...

Ответить
0

Я не согласен с оценкой сервисов Яндекса. Постоянно пользуюсь некоторыми яшкиными продуктами и доволен как слон. Хотя огрехи, конечно, есть, но в целом планка качества очень высокая.

Что касается технологий — здесь Яндекс решает культурную проблему в IT-среде. Сегодня они что-то открыли/опубликовали, завтра это станет нормальным и правильным и подтянутся другие.

По факту тот гигантский пул открытых разработок, которые выдали американские компании, способствовал такому бурному росту интернета и технологий в целом. А мы чем хуже? Да ничем!

Ответить
–3

Не только. Чаще всего продукты открываются чтобы задушить в зародыше попытки альтернативных разработок и подсадить всех на свои технологии.
Кто в здравом уме из менеджмента теперь выделит деньги на разработку подобной библиотеки ? Мало кто. Скажут: не зачем изобретать велосипед, вот Яндекс сделал - берите и пользуетесь. А потом удивляемся, почему столько тормозного софта и батарейка в телефоне быстро садится, а всё потому, что возможность думать, экспериментировать подавлена из-за таких вот мер нечестной конкурентной борьбы ;-)

Ответить
1

Посоветовал знакомой конторе поставить Веб-Поиск на сайт (сотни документов). Их вебмастер воткнул Яндекс.Поиск для сайтов.

Пробую ключевое_слово (средней частоты)
Яндекс.Поиск = 64 документов
Гугл.Поиск = 143 документа

Яндекс.Поиск при этом не показывает документы, созданные или обновленные за последние месяцы - а Гугл.Поиск - показывает.

Кто в здравом уме из менеджмента будет использовать такую технологию для Интранета, например?

Ответить
1

Так мой пример на ту же тему. Надо думать своей головой и делать свое, развиваться, а не деградировать.

Ответить
1

Думать можно, но пока, как видите, лучше получается критиковать :)

(самокритично заметил я)

Ответить
0

Есть такое дело. ;-)

Ответить
0

По скорости обновлений, приходится это признать, Яндекс проигрывает. Это обусловлено историческим выбором другого подхода к актуализации поисковой выдачи, возможно не самым удачным.

В описанном вами кейсе Яша проигрывает. Но это не повод для обобщения на все их продукты и технологии.

Ответить
1

Они выигрывали по русской орфографии, сводя коровку, коровёнку, коровушку и коровищу к слову "корова" (во всех формах).
Какое-то время это давало серьезное конкурентное преимущество, пока поколение Y не перешло на однокоренные слова в именительном падеже при составлении поисковых запросов

"Карова малако купит"
Ищем "корова молоко купить"
Найдено 3 232 3323 результатов, уточнить запрос?

Ответить
0

Яндекс проигрывает во всем и всегда, он не технологический лидер ни разу, а вечный технологичный догоняющий ;-)

Даже Мейл.ру на его фоне уже давно намного лучше смотрится

Ответить
1

Они по-джентельменски соревнуются за право лучшего отстающего.

Я понять не могу как ящики Gmail с 150 000 сообщений (архив кое-чего) грузятся быстрее и поиск в них быстре, чем Mail.Ru или Яндекс с 10.000 сообщений ...

Ответить
0

С почтой да, не всё хорошо, но к сожалению это всё из-за экономии.

Ответить
0

В смысле - им придется отключать большую часть функционала, которая занимается только и исключительно защитой от накруток, от тошноты, от такого SEO приёмчика, от эдакого ... потому что в Интранете надо реально найти все документы с ключевым словом, а Яндекс.Поиск стал совсем непонятно чем ...

Ответить
0

А Яндекс в этом году будет ссылки отключать?

Ответить
5

Парень, успокойся

Ответить
0

Или им уже самим стыдно за такую дичь тупую?

Ответить
0

Ну конечно, еще не все заплатили за включение в Яндекс.Каталог же ... для отчаянных домохозяек без бюджета на SEO - "ЯК" - единственный способ прободаться хотя бы в постоянную выдачу.

https://yandex.ru/adv/products/classified/catalogue#price
14 500 рублей + НДС, чтобы попасть в 90-е, в ТОП 100 нынешний
5 000 рублей + НДС, чтобы "изменить описание"

Раньше у них это счастье было так - оплачиваешь, посылаешь заявку, но они не гарантируют что включат в каталог. И тогда же еще говорили, что ЯК не даёт преимуществ в выдаче ... эх Рамблер, почему ты так не сделал в конце 90-х, хоть на прибыль бы вышел :(

Ответить
0

Поясню - говорить говорили, но преимущество в выдаче явно появлялось, а самое главное, сайт из выдачи не пропадал после очередного "улучшения" движка.

Ответить
–4

"Раньше такие данные приходилось переводить на язык цифр, что могло изменить их суть и повлиять на точность работы модели. Теперь их можно использовать в первоначальном виде."

В каком первоначальном? Кубик рубика, это теперь что если не кубик? Разноцветная игрушка? А красный цвет в этой игрушке не под номером, но под чем? А? Не слышу! Отвечайте!

Снова дичь втирают какуето, да?

Ответить
–2

Машинный код для ИИ уже смешно, но у вас ведь и такого нет, да?
:D
:D
:D

Ответить
–6

"модели машинного обучения"

Какое обучение? Сканирование может? Ну или мониторинг? А, я понел, это луче продаёца, лашки ведуца, да? Или не-а? А-а-а?

Ответить
–2

Они хотели написать "Эко-модель машинного обучения Big Data, работающая с помощью нейронной сети второго порядка, предоставляющая равные права женщинам и женоподобным мужчинам с помощью блокчейн-технологии геймификации)", но потом немного сократили.

Ответить
0

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Приложение-плацебо скачали
больше миллиона раз
Подписаться на push-уведомления