«Яндекс» открыл алгоритм машинного обучения CatBoost, который планирует использовать в «Поиске» и других продуктах Статьи редакции

«Яндекс» открыл исходный код алгоритма машинного обучения CatBoost, которым компания планирует заменить «Матрикснет» в «Поиске» и всех остальных своих проектах. Сторонние разработчики смогут бесплатно использовать CatBoost в собственных системах для прогнозирования или анализа данных. Об этом vc.ru рассказали представители компании.

С помощью инструментов CatBoost сторонние разработчики смогут внедрить и настроить в собственных продуктах модели машинного обучения, занимающиеся анализом разнородных данных сразу нескольких типов — например, о местонахождении пользователя, истории операций и типе устройства.

Разработку можно использовать в самых разных областях, в которых для прогнозирования или анализа важно учитывать сразу несколько типов факторов, влияющих на результат, говорят в «Яндексе».

«Яндекс» пока не применяет CatBoost в своих проектах полноценно, но разработчики уже провели тестирование технологии и она «показала свою состоятельность». В «Поиске» и других сервисах компания с 2009 года использует другой алгоритм машинного обучения — «Матрикснет».

CatBoost применялся для улучшения результатов поиска, ранжирования ленты рекомендаций «Яндекс.Дзен» и для расчёта прогноза погоды в технологии «Метеум» — и во всех случаях показал себя лучше «Матрикснета». Его также использует команда Yandex Data Factory — в своих решениях для промышленности: оптимизации расходов сырья и предсказания дефектов. Алгоритм внедрил Европейский центр ядерных исследований (ЦЕРН) для объединения данных, полученных с разных частей одного из детекторов Большого адронного коллайдера.​

— «Яндекс»

Постепенно CatBoost заменит «Матрикснет» во всех продуктах компании, говорят представители «Яндекса». Точные сроки внедрения компания не называет.

CatBoost, как и «Матрикснет», реализует модель градиентного бустинга. Особенность алгоритмов машинного обучения такого типа заключается в том, что они эффективнее, чем другие модели, работают с разнородными данными, которые описывают различные факторы: например, информацию о демографии, предпочтениях пользователя и историю запросов.

Основным преимуществом CatBoost перед «Матрикснетом» создатели называют его способность работать не только с числовыми, но и с другими данными.

Если «Матрикснет» обучает модели на числовых данных, то CatBoost учитывает и нечисловые, например виды облаков или типы зданий. Раньше такие данные приходилось переводить на язык цифр, что могло изменить их суть и повлиять на точность работы модели. Теперь их можно использовать в первоначальном виде.

Благодаря этому CatBoost показывает более высокое качество обучения, чем аналогичные методы для работы с разнородными данными. Его можно применять в самых разных областях — от банковской сферы до промышленности.​

— «Яндекс»

В беседе с vc.ru представители компании также отметили, что «Яндекс» никогда не предоставлял сторонним разработчикам прямого доступа к алгоритму «Матрикснет». Они могли использовать «Матрикснет» лишь косвенно — через API других продуктов компании.

В репозитории CatBoost на GitHub сторонним разработчикам доступны все необходимые библиотеки для внедрения алгоритма CatBoost в свои системы, обучающие материалы и несколько примеров использования технологии, а также инструмент CatBoost Viewer для визуализации работы алгоритма.

Библиотека доступна на языках программирования R и Python, она поддерживает операционные системы Linux, Windows и macOS.

0
42 комментария
Написать комментарий...
Александр Дайверов

И тишина,.. все побежали кодить?

Ответить
Развернуть ветку
Sergey Rùdnev

Ну интересно же!

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Денис Кулагин

Надо будет затестить. Пожелание к представителям Яндекса: сделайте демо-кейс с какой-нибудь toy-задачей, реализованной на основе CatBoost. По опыту это позволяет гораздо быстрее "въехать" в незнакомый фреймворк и начать использовать его в собственных проектах.

Ответить
Развернуть ветку
Артём Лисовский

у них довольно хорошая документация и примеры.

Ответить
Развернуть ветку
Михаил Першин

Денис, уже, есть несколько на выбор: https://github.com/catboost/catboost/tree/master/catboost/tutorials
:)

Ответить
Развернуть ветку
Денис Кулагин

Спасибо, то что нужно!

Ответить
Развернуть ветку
Павел Гросс-Днепров

CatBoost.ru забрал. Видимо просто так, как в 80% регистраций потратил денег )

Ответить
Развернуть ветку
Дмитрий Пашкевич

в Яндексе все в шоке, как они без этого домена

Ответить
Развернуть ветку
Денис Демидов

я думаю яндекс уже задумался над сворачиванием CatBoost-а, домена то нет...

Ответить
Развернуть ветку
Sergey Rùdnev

Офигеть! Чувак! Ты просто крутой! Не ну! Офигеть!

Ответить
Развернуть ветку
Павел Гросс-Днепров

главное оценил!

Ответить
Развернуть ветку
Денис Демидов

Вам еще надо зарегать Баден-Баден и Палех

Ответить
Развернуть ветку
Павел Гросс-Днепров

могу. прислать карту сбера?

Ответить
Развернуть ветку
Вячеслав Вишневский

А если у Яндекса торговая марка, заберут домен?

Ответить
Развернуть ветку
pongo
Ответить
Развернуть ветку
Vadim Bondarev

Самое грустное в этом всем, что большие компании, как обычно открывают доступ к подобным сервисам лишь для того, чтобы обучить собственные сетки, а затем после набора нужных данных доступ прикрывается и пользователь дурачок остаётся ни с чем. В принципе это хорошо продемонстрировано на истории с Yandex Market.

Ответить
Развернуть ветку
Oleg

Они выложили исходный код, а не доступ к сервису

Ответить
Развернуть ветку
Денис Кулагин

Одна из целей публикации открытых технологий — получать ценный фидбек от сообщества и развивать свою разработку.

Получается win-win — людям полезный тул, компании бесплатные тестировщики и массовая обкатка на интересных кейсах.

P.S. Яндекс уже делился технологиями, я говорю про ClickHouse, Томита-парсер, mystem. Так что ваш пессимизм в данном случае необоснован.

Ответить
Развернуть ветку
Денис Демидов

Верно все написали, я бы еще добавил что компаниям выгодно публиковать код потому что программисты, зная что он будет на гитхабе, будут делать его максимально чистым с минимумом костылей и прочего безобразия в структуре кода.
Гитхаб по сути контролирует программистов по лучше любого начальника сверху.

Ответить
Развернуть ветку
Денис Кулагин

Да, всё так и есть :)

Ответить
Развернуть ветку
Serge Arsentiev

Тут какая-то ерунда - вот делятся они офигенно, и все время публикуют инфу об очередном инфо-прорыве .. у них сотни (тысячи?) программистов в десятках департаментов, а сами продукты (Поиск, Почта, РСЯ) - не просто хуже Google аналогов, а еще и стремительно ухудшаются.

Может есть секрет какой, но в новом интерфейсе РСЯ гордо _спрятано_ состояние счета площадки - его просто нет. В почте в HTML макетах выборочно не работают русскоязычные закладки (anchors) на части письма (в Gmail работают). Поддержка отвечает через 3-5 дней "спасибо за Ваше письмо" ...

Из Яндекса пользуюсь Пробками (иногда), и Картами (часто, уточнить где какая компания находится).

Поиск у Яндекса обычно показывает ситуацию 2-3 месячной давности, по сравнению с Гуглом. И это еще хорошо ...

Ответить
Развернуть ветку
Денис Кулагин

Я не согласен с оценкой сервисов Яндекса. Постоянно пользуюсь некоторыми яшкиными продуктами и доволен как слон. Хотя огрехи, конечно, есть, но в целом планка качества очень высокая.

Что касается технологий — здесь Яндекс решает культурную проблему в IT-среде. Сегодня они что-то открыли/опубликовали, завтра это станет нормальным и правильным и подтянутся другие.

По факту тот гигантский пул открытых разработок, которые выдали американские компании, способствовал такому бурному росту интернета и технологий в целом. А мы чем хуже? Да ничем!

Ответить
Развернуть ветку
Андрей Захаров

Не только. Чаще всего продукты открываются чтобы задушить в зародыше попытки альтернативных разработок и подсадить всех на свои технологии.
Кто в здравом уме из менеджмента теперь выделит деньги на разработку подобной библиотеки ? Мало кто. Скажут: не зачем изобретать велосипед, вот Яндекс сделал - берите и пользуетесь. А потом удивляемся, почему столько тормозного софта и батарейка в телефоне быстро садится, а всё потому, что возможность думать, экспериментировать подавлена из-за таких вот мер нечестной конкурентной борьбы ;-)

Ответить
Развернуть ветку
Serge Arsentiev

Посоветовал знакомой конторе поставить Веб-Поиск на сайт (сотни документов). Их вебмастер воткнул Яндекс.Поиск для сайтов.

Пробую ключевое_слово (средней частоты)
Яндекс.Поиск = 64 документов
Гугл.Поиск = 143 документа

Яндекс.Поиск при этом не показывает документы, созданные или обновленные за последние месяцы - а Гугл.Поиск - показывает.

Кто в здравом уме из менеджмента будет использовать такую технологию для Интранета, например?

Ответить
Развернуть ветку
Андрей Захаров

Так мой пример на ту же тему. Надо думать своей головой и делать свое, развиваться, а не деградировать.

Ответить
Развернуть ветку
Serge Arsentiev

Думать можно, но пока, как видите, лучше получается критиковать :)

(самокритично заметил я)

Ответить
Развернуть ветку
Андрей Захаров

Есть такое дело. ;-)

Ответить
Развернуть ветку
Денис Кулагин

По скорости обновлений, приходится это признать, Яндекс проигрывает. Это обусловлено историческим выбором другого подхода к актуализации поисковой выдачи, возможно не самым удачным.

В описанном вами кейсе Яша проигрывает. Но это не повод для обобщения на все их продукты и технологии.

Ответить
Развернуть ветку
Serge Arsentiev

Они выигрывали по русской орфографии, сводя коровку, коровёнку, коровушку и коровищу к слову "корова" (во всех формах).
Какое-то время это давало серьезное конкурентное преимущество, пока поколение Y не перешло на однокоренные слова в именительном падеже при составлении поисковых запросов

"Карова малако купит"
Ищем "корова молоко купить"
Найдено 3 232 3323 результатов, уточнить запрос?

Ответить
Развернуть ветку
Андрей Захаров

Яндекс проигрывает во всем и всегда, он не технологический лидер ни разу, а вечный технологичный догоняющий ;-)

Даже Мейл.ру на его фоне уже давно намного лучше смотрится

Ответить
Развернуть ветку
Serge Arsentiev

Они по-джентельменски соревнуются за право лучшего отстающего.

Я понять не могу как ящики Gmail с 150 000 сообщений (архив кое-чего) грузятся быстрее и поиск в них быстре, чем Mail.Ru или Яндекс с 10.000 сообщений ...

Ответить
Развернуть ветку
Андрей Захаров

С почтой да, не всё хорошо, но к сожалению это всё из-за экономии.

Ответить
Развернуть ветку
Serge Arsentiev

В смысле - им придется отключать большую часть функционала, которая занимается только и исключительно защитой от накруток, от тошноты, от такого SEO приёмчика, от эдакого ... потому что в Интранете надо реально найти все документы с ключевым словом, а Яндекс.Поиск стал совсем непонятно чем ...

Ответить
Развернуть ветку
Вячеслав Вишневский

А Яндекс в этом году будет ссылки отключать?

Ответить
Развернуть ветку
Oleg

Парень, успокойся

Ответить
Развернуть ветку
Вячеслав Вишневский

Или им уже самим стыдно за такую дичь тупую?

Ответить
Развернуть ветку
Serge Arsentiev

Ну конечно, еще не все заплатили за включение в Яндекс.Каталог же ... для отчаянных домохозяек без бюджета на SEO - "ЯК" - единственный способ прободаться хотя бы в постоянную выдачу.

https://yandex.ru/adv/products/classified/catalogue#price
14 500 рублей + НДС, чтобы попасть в 90-е, в ТОП 100 нынешний
5 000 рублей + НДС, чтобы "изменить описание"

Раньше у них это счастье было так - оплачиваешь, посылаешь заявку, но они не гарантируют что включат в каталог. И тогда же еще говорили, что ЯК не даёт преимуществ в выдаче ... эх Рамблер, почему ты так не сделал в конце 90-х, хоть на прибыль бы вышел :(

Ответить
Развернуть ветку
Serge Arsentiev

Поясню - говорить говорили, но преимущество в выдаче явно появлялось, а самое главное, сайт из выдачи не пропадал после очередного "улучшения" движка.

Ответить
Развернуть ветку
Вячеслав Вишневский

"Раньше такие данные приходилось переводить на язык цифр, что могло изменить их суть и повлиять на точность работы модели. Теперь их можно использовать в первоначальном виде."

В каком первоначальном? Кубик рубика, это теперь что если не кубик? Разноцветная игрушка? А красный цвет в этой игрушке не под номером, но под чем? А? Не слышу! Отвечайте!

Снова дичь втирают какуето, да?

Ответить
Развернуть ветку
Вячеслав Вишневский

Машинный код для ИИ уже смешно, но у вас ведь и такого нет, да?
:D
:D
:D

Ответить
Развернуть ветку
Вячеслав Вишневский

"модели машинного обучения"

Какое обучение? Сканирование может? Ну или мониторинг? А, я понел, это луче продаёца, лашки ведуца, да? Или не-а? А-а-а?

Ответить
Развернуть ветку
Serge Arsentiev

Они хотели написать "Эко-модель машинного обучения Big Data, работающая с помощью нейронной сети второго порядка, предоставляющая равные права женщинам и женоподобным мужчинам с помощью блокчейн-технологии геймификации)", но потом немного сократили.

Ответить
Развернуть ветку
39 комментариев
Раскрывать всегда