«Яндекс» открыл алгоритм машинного обучения CatBoost, который планирует использовать в «Поиске» и других продуктах Статьи редакции
«Яндекс» открыл исходный код алгоритма машинного обучения CatBoost, которым компания планирует заменить «Матрикснет» в «Поиске» и всех остальных своих проектах. Сторонние разработчики смогут бесплатно использовать CatBoost в собственных системах для прогнозирования или анализа данных. Об этом vc.ru рассказали представители компании.
С помощью инструментов CatBoost сторонние разработчики смогут внедрить и настроить в собственных продуктах модели машинного обучения, занимающиеся анализом разнородных данных сразу нескольких типов — например, о местонахождении пользователя, истории операций и типе устройства.
Разработку можно использовать в самых разных областях, в которых для прогнозирования или анализа важно учитывать сразу несколько типов факторов, влияющих на результат, говорят в «Яндексе».
«Яндекс» пока не применяет CatBoost в своих проектах полноценно, но разработчики уже провели тестирование технологии и она «показала свою состоятельность». В «Поиске» и других сервисах компания с 2009 года использует другой алгоритм машинного обучения — «Матрикснет».
Постепенно CatBoost заменит «Матрикснет» во всех продуктах компании, говорят представители «Яндекса». Точные сроки внедрения компания не называет.
CatBoost, как и «Матрикснет», реализует модель градиентного бустинга. Особенность алгоритмов машинного обучения такого типа заключается в том, что они эффективнее, чем другие модели, работают с разнородными данными, которые описывают различные факторы: например, информацию о демографии, предпочтениях пользователя и историю запросов.
Основным преимуществом CatBoost перед «Матрикснетом» создатели называют его способность работать не только с числовыми, но и с другими данными.
В беседе с vc.ru представители компании также отметили, что «Яндекс» никогда не предоставлял сторонним разработчикам прямого доступа к алгоритму «Матрикснет». Они могли использовать «Матрикснет» лишь косвенно — через API других продуктов компании.
В репозитории CatBoost на GitHub сторонним разработчикам доступны все необходимые библиотеки для внедрения алгоритма CatBoost в свои системы, обучающие материалы и несколько примеров использования технологии, а также инструмент CatBoost Viewer для визуализации работы алгоритма.
Библиотека доступна на языках программирования R и Python, она поддерживает операционные системы Linux, Windows и macOS.
И тишина,.. все побежали кодить?
Ну интересно же!
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Надо будет затестить. Пожелание к представителям Яндекса: сделайте демо-кейс с какой-нибудь toy-задачей, реализованной на основе CatBoost. По опыту это позволяет гораздо быстрее "въехать" в незнакомый фреймворк и начать использовать его в собственных проектах.
у них довольно хорошая документация и примеры.
Денис, уже, есть несколько на выбор: https://github.com/catboost/catboost/tree/master/catboost/tutorials
:)
Спасибо, то что нужно!
CatBoost.ru забрал. Видимо просто так, как в 80% регистраций потратил денег )
в Яндексе все в шоке, как они без этого домена
я думаю яндекс уже задумался над сворачиванием CatBoost-а, домена то нет...
Офигеть! Чувак! Ты просто крутой! Не ну! Офигеть!
главное оценил!
Вам еще надо зарегать Баден-Баден и Палех
могу. прислать карту сбера?
А если у Яндекса торговая марка, заберут домен?
У них https://catboost.yandex/
Самое грустное в этом всем, что большие компании, как обычно открывают доступ к подобным сервисам лишь для того, чтобы обучить собственные сетки, а затем после набора нужных данных доступ прикрывается и пользователь дурачок остаётся ни с чем. В принципе это хорошо продемонстрировано на истории с Yandex Market.
Они выложили исходный код, а не доступ к сервису
Одна из целей публикации открытых технологий — получать ценный фидбек от сообщества и развивать свою разработку.
Получается win-win — людям полезный тул, компании бесплатные тестировщики и массовая обкатка на интересных кейсах.
P.S. Яндекс уже делился технологиями, я говорю про ClickHouse, Томита-парсер, mystem. Так что ваш пессимизм в данном случае необоснован.
Верно все написали, я бы еще добавил что компаниям выгодно публиковать код потому что программисты, зная что он будет на гитхабе, будут делать его максимально чистым с минимумом костылей и прочего безобразия в структуре кода.
Гитхаб по сути контролирует программистов по лучше любого начальника сверху.
Да, всё так и есть :)
Тут какая-то ерунда - вот делятся они офигенно, и все время публикуют инфу об очередном инфо-прорыве .. у них сотни (тысячи?) программистов в десятках департаментов, а сами продукты (Поиск, Почта, РСЯ) - не просто хуже Google аналогов, а еще и стремительно ухудшаются.
Может есть секрет какой, но в новом интерфейсе РСЯ гордо _спрятано_ состояние счета площадки - его просто нет. В почте в HTML макетах выборочно не работают русскоязычные закладки (anchors) на части письма (в Gmail работают). Поддержка отвечает через 3-5 дней "спасибо за Ваше письмо" ...
Из Яндекса пользуюсь Пробками (иногда), и Картами (часто, уточнить где какая компания находится).
Поиск у Яндекса обычно показывает ситуацию 2-3 месячной давности, по сравнению с Гуглом. И это еще хорошо ...
Я не согласен с оценкой сервисов Яндекса. Постоянно пользуюсь некоторыми яшкиными продуктами и доволен как слон. Хотя огрехи, конечно, есть, но в целом планка качества очень высокая.
Что касается технологий — здесь Яндекс решает культурную проблему в IT-среде. Сегодня они что-то открыли/опубликовали, завтра это станет нормальным и правильным и подтянутся другие.
По факту тот гигантский пул открытых разработок, которые выдали американские компании, способствовал такому бурному росту интернета и технологий в целом. А мы чем хуже? Да ничем!
Не только. Чаще всего продукты открываются чтобы задушить в зародыше попытки альтернативных разработок и подсадить всех на свои технологии.
Кто в здравом уме из менеджмента теперь выделит деньги на разработку подобной библиотеки ? Мало кто. Скажут: не зачем изобретать велосипед, вот Яндекс сделал - берите и пользуетесь. А потом удивляемся, почему столько тормозного софта и батарейка в телефоне быстро садится, а всё потому, что возможность думать, экспериментировать подавлена из-за таких вот мер нечестной конкурентной борьбы ;-)
Посоветовал знакомой конторе поставить Веб-Поиск на сайт (сотни документов). Их вебмастер воткнул Яндекс.Поиск для сайтов.
Пробую ключевое_слово (средней частоты)
Яндекс.Поиск = 64 документов
Гугл.Поиск = 143 документа
Яндекс.Поиск при этом не показывает документы, созданные или обновленные за последние месяцы - а Гугл.Поиск - показывает.
Кто в здравом уме из менеджмента будет использовать такую технологию для Интранета, например?
Так мой пример на ту же тему. Надо думать своей головой и делать свое, развиваться, а не деградировать.
Думать можно, но пока, как видите, лучше получается критиковать :)
(самокритично заметил я)
Есть такое дело. ;-)
По скорости обновлений, приходится это признать, Яндекс проигрывает. Это обусловлено историческим выбором другого подхода к актуализации поисковой выдачи, возможно не самым удачным.
В описанном вами кейсе Яша проигрывает. Но это не повод для обобщения на все их продукты и технологии.
Они выигрывали по русской орфографии, сводя коровку, коровёнку, коровушку и коровищу к слову "корова" (во всех формах).
Какое-то время это давало серьезное конкурентное преимущество, пока поколение Y не перешло на однокоренные слова в именительном падеже при составлении поисковых запросов
"Карова малако купит"
Ищем "корова молоко купить"
Найдено 3 232 3323 результатов, уточнить запрос?
Яндекс проигрывает во всем и всегда, он не технологический лидер ни разу, а вечный технологичный догоняющий ;-)
Даже Мейл.ру на его фоне уже давно намного лучше смотрится
Они по-джентельменски соревнуются за право лучшего отстающего.
Я понять не могу как ящики Gmail с 150 000 сообщений (архив кое-чего) грузятся быстрее и поиск в них быстре, чем Mail.Ru или Яндекс с 10.000 сообщений ...
С почтой да, не всё хорошо, но к сожалению это всё из-за экономии.
В смысле - им придется отключать большую часть функционала, которая занимается только и исключительно защитой от накруток, от тошноты, от такого SEO приёмчика, от эдакого ... потому что в Интранете надо реально найти все документы с ключевым словом, а Яндекс.Поиск стал совсем непонятно чем ...
А Яндекс в этом году будет ссылки отключать?
Парень, успокойся
Или им уже самим стыдно за такую дичь тупую?
Ну конечно, еще не все заплатили за включение в Яндекс.Каталог же ... для отчаянных домохозяек без бюджета на SEO - "ЯК" - единственный способ прободаться хотя бы в постоянную выдачу.
https://yandex.ru/adv/products/classified/catalogue#price
14 500 рублей + НДС, чтобы попасть в 90-е, в ТОП 100 нынешний
5 000 рублей + НДС, чтобы "изменить описание"
Раньше у них это счастье было так - оплачиваешь, посылаешь заявку, но они не гарантируют что включат в каталог. И тогда же еще говорили, что ЯК не даёт преимуществ в выдаче ... эх Рамблер, почему ты так не сделал в конце 90-х, хоть на прибыль бы вышел :(
Поясню - говорить говорили, но преимущество в выдаче явно появлялось, а самое главное, сайт из выдачи не пропадал после очередного "улучшения" движка.
"Раньше такие данные приходилось переводить на язык цифр, что могло изменить их суть и повлиять на точность работы модели. Теперь их можно использовать в первоначальном виде."
В каком первоначальном? Кубик рубика, это теперь что если не кубик? Разноцветная игрушка? А красный цвет в этой игрушке не под номером, но под чем? А? Не слышу! Отвечайте!
Снова дичь втирают какуето, да?
Машинный код для ИИ уже смешно, но у вас ведь и такого нет, да?
:D
:D
:D
"модели машинного обучения"
Какое обучение? Сканирование может? Ну или мониторинг? А, я понел, это луче продаёца, лашки ведуца, да? Или не-а? А-а-а?
Они хотели написать "Эко-модель машинного обучения Big Data, работающая с помощью нейронной сети второго порядка, предоставляющая равные права женщинам и женоподобным мужчинам с помощью блокчейн-технологии геймификации)", но потом немного сократили.