Ученые Яндекса разработали и выложили в опенсорс Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем, который позволит устранить разрыв между академическими исследованиями и индустриальными потребностями. Этот разрыв обусловлен как раз тем, что для развития таких алгоритмов необходимы открытые и качественные данные, а большинство компаний ими просто не делятся.
Yambda — пример того, как коммерческий сервис (в данном случае Яндекс Музыка) становится источником данных для научного сообщества. Датасет обезличен, масштабен (до 5 миллиардов событий) и при этом сделан так, чтобы его можно было использовать в различных исследованиях — в разных размерах под имеющееся количество GPU и кодом для оценки замеров.
Компания не первый раз вкладывается в развитие опенсорс-сообщества и уже является лидером в выпуске открытых технологий. Такой подход — важный вклад в развитие отечественной научной экосистемы: доступ к современным решениям бизнеса привлекает к исследованиям рекомендательных систем молодых специалистов, что ведет к прогрессу всей области.
Подписывайтесь на Telegram-канал Грокс.