«Яндекс» опубликовал набор данных беспилотников для исследований в области машинного обучения

А также данные «Переводчика» и «Погоды».

Это самый большой в мире массив данных такого типа в открытом доступе: он содержит более 1600 часов движения, разбитых на 600 тысяч размеченных фрагментов поездок на дорогах России, Израиля и США в хорошую погоду, снег и дождь, рассказали vc.ru в «Яндексе».

Датасет опубликовали для конкурса Shifts Challenge, который «Яндекс» проведёт в рамках международной конференции NeurIPS 2021 совместно с учёными из Оксфорда и Кембриджа.

Задача конкурса — привлечь внимание к проблеме «сдвига данных» в машинном обучении.

Сдвиг данных возможен везде, где модели машинного обучения сталкиваются с неопределённостью — незнакомыми ситуациями и неизвестными данными. Для конкурса «Яндекс» выбрал три области — предсказание траектории движения транспорта и пешеходов на дороге, прогнозирование погоды и машинный перевод текстов.

Участники конкурса должны будут создать устойчивые к сдвигу модели — например, модель машинного перевода, которая обучалась на художественной литературе, но может качественно переводить и твиты, и ролики на YouTube.

Для конкурса исследователи «Яндекса» вместе с командами «Яндекс.Погоды», «Переводчика» и беспилотных технологий предоставили данные сервисов, решающих практические задачи и часто сталкивающихся со сдвигом. Скачать данные можно на GitHub.

Исследователи должны будут обучить алгоритмы на предоставленных данных, а затем проверить качество их работы в условиях сдвига. Создатели алгоритмов, которые покажут лучшее качество, получат денежные призы.

Сам конкурс проходит с 16 июля по 30 ноября, в каждой области выберут по три победителя — за первое место приз $5000, второе — $3000, третье — $1000

Все данные обезличены. Так, в наборе данных по беспилотникам есть высокоточные карты маршрутов и треки всех окружающих машин и пешеходов (их положение, скорость), но в нём нет видео, где были бы видны номера машин или лица прохожих.

2121
15 комментариев

Комментарий недоступен

16
Ответить

Ты видел размер призового фонда?

2
Ответить
Комментарий удалён модератором

приз обычно символичный, но если ты выиграешь конкурс, то тебе сделают много предложений о работе, так как их в основном и проводят чтобы найти сотрудников и новые подходы

8
Ответить

Это самый большой в мире массив данных такого типа в открытом доступе: он содержит более 1600 часов движения, разбитых на 600 тысяч размеченных фрагментов поездок на дорогах России, Израиля и США в хорошую погоду, снег и дождь. Ну это круто очень!

1
Ответить

Выметнута крошечная пыль данных и поставлена нереальная для такого объема задача за смехотворное вознаграждение

1
Ответить