В T-Bank AI Research создали открытую среду для контекстного обучения с подкреплением

Эксперименты в среде уже провели исследователи из Google DeepMind, Калифорнийского университета в Беркли и Оксфордского университета.

В T-Bank AI Research создали открытую среду для контекстного обучения с подкреплением

Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI при участии студентов из МФТИ, Сколтеха и Университета Иннополис создали первую открытую среду для исследований и разработки алгоритмов в области контекстного обучения с подкреплением — XLand-MiniGrid. Эта среда доступна для исследователей по всему миру и позволяет искусственному интеллекту обучаться на основе контекста и адаптироваться к новым задачам и ситуациям.

XLand-MiniGrid — это виртуальная платформа для создания и тестирования алгоритмов ИИ, которая уже получила высокую оценку научного сообщества. Статья XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX, была принята на крупнейшую международную конференцию в области ИИ — NeurIPS 2024, которая пройдет с 10 по 15 декабря в Ванкувере, Канада.

Что такое контекстное обучение с подкреплением?

Контекстное обучение с подкреплением (In-Context RL) позволяет моделям быстро адаптироваться к новым условиям, используя контекст и подсказки. Это избавляет от необходимости обучать ИИ с нуля и позволяет решать задачи в реальном времени. In-Context RL особенно актуально для таких областей, как персонализированные рекомендации, управление роботами и автономными транспортными средствами, где требуется быстрая реакция на изменения.

Преимущества среды

Ранее существующие среды для контекстного обучения с подкреплением ограничивали возможности исследований. Многие корпоративные платформы закрыты для внешних разработчиков, а публичные среды предлагают лишь базовые задачи, которые не позволяют полноценно тестировать сложные алгоритмы.

XLand-MiniGrid разработана на базе JAX — высокопроизводительной технологии для создания сложных вычислительных моделей. Благодаря этому система выполняет миллиарды операций в секунду, создавая масштабируемую среду для тестирования и обучения ИИ.

С помощью среды исследователи могут собирать огромные объемы данных, что существенно ускоряет процесс разработки и тестирования алгоритмов. Например, на платформе уже собрано более 100 миллиардов примеров действий ИИ в 30 тысячах задач, что позволяет использовать готовые датасеты для обучения, экономя ресурсы и время на исследованиях.

Вячеслав Синий, исследователь научной группы AI Alignment, T-Bank AI Research:

«Когда мы начинали работать в области контекстного обучения с подкреплением, подходящих инструментов для оценки идей не существовало. Это становилось препятствием для разработки. Мы решили эту проблему с помощью XLand-MiniGrid. Сегодня мы видим, как исследователи по всему миру уже начинают использовать нашу среду для проверки новых методов».

1111
11
32 комментария

Шляпа полная

3

Привет.

Судя по вашему нику, это вы из-за конкуренции написали...

1

Молодцы, впереди планеты всей, технологии развиваются, классный банк!

1
1

Комментарий недоступен

Вас не вернут обратно (по своему опыту). У них там все просто: если клиент забрал кэшбека больше чем принес прибыли, его исключат под предлогом нарушения правил

1

Здравствуйте.

Вернемся с ответом к вашему посту: https://vc.ru/u/1435745-oleg-buria/1692667-t-bank-isklyuchil-iz-programmy-loyalnosti.