В T-Bank AI Research создали открытую среду для контекстного обучения с подкреплением

Эксперименты в среде уже провели исследователи из Google DeepMind, Калифорнийского университета в Беркли и Оксфордского университета.

В T-Bank AI Research создали открытую среду для контекстного обучения с подкреплением

Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI при участии студентов из МФТИ, Сколтеха и Университета Иннополис создали первую открытую среду для исследований и разработки алгоритмов в области контекстного обучения с подкреплением — XLand-MiniGrid. Эта среда доступна для исследователей по всему миру и позволяет искусственному интеллекту обучаться на основе контекста и адаптироваться к новым задачам и ситуациям.

XLand-MiniGrid — это виртуальная платформа для создания и тестирования алгоритмов ИИ, которая уже получила высокую оценку научного сообщества. Статья XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX, была принята на крупнейшую международную конференцию в области ИИ — NeurIPS 2024, которая пройдет с 10 по 15 декабря в Ванкувере, Канада.

Что такое контекстное обучение с подкреплением?

Контекстное обучение с подкреплением (In-Context RL) позволяет моделям быстро адаптироваться к новым условиям, используя контекст и подсказки. Это избавляет от необходимости обучать ИИ с нуля и позволяет решать задачи в реальном времени. In-Context RL особенно актуально для таких областей, как персонализированные рекомендации, управление роботами и автономными транспортными средствами, где требуется быстрая реакция на изменения.

Преимущества среды

Ранее существующие среды для контекстного обучения с подкреплением ограничивали возможности исследований. Многие корпоративные платформы закрыты для внешних разработчиков, а публичные среды предлагают лишь базовые задачи, которые не позволяют полноценно тестировать сложные алгоритмы.

XLand-MiniGrid разработана на базе JAX — высокопроизводительной технологии для создания сложных вычислительных моделей. Благодаря этому система выполняет миллиарды операций в секунду, создавая масштабируемую среду для тестирования и обучения ИИ.

С помощью среды исследователи могут собирать огромные объемы данных, что существенно ускоряет процесс разработки и тестирования алгоритмов. Например, на платформе уже собрано более 100 миллиардов примеров действий ИИ в 30 тысячах задач, что позволяет использовать готовые датасеты для обучения, экономя ресурсы и время на исследованиях.

Вячеслав Синий, исследователь научной группы AI Alignment, T-Bank AI Research:

«Когда мы начинали работать в области контекстного обучения с подкреплением, подходящих инструментов для оценки идей не существовало. Это становилось препятствием для разработки. Мы решили эту проблему с помощью XLand-MiniGrid. Сегодня мы видим, как исследователи по всему миру уже начинают использовать нашу среду для проверки новых методов».

1111
11
32 комментария

Шляпа полная

3

Привет.

Судя по вашему нику, это вы из-за конкуренции написали...

1

Молодцы, впереди планеты всей, технологии развиваются, классный банк!

1
1

Комментарий недоступен

Вас не вернут обратно (по своему опыту). У них там все просто: если клиент забрал кэшбека больше чем принес прибыли, его исключат под предлогом нарушения правил

1

Здравствуйте.

Вернемся с ответом к вашему посту: https://vc.ru/u/1435745-oleg-buria/1692667-t-bank-isklyuchil-iz-programmy-loyalnosti.

Верните незаконно присвоенные денежные средства в размере 23900 рублей https://vc.ru/u/4307063-evgeniya/1709182-t-bank-obokral-menya-na-11950-rublei-i-isportil-vse-novogodnie-prazdniki

Раскрывать всегда
Как обучают нейросети и что делать, когда данные закончатся

Илон Маск и Илья Суцкевер заявляют: мы сделаем свои данные. И возьмём ваши.

Как обучают нейросети и что делать, когда данные закончатся
22
Анализ рынка, настройка рекламы и разработка игр — с чем может помочь Deep research от OpenAI

Собрали несколько примеров от пользователей из социальных сетей.

Текст поста: «Кампания, которую он помог мне создать, начала приносить примерно $600 в день менее чем за пять дней при очень маленьком стартовом бюджете». Источник: Mckay Wrigley
3030
99
22
11
11
Личины мужественности: психология мужчин
Личины мужественности: психология мужчин
DeepSeek: не просто хайп, а новые правила игры
Пост в X (ранее Twitter) от имени аккаунта-пародии основателя DeepSeek<br />

Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подро…

2020
66
11
Будущее развитие децентрализованных GPU и систем ИИ
Будущее развитие децентрализованных GPU и систем ИИ
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацие…

11
Управление изменениями из практики внедрения процессного подхода в двух организациях

При внедрении процессного управления не менее важным этапом являются мероприятия после выполнения основных работ по описанию и оптимизации бизнес-процессов. Далее рассмотрим реальные примеры из опыта двух организаций и конкретные шаги по управлению изменениями.

Управление изменениями из практики внедрения процессного подхода в двух организациях
11
11
INTELLECT-1: Новый шаг в распределённой тренировке ИИ
INTELLECT-1: Новый шаг в распределённой тренировке ИИ
11
[]