05.12.2024

В T-Bank AI Research создали открытую среду для контекстного обучения с подкреплением

Эксперименты в среде уже провели исследователи из Google DeepMind, Калифорнийского университета в Беркли и Оксфордского университета.

Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI при участии студентов из МФТИ, Сколтеха и Университета Иннополис создали первую открытую среду для исследований и разработки алгоритмов в области контекстного обучения с подкреплением — XLand-MiniGrid. Эта среда доступна для исследователей по всему миру и позволяет искусственному интеллекту обучаться на основе контекста и адаптироваться к новым задачам и ситуациям.

XLand-MiniGrid — это виртуальная платформа для создания и тестирования алгоритмов ИИ, которая уже получила высокую оценку научного сообщества. Статья XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX, была принята на крупнейшую международную конференцию в области ИИ — NeurIPS 2024, которая пройдет с 10 по 15 декабря в Ванкувере, Канада.

Контекстное обучение с подкреплением (In-Context RL) позволяет моделям быстро адаптироваться к новым условиям, используя контекст и подсказки. Это избавляет от необходимости обучать ИИ с нуля и позволяет решать задачи в реальном времени. In-Context RL особенно актуально для таких областей, как персонализированные рекомендации, управление роботами и автономными транспортными средствами, где требуется быстрая реакция на изменения.

Ранее существующие среды для контекстного обучения с подкреплением ограничивали возможности исследований. Многие корпоративные платформы закрыты для внешних разработчиков, а публичные среды предлагают лишь базовые задачи, которые не позволяют полноценно тестировать сложные алгоритмы.

XLand-MiniGrid разработана на базе JAX — высокопроизводительной технологии для создания сложных вычислительных моделей. Благодаря этому система выполняет миллиарды операций в секунду, создавая масштабируемую среду для тестирования и обучения ИИ.

С помощью среды исследователи могут собирать огромные объемы данных, что существенно ускоряет процесс разработки и тестирования алгоритмов. Например, на платформе уже собрано более 100 миллиардов примеров действий ИИ в 30 тысячах задач, что позволяет использовать готовые датасеты для обучения, экономя ресурсы и время на исследованиях.

«Когда мы начинали работать в области контекстного обучения с подкреплением, подходящих инструментов для оценки идей не существовало. Это становилось препятствием для разработки. Мы решили эту проблему с помощью XLand-MiniGrid. Сегодня мы видим, как исследователи по всему миру уже начинают использовать нашу среду для проверки новых методов».

1111

1212

32 комментария

Шляпа полная

Автор

Привет.

Судя по вашему нику, это вы из-за конкуренции написали...

Ответить

Екатерина Иванова

11.12.2024

Молодцы, впереди планеты всей, технологии развиваются, классный банк!

Ответить

Аккаунт удален

05.12.2024

Комментарий недоступен

Ответить

К М

09.12.2024

Вас не вернут обратно (по своему опыту). У них там все просто: если клиент забрал кэшбека больше чем принес прибыли, его исключат под предлогом нарушения правил

Ответить

Т-Банк

05.12.2024

Автор

Здравствуйте.

Вернемся с ответом к вашему посту: https://vc.ru/u/1435745-oleg-buria/1692667-t-bank-isklyuchil-iz-programmy-loyalnosti.

Ответить

Евгения

14.12.2024

Верните незаконно присвоенные денежные средства в размере 23900 рублей https://vc.ru/u/4307063-evgeniya/1709182-t-bank-obokral-menya-na-11950-rublei-i-isportil-vse-novogodnie-prazdniki

Как обучают нейросети и что делать, когда данные закончатся

Илон Маск и Илья Суцкевер заявляют: мы сделаем свои данные. И возьмём ваши.

Ася Карпова

ChatGPT

10 февр

Анализ рынка, настройка рекламы и разработка игр — с чем может помочь Deep research от OpenAI

Собрали несколько примеров от пользователей из социальных сетей.

Текст поста: «Кампания, которую он помог мне создать, начала приносить примерно $600 в день менее чем за пять дней при очень маленьком стартовом бюджете». Источник: Mckay Wrigley

3030

Михаил Алексеев

Будни

10м

Друзья!

Поздравляю всех с Днём защитника Отечества! Сегодня этот праздник звучит по особому. Наполнен реальными смыслами, а не просто ещё одна формальная дата... Дальше нас ждёт ещё больше борьбы и побед для славы и величия России. С праздником! https://t.me/cbaretail

Алексей Иванов

29 янв

DeepSeek: не просто хайп, а новые правила игры

Пост в X (ранее Twitter) от имени аккаунта-пародии основателя DeepSeek<br />

Что общего между Кремниевой долиной и китайским городом Ханчжоу? До вчерашнего дня — ничего. Но когда команда DeepSeek анонсировала свою новую ИИ-модель, созданную всего за 5.5 миллионов долларов, в офисах технологических гигантов начались экстренные совещания. В своей прошлой статье я упомянул новую нейросеть DeepSeek. В этой статье расскажу подро…

2020

Руслан Мусин

4 янв

Будущее развитие децентрализованных GPU и систем ИИ

Роман Куцев

28.12.2024

Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацие…

Личный кейс: как газета привела 100 клиентов?

Сегодня будет невероятный кейс! Сразу поставьте реакцию, чтоб не забыть. 2018 год, место работы - строительная компания, я - начальник pr-отдела. Мой функционал: работа над репутацией, внешний и внутренний PR, организация событий, поиск партнеров, все коммуникации, какие только можно себе представить: контент на сайт, в соцсети, спич для руководите…

Руслан Мусин

28.11.2024

INTELLECT-1: Новый шаг в распределённой тренировке ИИ

В T-Bank AI Research создали открытую среду для контекстного обучения с подкреплением

Что такое контекстное обучение с подкреплением?

Преимущества среды

Вячеслав Синий, исследователь научной группы AI Alignment, T-Bank AI Research: