Claude 3.7 Sonnet прошла игру Pokémon Red во время трансляции на Twitch

Предыдущая версия 3.5 Sonnet не смогла этого сделать — у неё не было возможности «рассуждений».

Компания Anthropic провела стрим Claude Plays Pokemon на Twitch: рассуждающая модель Claude 3.7 Sonnet играла в игру Pokémon Red для консоли Game Boy 90-ых годов.
Модели дали возможность управлять приставкой. В левой части экрана отображались «мысли» Claude, а в правой — его действия в игре.

ИИ долго рассуждал, прежде чем выполнить простые манипуляции: потратил девять минут, чтобы дойти до начала первого маршрута, не мог понять, как обойти каменную стену и найти профессора Оука среди других неигровых персонажей.

Заметил, что ниже появился новый персонаж с чёрными волосами и, похоже, в белом халате. Возможно, это профессор Оук! Сейчас спущусь и поговорю с ним.
Так «подумал» Claude, но заговорил не с тем NPC, пишет TechCrunch.

Игра Claude ускорена в 16 раз. «Девять минут и куча мыслей, чтобы добраться от лаборатории Оука до начала первого маршрута! Заняло бы десять секунд у человека», — написал зритель. Источник: Paul Calcraft

Однако за несколько часов Claude 3.7 Sonnet дошёл до финальной битвы и победил трёх лидеров спортзалов, получив их значки. Предыдущая Claude 3.5 Sonnet не смогла этого сделать. Во время тестов в 2024 году она отказывалась участвовать в сражениях и запрашивала перезапуск игры.

На графике видно, что Claude 3.7 Sonnet дошла до последнего уровня, выполнив 35 тысяч действий. Предыдущие модели не прошли и половины. Источник: Anthropic

При этом Claude «не обучали играть в игры». Компания считает, что это «проблески» ИИ, который, благодаря рассуждениям, решает задачи «более компетентно» — без необходимости специально тренировать модель.

24 февраля 2025 года Anthropic представила модель Claude 3.7 Sonnet с двумя режимами: стандартным и «расширенным» — с долгими рассуждениями. Они доступны пользователям бесплатных тарифов.

Ася Карпова

25 февр

Claude 3.7 Sonnet — «лучшая в программировании»: первые отзывы и примеры работы новой модели Anthropic

Пользователи создают мобильные приложения, игры и карточки погоды «с одной попытки».

#новости #claude #anthropic

1111

15 комментариев

Самое прикольное, что его не обучали отдельно играть в игры, а он сам просто "рассуждает")

Ответить

Griby Lenina

26 февр

Вы что, и в игры за меня играть будете?!

Ответить

Qnoc

26 февр

Интересно было бы узнать, сколько токенов на это дело потрачено, и сколько соответственно все это стоило

Предыдущая версия 3.5 Sonnet не смогла этого сделать — у неё не было возможности «рассуждений» .
Зато теперь это очень хорошее подтверждение того, что рассуждающие модели действительно работают, тому пример прохождение игры

Ответить

Фильморус

26 февр

Похоже, рассуждения это технологический режим, который разработчики использовали для отладки, а маркетологи взяли на вооружение для обоснования долгих ответов. Ведь любой модели можно просто сказать: представь ход решения и она его покажет. И не надо ничего специально городить.
Но важно ещё вот что. Многие модели, которые неплохо думают, просто не имеют достаточно знаний, чтобы дать правильный ответ: тот же Deepseek-R1 или Mistral large. И вот тогда Claude и Gemini выходят в победители. Они просто знают гораздо больше.

Ответить

sacara

26 февр

нуу для рассуждений их обучают на пошаговых инструкциях.
для отладки тоже что-то подобное, но не совсем то.
сейчас куча сервисов разметки данных где эти ллмки тренят люди-типа эксперты, там видно что и как происходит.

Claude 3.7 Sonnet: революция в мире ИИ или очередное обновление? Разбираемся в возможностях новой модели Anthropic

24 февраля 2025 года компания Anthropic представила Claude 3.7 Sonnet — новую модель искусственного интеллекта, которая позиционируется как первая гибридная модель рассуждений на рынке. Что стоит за громкими заявлениями и какие реальные преимущества может дать это обновление бизнесу и фрилансерам?

Таня Боброва

24 февр

Anthropic представила Claude 3.7 Sonnet — «гибридную» модель с возможностью рассуждений

И превью инструмента для разработчиков Claude Code.

1010

Сергей Южин

Личный опыт

2ч

Как мы ускорили мебельные проекты на 40% с помощью AI

К нам обратилась компания, которая занимается мебельным производством. У них был сформированный поток заказов, опытная команда и своя специфика: каждый проект — уникальный. И каждый требует точного просчёта, согласования с клиентом, визуализации и передачи в производство.

Таня Боброва

3 мар

Anthropic привлекла $3,5 млрд при оценке в $61,5 млрд

В 2024 году разработчика чат-бота Claude оценивали в $18 млрд.

Баттл ИИ в январе 2025 - сравниваем с новым DeepSeek R1

Claude 3.7 Sonnet. Полное руководство по использованию самой умной модели Anthropic

Искусственный интеллект становится всё умнее, мощнее и доступнее — использовать эти технологии и не ощутить прирост в продуктивности уже невозможно. Недавно компания Anthropic представила свою самую интеллектуальную модель на сегодняшний день — Claude 3.7 Sonnet. Это первая гибридная модель рассуждения на рынке, и она меняет правила игры. Разбираем…

Проектное резюме консультанта 1С: карьерный инструмент, чтобы выделиться среди других кандидатов

Рассказываем о продвинутой альтернативе привычного резюме для консультантов 1C и других специалистов с проектной занятостью.

Весточка

5 мар

Дайджест нейроновостей за февраль

AI Adepts

24 февр

Claude 3.7 Sonnet: новый шаг в развитии AI от Anthropic

Claude 3.7 Sonnet, выпущенный в феврале 2025 года, представляет собой значительное обновление в линейке моделей Anthropic. Давайте рассмотрим его ключевые особенности и сравним с другими решениями на рынке.

Claude 3.7 Sonnet: Новая Эра Искусственного Интеллекта

В мире технологий каждое обновление крупных моделей языкового искусственного интеллекта становится настоящим событием, и недавний релиз Claude 3.7 Sonnet от компании Anthropic не стал исключением 3. Это обновление представляет собой значительный шаг вперед в развитии ИИ-моделей, предлагая пользователям новые возможности для решения сложных задач и…

Наташа Хазеева

24 февр

Anthropic запускает новую гибридную ИИ модель, которая «думает» сколько захотите

Anthropic выпускает новую ИИ модель под названием Claude 3.7 Sonnet. Расскажу, зачем вообще модели думать (и особенно – долго).

Выбор того, как долго может рассуждать модель. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ftechcrunch.com%2F2025%2F02%2F24%2Fanthropic-launches-a-new-ai-model-that-thinks-as-long-as-you-want%2F&postId=1831635" rel="nofollow noreferrer noopener" target="_blank">Источник</a>.

AI Nerd

23 мар

Claude теперь умеет искать в интернете — Anthropic добавил веб-поиск

Компания Anthropic недавно расширила возможности своей модели Claude, добавив функцию веб-поиска. Теперь Claude может получать актуальную информацию из интернета, что позволяет ему предоставлять более точные и своевременные ответы. Эта функция уже доступна для платных пользователей в США и будет расширена на бесплатные аккаунты и другие страны в бл…