Claude 3.7 Sonnet прошла игру Pokémon Red во время трансляции на Twitch
Предыдущая версия 3.5 Sonnet не смогла этого сделать — у неё не было возможности «рассуждений».
- Компания Anthropic провела стрим Claude Plays Pokemon на Twitch: рассуждающая модель Claude 3.7 Sonnet играла в игру Pokémon Red для консоли Game Boy 90-ых годов.
- Модели дали возможность управлять приставкой. В левой части экрана отображались «мысли» Claude, а в правой — его действия в игре.
- ИИ долго рассуждал, прежде чем выполнить простые манипуляции: потратил девять минут, чтобы дойти до начала первого маршрута, не мог понять, как обойти каменную стену и найти профессора Оука среди других неигровых персонажей.
Заметил, что ниже появился новый персонаж с чёрными волосами и, похоже, в белом халате. Возможно, это профессор Оук! Сейчас спущусь и поговорю с ним.
- Однако за несколько часов Claude 3.7 Sonnet дошёл до финальной битвы и победил трёх лидеров спортзалов, получив их значки. Предыдущая Claude 3.5 Sonnet не смогла этого сделать. Во время тестов в 2024 году она отказывалась участвовать в сражениях и запрашивала перезапуск игры.
- При этом Claude «не обучали играть в игры». Компания считает, что это «проблески» ИИ, который, благодаря рассуждениям, решает задачи «более компетентно» — без необходимости специально тренировать модель.
- 24 февраля 2025 года Anthropic представила модель Claude 3.7 Sonnet с двумя режимами: стандартным и «расширенным» — с долгими рассуждениями. Они доступны пользователям бесплатных тарифов.
24 февраля 2025 года компания Anthropic представила Claude 3.7 Sonnet — новую модель искусственного интеллекта, которая позиционируется как первая гибридная модель рассуждений на рынке. Что стоит за громкими заявлениями и какие реальные преимущества может дать это обновление бизнесу и фрилансерам?
К нам обратилась компания, которая занимается мебельным производством. У них был сформированный поток заказов, опытная команда и своя специфика: каждый проект — уникальный. И каждый требует точного просчёта, согласования с клиентом, визуализации и передачи в производство.
Искусственный интеллект становится всё умнее, мощнее и доступнее — использовать эти технологии и не ощутить прирост в продуктивности уже невозможно. Недавно компания Anthropic представила свою самую интеллектуальную модель на сегодняшний день — Claude 3.7 Sonnet. Это первая гибридная модель рассуждения на рынке, и она меняет правила игры. Разбираем…
Рассказываем о продвинутой альтернативе привычного резюме для консультантов 1C и других специалистов с проектной занятостью.
Claude 3.7 Sonnet, выпущенный в феврале 2025 года, представляет собой значительное обновление в линейке моделей Anthropic. Давайте рассмотрим его ключевые особенности и сравним с другими решениями на рынке.
В мире технологий каждое обновление крупных моделей языкового искусственного интеллекта становится настоящим событием, и недавний релиз Claude 3.7 Sonnet от компании Anthropic не стал исключением 3. Это обновление представляет собой значительный шаг вперед в развитии ИИ-моделей, предлагая пользователям новые возможности для решения сложных задач и…
Anthropic выпускает новую ИИ модель под названием Claude 3.7 Sonnet. Расскажу, зачем вообще модели думать (и особенно – долго).
Компания Anthropic недавно расширила возможности своей модели Claude, добавив функцию веб-поиска. Теперь Claude может получать актуальную информацию из интернета, что позволяет ему предоставлять более точные и своевременные ответы. Эта функция уже доступна для платных пользователей в США и будет расширена на бесплатные аккаунты и другие страны в бл…
Самое прикольное, что его не обучали отдельно играть в игры, а он сам просто "рассуждает")
Вы что, и в игры за меня играть будете?!
Интересно было бы узнать, сколько токенов на это дело потрачено, и сколько соответственно все это стоило
Предыдущая версия 3.5 Sonnet не смогла этого сделать — у неё не было возможности «рассуждений» .
Зато теперь это очень хорошее подтверждение того, что рассуждающие модели действительно работают, тому пример прохождение игры
Похоже, рассуждения это технологический режим, который разработчики использовали для отладки, а маркетологи взяли на вооружение для обоснования долгих ответов. Ведь любой модели можно просто сказать: представь ход решения и она его покажет. И не надо ничего специально городить.
Но важно ещё вот что. Многие модели, которые неплохо думают, просто не имеют достаточно знаний, чтобы дать правильный ответ: тот же Deepseek-R1 или Mistral large. И вот тогда Claude и Gemini выходят в победители. Они просто знают гораздо больше.
нуу для рассуждений их обучают на пошаговых инструкциях.
для отладки тоже что-то подобное, но не совсем то.
сейчас куча сервисов разметки данных где эти ллмки тренят люди-типа эксперты, там видно что и как происходит.