реклама
разместить

GPT-4o, o1 и Claude не смогли выполнить «большинство» реальных фриланс-задач на программирование — исследование OpenAI

Больше всех на платформе для фрилансеров Upwork «заработал» бы Claude 3.5 Sonnet.

  • Исследователи отобрали более 1400 задач на программирование с американской фриланс-биржи Upwork. Выполнив их все, можно было бы заработать $1 млн.
  • В тесте участвовали модели GPT-4o, o1 и Claude 3.5 Sonnet — они «заработали» $304 тысячи, $380 тысяч и $403 тысячи соответственно.
Суммарные выплаты, которые бы получили модели за выполненные задач на фриланс-бирже. Источник здесь и далее: OpenAI
Суммарные выплаты, которые бы получили модели за выполненные задач на фриланс-бирже. Источник здесь и далее: OpenAI
  • Исследование включало разные инженерные задачи на исправление ошибок в коде и разработку функций стоимостью от $50 до $32 тысяч. Также были более сложные управленческие задачи, в которых нужно было выбрать наилучшие решения, представленные фрилансерами. Во втором случае все модели справились лучше.
Модели показывают лучшие результаты в наборе тестов SWE Manager на управленческие задачи
Модели показывают лучшие результаты в наборе тестов SWE Manager на управленческие задачи
  • На основе исследования OpenAI представила бенчмарк SWE-Lancer для оценки навыков ИИ-моделей на реальных инженерных задачах. Компания предполагает, что такой подход позволит исследовать экономическое влияние искусственного интеллекта на рынок труда.
99
33
11
реклама
разместить
55 комментариев

они «заработали» $304 000, $380 000 и $403 000 соответственноРазработчики Авито и Сбера

18
7

Для замены Вадима не нужна нейросеть, достаточно Акинатора.

8
1

Заголовок как будто негативит на ИИ, но если вдуматься - лучший ИИ заработал 400к$ из миллиона, то есть можно считать, что рынок программирования на фрилансе уже отрубился почти в 2(!) раза, а нейронки еще могут потенциально развиваться в дальнейшем...

17

отрубился почти в 2(!) разаТак как все теперь используют ИИ, стоимость заказов падает, а их количество растёт, как при любом падении цены

Думаю, что в деньгах общий рынок вырастет, но теперь без ИИ выполнять заказы конкурентно будет невозможно.

12

раньше легкие заказы перехватывали индусы, сейчас будут перехватывать индусы с чатгпт. Какая разница?

6
Раскрывать всегда
GPT-4.5 — модель с «эмоциональным интеллектом» и «человечными» ответами: отзывы и критика

Собрали комментарии разработчиков, примеры использования и тесты.

1717
22
11
Anthropic представила Claude 3.7 Sonnet — «гибридную» модель с возможностью рассуждений

И превью инструмента для разработчиков Claude Code.

Источник: Anthropic
1010
44
11
От скидок к эмоциям: как бренды начинают инвестировать в лояльность через эмоциональный контакт
От скидок к эмоциям: как бренды начинают инвестировать в лояльность через эмоциональный контакт
Разработчики протестировали ИИ-модели с помощью игры Super Mario — дольше всех играла Claude 3.7 Sonnet

А быстрее всех «умерла» GPT-4o.

1818
66
11
YandexGPT крашнулась на кнопке старт...
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацие…

11
Anthropic привлекла $3,5 млрд при оценке в $61,5 млрд

В 2024 году разработчика чат-бота Claude оценивали в $18 млрд.

55
33
Откуда брать лиды на воронки в проект без бюджета?

Все мы понимаем, что сейчас идет трансформация рынка рекламы. Какие то источники трафика становятся неактуальными, что-то выходит из строя, а что-то вовсе блокируют или запрещают.

Claude 3.7 Sonnet: новый шаг в развитии AI от Anthropic
Сравнение по задачам

Claude 3.7 Sonnet, выпущенный в феврале 2025 года, представляет собой значительное обновление в линейке моделей Anthropic. Давайте рассмотрим его ключевые особенности и сравним с другими решениями на рынке.

Anthropic запускает новую гибридную ИИ модель, которая «думает» сколько захотите

Anthropic выпускает новую ИИ модель под названием Claude 3.7 Sonnet. Расскажу, зачем вообще модели думать (и особенно – долго).

Выбор того, как долго может рассуждать модель. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ftechcrunch.com%2F2025%2F02%2F24%2Fanthropic-launches-a-new-ai-model-that-thinks-as-long-as-you-want%2F&postId=1831635" rel="nofollow noreferrer noopener" target="_blank">Источник</a>.
33
реклама
разместить
🤯 Обзор актуальных LLM
11
Анализ сравнения искусственного интеллекта: DeepSeek v3 против Титанов Обучения GPT-4.5 и Claude 3.5

Появление каждой новой модели вызывает огромный интерес и ожидания. Недавнее обновление для DeepSeek v3, предлагающее, ну мягко говоря, очень доступный API, стало поводом для пристального изучения его возможностей и сравнения с признанными лидерами отрасли. Последние представленные результаты тестирования MMUL-Pro, GPOA, AIME и LiveCodeBench, особе…

OpenAI выпустили технический отчет новой GPT-4.5: чем она лучше предшественников?