Я 8 часов тестировал модель o1 Pro за 200$ и сравнил ее с Claude Sonnet 3.5 за 20$. Вот что никто не говорит вам о разнице в реальной производительности

Я 8 часов тестировал модель o1 Pro за 200$ и сравнил ее с Claude Sonnet 3.5 за 20$. Вот что никто не говорит вам о разнице в реальной производительности

После всей шумихи вокруг выхода o1 Pro я решил провести обширное сравнение. Результаты оказались неожиданными, и я решил поделиться своими выводами с сообществом.

Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! В боте вы найдете GPTo1/Gemini/Claude, MidJourney, DALL-E 3, Flux, Ideogram и Recraft, LUMA, Runway, Kling, Suno, Pika, Hailuo AI (Minimax), Синхронизатор губ, Редактор с 12 различными ИИ-инструментами для ретуши фото.

В боте - безлимит запросов к модели o1.


☝Это только часть функций, доступных в SYNTX!

Методология тестирования

Я проверил обе модели в идентичных сценариях, ориентируясь на реальные приложения, а не просто на бенчмарки. Каждое испытание повторялось несколько раз, чтобы обеспечить согласованность.

Основные выводы

  1. Сложные рассуждения. Победитель: o1 Pro (но перевес меньше, чем можно было бы ожидать) ✅ На ответы уходит на 20-30 секунд больше времени ✅ У Claude Sonnet 3.5 - до 90% точности за значительно меньшее время.
  2. Генерация кода.Победитель: Claude Sonnet 3.5 ✅ Более чистый, более удобный для поддержки код ✅ Более качественная документация ✅ o1 Pro имеет тенденцию к чрезмерной сложности решений
  3. Высшая математика. Победитель: o1 Pro ✅ Превосходно справляется с задачами уровня доктора философии ✅ Claude Sonnet 3.5 отлично справляется с 95% практических математических задач
  4. Анализ зрения. Победитель: o1 Pro ✅ Детальная интерпретация изображений ✅ Claude Sonnet 3.5 пока не обладает расширенными возможностями зрения
  5. Научное мышление. Ничья ✅ o1 Pro: более глубокий анализ ✅ Claude Sonnet 3.5: более четкие объяснения

Разбивка предложений по стоимости

o1 Pro (200 долларов в месяц)

  • Превосходное решение задач уровня доктора философии
  • Возможности зрения
  • Более глубокие рассуждения
  • Дополнительные 5-10% точности в сложных задачах

Claude Sonnet 3.5 ($20/месяц)

  • Более быстрые ответы
  • Более стабильная работа
  • Превосходная помощь в программировании
  • Справляется с 90-95% задач так же хорошо.

Интересные наблюдения

  • Разница во времени отклика очень заметна - o1 Pro часто требуется 20-30 секунд, чтобы «подумать»
  • Способности Claude Sonnet 3.5 к программированию удивительно хороши
  • Соотношение цены и производительности в значительной степени говорит в пользу Claude Sonnet 3.5 для большинства случаев использования

Стоит ли платить в 10 раз больше?

Для большинства пользователей, вероятно, нет. Вот почему:

  1. Разница в производительности не так велика, как разница в цене
  2. Claude Sonnet 3.5 отлично справляется с большинством практических задач
  3. Дополнительные возможности o1 Pro полезны в основном для специализированной академической или исследовательской работы

Какую модель лучше использовать?

Выбирайте o1 Pro, если

  • Вам нужны возможности технического зрения
  • Вы работаете с математическим/научным контентом уровня доктора философии
  • Дополнительные 5-10% точности очень важны для вашей работы
  • Бюджет не является главной задачей.

Выбирайте Claude Sonnet 3.5, если:

  • Вам нужны надежные и быстрые ответы
  • Вы много занимаетесь программированием
  • Вы хотите получить оптимальное соотношение цены и качества
  • Вам нужны четкие и практичные решения.

Если вам не нужны возможности технического зрения или дополнительные 5-10% точности для решения специализированных задач, Claude Sonnet 3.5 за 20 долларов в месяц для большинства пользователей будет выгоднее, чем o1 Pro за 200 долларов в месяц.

Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! В боте вы найдете GPTo1/Gemini/Claude, MidJourney, DALL-E 3, Flux, Ideogram и Recraft, LUMA, Runway, Kling, Suno, Pika, Hailuo AI (Minimax), Синхронизатор губ, Редактор с 12 различными ИИ-инструментами для ретуши фото.

В боте - безлимит запросов к модели o1.

☝Это только часть функций, доступных в SYNTX!

Источник статьи на английском - здесь

99
22 комментария

Это шутка такая? математические возможности уровня доктора философии совсем не велики. Это совсем разные и порой взаимоисключающие направления математика и философия. Философы как правило в математике совсем не сильны

2

Доктор философии не имеет отношения к философии, это Ph.D - кандидат наук условно

3

Сам пользуюсь соннетом, очень выручает. Нравится больше остальных нейронок

1

Сонет это новый уровень нейросетей, такое чувство что все задачи выполняет компетентный человек, а не искусственный интеллект

1

И главное - ленится гораздо меньше, чем gpt-4o )

А, если протестировать маркетологам для сбора SEO аналитики, то, какая нейронка даст более точную информацию?

1

А какую SEO-аналитику нужно собрать и из каких источников?