Новая LLM от OpenAI: Прорыв или разочарование?

Новая LLM от OpenAI: Прорыв или разочарование?

Ринат из канала @llm_under_hood уже давно собрал бенчмарк на основе бизнес-кейсов, которые внедряет LLM. Это помогает отслеживать прогресс и демонстрировать клиентам возможности моделей. Недавно он протестировал новую линейку OpenAI o1 и сравнил её с передовыми GPT-4o.

Результаты теста

Модели серии o1 неожиданно показали уровень, сопоставимый с GPT-4o:

1. OpenAI заранее заявляла, что o1 фокусируется на задачах «science, coding, and math».
2. Новая модель требует пересмотра подхода к промптам.
3. Избыточный контекст в запросах негативно влияет на производительность.

Исправление и апдейт

Ринат обнаружил ошибку в своих оценках: новые модели o1 справляются с задачами лучше, чем предполагалось. После исправления логики проверки результаты улучшились, и это вызвало настоящий интерес к будущим обновлениям от OpenAI. Напомним, что у компании уже есть более совершенная модель, которая пока не представлена публике.

Что дальше?

Мы ждём адаптации промптов и обновлённый бенчмарк от Рината. Как только выйдут новые версии моделей, можно ожидать дальнейшего роста эффективности.

11
1 комментарий

да, для решения задач и кодинга наверно не плохо, но для написания текстов совсем не то