Новая LLM от OpenAI: Прорыв или разочарование?

Ринат из канала @llm_under_hood уже давно собрал бенчмарк на основе бизнес-кейсов, которые внедряет LLM. Это помогает отслеживать прогресс и демонстрировать клиентам возможности моделей. Недавно он протестировал новую линейку OpenAI o1 и сравнил её с передовыми GPT-4o.

Модели серии o1 неожиданно показали уровень, сопоставимый с GPT-4o:

1. OpenAI заранее заявляла, что o1 фокусируется на задачах «science, coding, and math».
2. Новая модель требует пересмотра подхода к промптам.
3. Избыточный контекст в запросах негативно влияет на производительность.

Ринат обнаружил ошибку в своих оценках: новые модели o1 справляются с задачами лучше, чем предполагалось. После исправления логики проверки результаты улучшились, и это вызвало настоящий интерес к будущим обновлениям от OpenAI. Напомним, что у компании уже есть более совершенная модель, которая пока не представлена публике.

Мы ждём адаптации промптов и обновлённый бенчмарк от Рината. Как только выйдут новые версии моделей, можно ожидать дальнейшего роста эффективности.

#Atify #OpenAI #LLM #ИскусственныйИнтеллект #МашинноеОбучение #GPT #Тестирование #Бенчмарк #НовыеТехнологии #БизнесКейсы #МодельO1 #Инновации #Промптинг

Новая LLM от OpenAI: Прорыв или разочарование?

Результаты теста

Исправление и апдейт

Что дальше?