Рубрика «Вестник искусственного интеллекта - обзоры»

LMSYS Arena обновилась, и теперь в ней доступен новый Sonnet (для удобства назовем это версией 3.6, чтобы отличать от 3.5 соотвественно).

Что интересного?

💪 Заметно улучшились навыки в математике и программировании - рост качества нескольких групп запросов очевиден.

✨ Помимо этого, добавлена новая функция — поправка на стиль (см. скриншоты 3 и 4). Это значит, что ответы модели теперь будут звучать более естественно, а не как длинный текст, который выдает типичный LLM.

🧮 Хотя в общем зачете Sonnet 3.6 все еще уступает моделям OpenAI, программисты уже успели оценить его потенциал.

❗Но есть и обратная сторона: некоторые задачи, которые раньше решались без проблем, теперь вызывают сложности.

P.S. Кроме этого видел разные бенчмарки, где-то модель чуть лучше, где-то чуть хуже ChatGPT-4, но большого количества отрывов в целой россыпи задач, как было с o1, не случилось. Наверное, можно ждать этого в агентских бенчмарках, но ни GAIA, ни SWE-Bench с момента релиза не обновились.

Больше новостей в нашем телеграм-канале «Цифровой москвич» - https://t.me/digiMSK

#ИИобзор