ИИ уверенно справляется с бытовыми и профессиональными задачами, от текстов до кода. Но в новом тесте, рассчитанном на экспертный уровень, ведущие модели показали результат ниже 40%. И это выглядит как провал. Что это на самом деле значит?
ИИ уверенно справляется с бытовыми и профессиональными задачами, от текстов до кода. Но в новом тесте, рассчитанном на экспертный уровень, ведущие модели показали результат ниже 40%. И это выглядит как провал. Что это на самом деле значит?
DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером , который доказывает, что новое — это хорошо и очень хитро забытое старое.
Разработчики пытаются делать так, чтобы языковые модели вели себя как люди. Но люди-то все разные, так под кого они подстраиваются?
Мы тут время от времени поднимаем эту тему и уже говорили, например, о том, что «среднестатистический человек» в тренировочных данных для ИИ – это человек какой-нибудь богатой западной демократии, просто потому ч…
Вышла статья When AI Takes the Couch (arXiv:2512.04124v1). Идея простая и слегка криповая: не тестировать LLM как инструмент, а вести с ней терапевтические "сессии", а потом прогнать через психометрию.
Сегодня почти каждый сервис обещает: «Мы подключим вам ИИ-агента за вечер».
Появилась редкая возможность посмотреть не что говорят об ИИ, а что люди реально делают с ИИ. Расскажу об основных выводах из отчета State of AI, который выпустила компания OpenRouter (крупная платформа, которая анализирует миллиарды запросов к ИИ-моделям по всему миру).
OpenAI опубликовал новый отчет об использовании их моделей в Enterprise секторе. Он основан на:
Долгосрочная кросс-чатовая память подъехала в Perplexity. Функция не новая для того же ChatGPT. Но в Perplexity она заиграла новыми красками.
Готовы продуктивно провести вечер пятницы? Это продолжение курса по созданию агентов. Серия 1.5. Создаем агента на ADK.
Один из самых сильных докладов в Циньхуа начался с простой фразы:
Раньше структура определяла технологию. Теперь технология определяет структуру.