ИИ уверенно справляется с бытовыми и профессиональными задачами, от текстов до кода. Но в новом тесте, рассчитанном на экспертный уровень, ведущие модели показали результат ниже 40%. И это выглядит как провал. Что это на самом деле значит?
ИИ уверенно справляется с бытовыми и профессиональными задачами, от текстов до кода. Но в новом тесте, рассчитанном на экспертный уровень, ведущие модели показали результат ниже 40%. И это выглядит как провал. Что это на самом деле значит?
Доброго времени суток всем читателям. Я - инженер-конструктор, занимаюсь расчетами зданий и сооружений в программном комплексе SOFiSTiK. Это мощный немецкий софт, в котором дополнительную гибкость дает встроенный язык программирования - CADINP. Язык этот крутой, но сложный: нужно помнить сотни команд, де…
• Пока мир следит за конкуренцией LLМ (привычные всем языковые модели: chanGPT, Gemini и т.д.), скрытая борьба идёт за обычные вычисления. За способность Al быстро и постоянно отвечать на запросы. За инференс (процесс применения обученного AI для конкретного использования).
DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером , который доказывает, что новое — это хорошо и очень хитро забытое старое.
Разработчики пытаются делать так, чтобы языковые модели вели себя как люди. Но люди-то все разные, так под кого они подстраиваются?
Мы тут время от времени поднимаем эту тему и уже говорили, например, о том, что «среднестатистический человек» в тренировочных данных для ИИ – это человек какой-нибудь богатой западной демократии, просто потому ч…
Знакомая ситуация: вы задаете вопрос ИИ, получаете быстрый и уверенный ответ. Но не совсем о том: формально он выглядит правильно, но по сути – нет. Кажется, нашли проблему (а значит, решение). Как это обнаружили, почему так происходит , а главное – что с этим делать на практике?
Этот отчёт - это эмпирическое исследование реального использования LLM, основанное на анализе 100 триллионов токенов запросов, прошедших через платформу OpenRouter за ~2 года (фокус на 2024–2025).
Важно:
Вышла статья When AI Takes the Couch (arXiv:2512.04124v1). Идея простая и слегка криповая: не тестировать LLM как инструмент, а вести с ней терапевтические "сессии", а потом прогнать через психометрию.
Если вы пока смутно понимаете, что такое ИИ, но чувствуете, что уже пора начать им пользоваться, вот вам знак! Андрей Карпати (экс-OpenAI, Tesla), один из самых лучших популяризаторов ИИ, показывает, как работают современные LLM и как они реально полезны, в работе и повседневной жизни. Перескажу ключевые идеи его выступления, чтобы дальше в теме бы…
Сегодня почти каждый сервис обещает: «Мы подключим вам ИИ-агента за вечер».