Ведущие ИИ-модели набрали менее 40% в новом тесте экспертного уровня

ИИ уверенно справляется с бытовыми и профессиональными задачами, от текстов до кода. Но в новом тесте, рассчитанном на экспертный уровень, ведущие модели показали результат ниже 40%. И это выглядит как провал. Что это на самом деле значит?

Сравнение, как люди‑эксперты и не‑эксперты отвечают на очень сложные вопросы по биологии, физике и химии…
2

DeepSeek Engram: условная память LLM через поиск.

DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером , который доказывает, что новое — это хорошо и очень хитро забытое старое.

3

На кого похожи языковые модели

Разработчики пытаются делать так, чтобы языковые модели вели себя как люди. Но люди-то все разные, так под кого они подстраиваются?

Мы тут время от времени поднимаем эту тему и уже говорили, например, о том, что «среднестатистический человек» в тренировочных данных для ИИ – это человек какой-нибудь богатой западной демократии, просто потому ч…

Spec-driven development: воспроизведение проекта только по спецификациям

Spec-driven development: воспроизведение проекта только по спецификациям

Может ли AI клонировать проект по спецификациям?

🍅Учёные "посадили" ChatGPT, Grok и Gemini на кушетку психотерапевта - и внезапно нашли у них "внутренний конфликт".

🍅Учёные "посадили" ChatGPT, Grok и Gemini на кушетку психотерапевта - и внезапно нашли у них "внутренний конфликт".

Вышла статья When AI Takes the Couch (arXiv:2512.04124v1). Идея простая и слегка криповая: не тестировать LLM как инструмент, а вести с ней терапевтические "сессии", а потом прогнать через психометрию.

4

Прогнозы на 2025–2029 про искусственный интеллект: что будет с работой и профессиями

Прогнозы Gartner: что будет с компаниями к 2026–2029 из-за ИИ (менеджмент, персонал, безопасность)

1) ИИ «уплощит» оргструктуры и ударит по среднему менеджменту

«Бот за 5 минут» против взрослого AI-агента: как бизнесу не перепутать игрушку с инфраструктурой

«Бот за 5 минут» против взрослого AI-агента: как бизнесу не перепутать игрушку с инфраструктурой

Сегодня почти каждый сервис обещает: «Мы подключим вам ИИ-агента за вечер».

Как на самом деле используются ИИ-модели в мире?

Появилась редкая возможность посмотреть не что говорят об ИИ, а что люди реально делают с ИИ. Расскажу об основных выводах из отчета State of AI, который выпустила компания OpenRouter (крупная платформа, которая анализирует миллиарды запросов к ИИ-моделям по всему миру).

Программирование – доминирующая и растущая категория. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenrouter.ai%2Fstate-of-ai&postId=2635612" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
8

The state of enterprise AI: что узнали в OpenAI про 1 миллион своих корпоративных клиентов

The state of enterprise AI: что узнали в OpenAI про 1 миллион своих корпоративных клиентов

OpenAI опубликовал новый отчет об использовании их моделей в Enterprise секторе. Он основан на:

Perplexity теперь помнит всё, независимо от выбора модели ИИ

Долгосрочная кросс-чатовая память подъехала в Perplexity. Функция не новая для того же ChatGPT. Но в Perplexity она заиграла новыми красками.

Пр…

Фреймворки для создания агентов. Создаем своего первого AI агента

Готовы продуктивно провести вечер пятницы? Это продолжение курса по созданию агентов. Серия 1.5. Создаем агента на ADK.

Краткое саммари этой серии курса по созданию AI агентов.

Как AI создаёт суперсотрудников и ломает оргструктуры

Один из самых сильных докладов в Циньхуа начался с простой фразы:

Раньше структура определяла технологию. Теперь технология определяет структуру.