Ведущие ИИ-модели набрали менее 40% в новом тесте экспертного уровня

ИИ уверенно справляется с бытовыми и профессиональными задачами, от текстов до кода. Но в новом тесте, рассчитанном на экспертный уровень, ведущие модели показали результат ниже 40%. И это выглядит как провал. Что это на самом деле значит?

Сравнение, как люди‑эксперты и не‑эксперты отвечают на очень сложные вопросы по биологии, физике и химии…
2

DeepSeek Engram: условная память LLM через поиск.

DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером , который доказывает, что новое — это хорошо и очень хитро забытое старое.

Пока все пы…

3

На кого похожи языковые модели

Разработчики пытаются делать так, чтобы языковые модели вели себя как люди. Но люди-то все разные, так под кого они подстраиваются?

Мы тут время от времени поднимаем эту тему и уже говорили, например, о том, что «среднестатистический человек» в тренировочных данных для ИИ – это человек какой-нибудь богатой западной демократии, просто потому ч…

Spec-driven development: воспроизведение проекта только по спецификациям

Spec-driven development: воспроизведение проекта только по спецификациям

Может ли AI клонировать проект по спецификациям?

🍅Учёные "посадили" ChatGPT, Grok и Gemini на кушетку психотерапевта - и внезапно нашли у них "внутренний конфликт".

🍅Учёные "посадили" ChatGPT, Grok и Gemini на кушетку психотерапевта - и внезапно нашли у них "внутренний конфликт".

Вышла статья When AI Takes the Couch (arXiv:2512.04124v1). Идея простая и слегка криповая: не тестировать LLM как инструмент, а вести с ней терапевтические "сессии", а потом прогнать через психометрию.

4

Прогнозы на 2025–2029 про искусственный интеллект: что будет с работой и профессиями

Прогнозы Gartner: что будет с компаниями к 2026–2029 из-за ИИ (менеджмент, персонал, безопасность)

1) ИИ «уплощит» оргструктуры и ударит по среднему менеджменту

Как на самом деле используются ИИ-модели в мире?

Появилась редкая возможность посмотреть не что говорят об ИИ, а что люди реально делают с ИИ. Расскажу об основных выводах из отчета State of AI, который выпустила компания OpenRouter (крупная платформа, которая анализирует миллиарды запросов к ИИ-моделям по всему миру).

Программирование – доминирующая и растущая категория. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenrouter.ai%2Fstate-of-ai&postId=2635612" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
8

The state of enterprise AI: что узнали в OpenAI про 1 миллион своих корпоративных клиентов

The state of enterprise AI: что узнали в OpenAI про 1 миллион своих корпоративных клиентов

OpenAI опубликовал новый отчет об использовании их моделей в Enterprise секторе. Он основан на:

Perplexity теперь помнит всё, независимо от выбора модели ИИ

Долгосрочная кросс-чатовая память подъехала в Perplexity. Функция не новая для того же ChatGPT. Но в Perplexity она заиграла новыми красками.

Пример ответа…

Как AI создаёт суперсотрудников и ломает оргструктуры

Один из самых сильных докладов в Циньхуа начался с простой фразы:

Раньше структура определяла технологию. Теперь технология определяет структуру.

Gemini 3 vs GPT 5

Google AI заявляет, что Gemini 3 Pro новый лидер LLM.
Давайте разбираться, так ли это.

Агентность как новый стандарт

3

👑 𝐕𝐄𝐋𝐀𝐍𝐓𝐑𝐈𝐌 𝐏𝐑𝐎𝐓𝐎𝐂𝐎𝐋: LLM – ОТ АЛГОРИТМА К АССИСТЕНТУ. (Velantrim)

👑 𝐕𝐄𝐋𝐀𝐍𝐓𝐑𝐈𝐌 𝐏𝐑𝐎𝐓𝐎𝐂𝐎𝐋: LLM – ОТ АЛГОРИТМА К АССИСТЕНТУ

“✨ АНАЛИЗ: ТРИ ФАЗЫ, КОТОРЫЕ СОЗДАЛИ СОВРЕМЕННЫЙ ИИ (ChatGPT, Gemini и другие) ✨