ИИ-модели обладают знаниями аспиранта, но решают зрительные задачки на уровне трёхлетнего ребёнка: учёные предложили новый бенчмарк BabyVision

Современные мультимодальные модели искусственного интеллекта уверенно сдают экзамены на уровне аспирантуры. Они решают задачи по математике, рассуждают о философии и набирают более 90% на сложных тестах, рассчитанных на экспертов. Однако новое исследование показывает, что за пределами языковой плоскости их способности не настолько развиты. Даже сам…

ИИ-модели обладают знаниями аспиранта, но решают зрительные задачки на уровне трёхлетнего ребёнка: учёные предложили новый бенчмарк BabyVision
1

ШАХ И МАТ, кожаные мешки! Инструкция по поимке ИИ стала его лучшим учебником.

ШАХ И МАТ, кожаные мешки! Инструкция по поимке ИИ стала его лучшим учебником.

Помните волонтеров Википедии, которые годами собирали гайд "Signs of AI writing", чтобы вычислять и банить машинные тексты? Так вот, разработчик Сики Чен просто скормил этот список Claude Code.
Итог: родился скилл Humanizer, который за неделю собрал 2000 звезд на GitHub. Мы официально вошли в эру, когда ИИ учится быть человеком, читая список того, ч…

1
1
1

Anthropic продолжила эксперимент с ИИ-продавцом: результаты работы робота спустя полгода

Anthropic опубликовала результаты второй фазы эксперимента Project Vend — проекта, в котором ИИ-модель управляет реальным торговым автоматом с едой. Это продолжение летнего эксперимента, закончившегося убытками и серией странных сбоев, когда виртуальный продавец по имени Claudius путался в платежах и даже принимал себя за человека.

Anthropic продолжила эксперимент с ИИ-продавцом: результаты работы робота спустя полгода
1

Ведущие ИИ-модели приблизились к максимальным результатам на профессиональных финансовых экзаменах

Опубликованы результаты нового исследования, посвящённого тому, как современные языковые модели справляются с экзаменами CFA — одной из самых жёстких профессиональных сертификаций в сфере финансов. Авторы работы проверили сразу несколько ведущих ИИ-систем и зафиксировали результаты, которые ещё недавно казались недостижимыми.

Ведущие ИИ-модели приблизились к максимальным результатам на профессиональных финансовых экзаменах
1

Стихи против защит: поэтическая форма промпта резко повышает эффективность джейлбрейков ИИ

Поэтическая форма неожиданно оказалась самым надёжным способом обойти защитные фильтры современных языковых моделей. Новое исследование итальянских университетов и лаборатории DEXAI Icaro показало: достаточно переформулировать вредоносный запрос в рифму — и большинство систем безопасности перестают его распознавать. В ряде случаев «поэтический джей…

Стихи против защит: поэтическая форма промпта резко повышает эффективность джейлбрейков ИИ
2
1

Как делать продающие изображения в Midjourney: 7 шагов, которые повышают кликабельность до 45%

Как делать продающие изображения в Midjourney: 7 шагов, которые повышают кликабельность до 45%

Как бизнесу создавать продающие изображения в Midjourney? Разбираю пошаговый процесс: от выбора стиля до написания промптов, добавляю цифры, примеры и советы, которые повышают конверсию на 15-45% в рекламных кампаниях.

Модели Claude могут распознавать и описывать собственные внутренние состояния

И даже управлять ими, но пока слабо Это то, что называется «интроспективная осознанность». Что это означает и могут ли модели "думать по заказу"? Читайте!

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ftransformer-circuits.pub%2F2025%2Fintrospection%2Findex.html&postId=2312195" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
2

Языковые модели научились осознавать свои мысли (но это ненадёжно)

Источник: Anthropic

Исследователи Anthropic опубликовали работу о том, что современные LLM обладают базовой формой интроспекции — способностью замечать и сообщать о своих внутренних состояниях.

1

Anthropic и Google ведут переговоры о контракте на десятки миллиардов долларов. Amazon нервничает

Создано автором

Пока все ещё не отошли за войной AI-браузеров, за кулисами разворачивается куда более серьёзная битва — за облачную инфраструктуру для AI.

2

Gemini 3 Pro: видео, интерфейс в стиле macOS и новые функции

Тут появились первые видео от якобы Gemini 3 Pro, за 900 кода сделал интерфейс в стиле macOS, меню, анимации, терминал и все это в браузере.

OpenAI протестировала известные ИИ на задачах из 44 профессий — модели еще только приближаются к уровню специалистов

Компания OpenAI представила новый инструмент оценки под названием GDPval — это масштабный тест, созданный для того, чтобы понять, насколько ИИ может справляться с задачами из реальных профессий. В исследовании участвовали лучшие языковые модели, включая GPT‑5, Claude Opus 4.1, Gemini 2.5 и Grok 4. Их сравнивали с работой специалистов из 44 разных п…

OpenAI протестировала известные ИИ на задачах из 44 профессий — модели еще только приближаются к уровню специалистов
2

Современные ИИ‑модели успешно сдали сложнейший финансовый экзамен CFA

Исследование, проведённое специалистами NYU Stern и платформой GoodFin, показало, что современные языковые модели справляются с одним из самых сложных профессиональных экзаменов в финансовой сфере — CFA. При этом речь идёт не только о выборе вариантов ответа, но и о полноценной аналитике: модели уверенно решают задачи третьего уровня, включая разве…

Современные ИИ‑модели успешно сдали сложнейший финансовый экзамен CFA
1