Секрет успеха ИИ-команд: почему одни создают умных агентов, а другие бесконечно чинят баги

Объясняем на пальцах, как анализ ошибок ускоряет прогресс.

Можно играть одну и ту же пьесу снова и снова, надеясь, что когда-нибудь получится идеально. А можно найти сложные моменты и отработать их отдельно.

Раньше в машинном обучении всё было просто:

Ошибка — это предсказал "0" вместо "1"
Всего два варианта неправильного ответа
Метрики понятные: точность, полнота, F-мера

Сейчас с ИИ-агентами:

Ошибка может быть в чём угодно: неправильная дата, не тот API-вызов, путаница в данных...
Вариантов ошибок — десятки
Приходится каждый раз придумывать новые метрики

Реальный пример из жизни или как мы делали агента для обработки счетов, он:

Путал, кто кому должен (каждый третий случай!)Не понимал разные форматы валют

Терялся, если в документе были пропущены поля

Без детального разбора мы бы просто сказали "работает на 70%" и не поняли, что на самом деле происходит.

Шаг 1: Сначала посмотрите, как агент работает Не пытайтесь заранее придумать все тесты. Дайте агенту 20-30 реальных задач и посмотрите, где именно он спотыкается.

Шаг 2: Разложите ошибки по полочкам Разделите их на:

Критические (всё ломается)
Серьёзные (нужно исправлять вручную)
Мелкие (можно потерпеть)

Шаг 3: Пусть один ИИ проверяет другого Используйте LLM-as-judge — когда одна нейросеть оценивает работу другой. Особенно хорошо работает для задач вроде "насколько естественно звучит ответ".

Команды, которые disciplined анализируют каждый провал, прогрессируют намного быстрее тех, кто просто добавляет новые функции.

Из опыта нашей команды: Однажды наш агент постоянно ошибался в расчётах с НДС. Вместо быстрого "фикса" мы потратили день на анализ и обнаружили проблему с пониманием российских налоговых терминов. Исправили один раз — и 90% похожих ошибок исчезли.

OpenAI и AMD стали партнёрамиOpenAI будет покупать процессоры AMD на миллиарды долларов

Может получить 10% акций AMD почти даром

Это попытка перестать зависеть от Nvidia проглядывалась уже давно. За последние годы появляется все больше и больше предпосылок того что монополия Nvidia на ранке скоро подойдет к концу.DeepSeek стал ещё доступнее

Новая модель в 6-7 раз дешевле для длинных документов
Специально для китайских процессоров
Обработка 128 тысяч токенов всего за $0.30

Tinker упростил тонкую настройку

Стартап бывшего технического директора OpenAI
Позволяет легко настраивать модели без сложностей с видеокартами
Использует умные адаптеры для экономии

Новая система MolmoAct позволяет роботам:

Сначала планировать движение в 3D
Показывать траекторию до начала действия
Позволяет человеку поправить путь перед выполнением

Практическая польза: Робот-помощник на кухне показывает, как именно он возьмёт чашку, и вы можете скорректировать его движение.

ИИ-агенты становятся не игрушками, а рабочими инструментами. Так же, как вы не доверите бухгалтерию практиканту без проверки, нельзя доверять бизнес-процессы непроверенным агентам.

Самый ценный навык ближайших лет — не умение собрать самый модный технологический стек, а способность понимать, где и почему система ошибается.

А как у вас с анализом ошибок? Есть ли процессы для понимания, почему агент принимает те или иные решения? Или пока работаете по принципу "главное, что вроде работает"?

Секрет успеха ИИ-команд: почему одни создают умных агентов, а другие бесконечно чинят баги

Представьте, что вы учитесь играть на скрипке

Чем ИИ-агенты сложнее классических моделей

Как это работает на практике: три простых шага

Главная мысль в том что "Ошибки — это возможности"

Что ещё важного случилось на этой неделе

Роботы стали лучше "понимать" пространство

На данный момент мы находимся в переломном моменте: