Секрет успеха ИИ-команд: почему одни создают умных агентов, а другие бесконечно чинят баги

Объясняем на пальцах, как анализ ошибок ускоряет прогресс.

Секрет успеха ИИ-команд: почему одни создают умных агентов, а другие бесконечно чинят баги

Представьте, что вы учитесь играть на скрипке

Можно играть одну и ту же пьесу снова и снова, надеясь, что когда-нибудь получится идеально. А можно найти сложные моменты и отработать их отдельно.

Чем ИИ-агенты сложнее классических моделей

Раньше в машинном обучении всё было просто:

  • Ошибка — это предсказал "0" вместо "1"
  • Всего два варианта неправильного ответа
  • Метрики понятные: точность, полнота, F-мера

Сейчас с ИИ-агентами:

  • Ошибка может быть в чём угодно: неправильная дата, не тот API-вызов, путаница в данных...
  • Вариантов ошибок — десятки
  • Приходится каждый раз придумывать новые метрики

Реальный пример из жизни или как мы делали агента для обработки счетов, он:

Путал, кто кому должен (каждый третий случай!)Не понимал разные форматы валют

Терялся, если в документе были пропущены поля

Без детального разбора мы бы просто сказали "работает на 70%" и не поняли, что на самом деле происходит.

Как это работает на практике: три простых шага

Шаг 1: Сначала посмотрите, как агент работает Не пытайтесь заранее придумать все тесты. Дайте агенту 20-30 реальных задач и посмотрите, где именно он спотыкается.

Шаг 2: Разложите ошибки по полочкам Разделите их на:

  • Критические (всё ломается)
  • Серьёзные (нужно исправлять вручную)
  • Мелкие (можно потерпеть)

Шаг 3: Пусть один ИИ проверяет другого Используйте LLM-as-judge — когда одна нейросеть оценивает работу другой. Особенно хорошо работает для задач вроде "насколько естественно звучит ответ".

Главная мысль в том что "Ошибки — это возможности"

Команды, которые disciplined анализируют каждый провал, прогрессируют намного быстрее тех, кто просто добавляет новые функции.

Из опыта нашей команды: Однажды наш агент постоянно ошибался в расчётах с НДС. Вместо быстрого "фикса" мы потратили день на анализ и обнаружили проблему с пониманием российских налоговых терминов. Исправили один раз — и 90% похожих ошибок исчезли.

Что ещё важного случилось на этой неделе

OpenAI и AMD стали партнёрамиOpenAI будет покупать процессоры AMD на миллиарды долларов

Может получить 10% акций AMD почти даром

Это попытка перестать зависеть от Nvidia проглядывалась уже давно. За последние годы появляется все больше и больше предпосылок того что монополия Nvidia на ранке скоро подойдет к концу.DeepSeek стал ещё доступнее

  • Новая модель в 6-7 раз дешевле для длинных документов
  • Специально для китайских процессоров
  • Обработка 128 тысяч токенов всего за $0.30

Tinker упростил тонкую настройку

  • Стартап бывшего технического директора OpenAI
  • Позволяет легко настраивать модели без сложностей с видеокартами
  • Использует умные адаптеры для экономии

Роботы стали лучше "понимать" пространство

Новая система MolmoAct позволяет роботам:

  • Сначала планировать движение в 3D
  • Показывать траекторию до начала действия
  • Позволяет человеку поправить путь перед выполнением

Практическая польза: Робот-помощник на кухне показывает, как именно он возьмёт чашку, и вы можете скорректировать его движение.

На данный момент мы находимся в переломном моменте:

ИИ-агенты становятся не игрушками, а рабочими инструментами. Так же, как вы не доверите бухгалтерию практиканту без проверки, нельзя доверять бизнес-процессы непроверенным агентам.

Самый ценный навык ближайших лет — не умение собрать самый модный технологический стек, а способность понимать, где и почему система ошибается.

А как у вас с анализом ошибок? Есть ли процессы для понимания, почему агент принимает те или иные решения? Или пока работаете по принципу "главное, что вроде работает"?

3
2 комментария