Секрет успеха ИИ-команд: почему одни создают умных агентов, а другие бесконечно чинят баги
Объясняем на пальцах, как анализ ошибок ускоряет прогресс.
Представьте, что вы учитесь играть на скрипке
Можно играть одну и ту же пьесу снова и снова, надеясь, что когда-нибудь получится идеально. А можно найти сложные моменты и отработать их отдельно.
Чем ИИ-агенты сложнее классических моделей
Раньше в машинном обучении всё было просто:
- Ошибка — это предсказал "0" вместо "1"
- Всего два варианта неправильного ответа
- Метрики понятные: точность, полнота, F-мера
Сейчас с ИИ-агентами:
- Ошибка может быть в чём угодно: неправильная дата, не тот API-вызов, путаница в данных...
- Вариантов ошибок — десятки
- Приходится каждый раз придумывать новые метрики
Реальный пример из жизни или как мы делали агента для обработки счетов, он:
Путал, кто кому должен (каждый третий случай!)Не понимал разные форматы валют
Терялся, если в документе были пропущены поля
Без детального разбора мы бы просто сказали "работает на 70%" и не поняли, что на самом деле происходит.
Как это работает на практике: три простых шага
Шаг 1: Сначала посмотрите, как агент работает Не пытайтесь заранее придумать все тесты. Дайте агенту 20-30 реальных задач и посмотрите, где именно он спотыкается.
Шаг 2: Разложите ошибки по полочкам Разделите их на:
- Критические (всё ломается)
- Серьёзные (нужно исправлять вручную)
- Мелкие (можно потерпеть)
Шаг 3: Пусть один ИИ проверяет другого Используйте LLM-as-judge — когда одна нейросеть оценивает работу другой. Особенно хорошо работает для задач вроде "насколько естественно звучит ответ".
Главная мысль в том что "Ошибки — это возможности"
Команды, которые disciplined анализируют каждый провал, прогрессируют намного быстрее тех, кто просто добавляет новые функции.
Из опыта нашей команды: Однажды наш агент постоянно ошибался в расчётах с НДС. Вместо быстрого "фикса" мы потратили день на анализ и обнаружили проблему с пониманием российских налоговых терминов. Исправили один раз — и 90% похожих ошибок исчезли.
Что ещё важного случилось на этой неделе
OpenAI и AMD стали партнёрамиOpenAI будет покупать процессоры AMD на миллиарды долларов
Может получить 10% акций AMD почти даром
Это попытка перестать зависеть от Nvidia проглядывалась уже давно. За последние годы появляется все больше и больше предпосылок того что монополия Nvidia на ранке скоро подойдет к концу.DeepSeek стал ещё доступнее
- Новая модель в 6-7 раз дешевле для длинных документов
- Специально для китайских процессоров
- Обработка 128 тысяч токенов всего за $0.30
Tinker упростил тонкую настройку
- Стартап бывшего технического директора OpenAI
- Позволяет легко настраивать модели без сложностей с видеокартами
- Использует умные адаптеры для экономии
Роботы стали лучше "понимать" пространство
Новая система MolmoAct позволяет роботам:
- Сначала планировать движение в 3D
- Показывать траекторию до начала действия
- Позволяет человеку поправить путь перед выполнением
Практическая польза: Робот-помощник на кухне показывает, как именно он возьмёт чашку, и вы можете скорректировать его движение.
На данный момент мы находимся в переломном моменте:
ИИ-агенты становятся не игрушками, а рабочими инструментами. Так же, как вы не доверите бухгалтерию практиканту без проверки, нельзя доверять бизнес-процессы непроверенным агентам.
Самый ценный навык ближайших лет — не умение собрать самый модный технологический стек, а способность понимать, где и почему система ошибается.
А как у вас с анализом ошибок? Есть ли процессы для понимания, почему агент принимает те или иные решения? Или пока работаете по принципу "главное, что вроде работает"?