11 типов ИИ-агентов — Product Management & AI на vc.ru

Существуют различные типы архитектур агентов, специализирующихся на восприятии информации, её анализе, рассуждениях, действиях и абстракциях.

1. GPT — универсальные генераторы текста, отличающиеся беглостью и универсальностью, обученные на массивных корпусах данных. Их сила — в универсальности: от письма писем до написания кода.

2. MoE (Mixture of Experts) — модель-маршрутизатор, которая содержит множество специализированных ИИ-экспертов, которая выбирает кого активировать и направляет ему конкретную задачи. Пример: MoE выбирает математического ИИ-эксперта для вычислений, а языкового — для объяснения результатов его работы.

3. Агенты с памятью (Memory-augmented models). Они интегрируют внешние базы знаний или долговременную память, чтобы сохранять контекст между сессиями. Это делает их ближе к «персональным помощникам», когда агент помнит историю общения с пользователем за полгода и использует её при планировании его повседневных задач. Или охотится за курицами для их приготовления в Minecraft.

3. Крупные модели рассуждений — оптимизированы для многошаговых логических рассуждений. Они фокусируются не на скорости генерации, а на структурированных многошаговых цепочек и выводах, приближая работу к человеческой логике. Например, такая модель пошагово доказывает теорему из учебника математики.

4. Симуляционные агенты (Multi-agent simulation) –

экосистемы из множества агентов, каждый со своими правилами поведения. Например, они позволяют моделировать города, экономики или социальные процессы.

5. Интерактивные агенты (Conversational + tool-using). Они не только общаются, но и активно задействуют инструменты (поиск, базы данных, плагины). Это уже гибрид диалога и действия. Такой ИИ-агент отвечает на вопрос о текущей погоде, проверяя локацию и запрашивая данные в реальном времени у API.

6. Модели «визуализация-язык» (Vision-Language) — объединяют восприятие и язык для многомодальных задач. Они соединяют зрительное восприятие и понимание языка, создавая мост между картинкой и текстом, позволяя им описывать сцены, отвечать на вопросы о картинках и работать в мультимодальном режиме. Например, модель описывает фотографию улицы и сразу строит текстовый маршрут по ней. Или наоборот.

7. Малые языковые модели — легкие и экономичные агенты для периферийного развертывания. Это компактные, энергоэффективные и адаптированные для работы в смартфонах, IoT-устройствах или офлайн-средах. Их задача — приносить пользу там, где большие модели слишком затратны. Такие мини-LLM в телефоне предлагают быстрые ответы на сообщения без обращения к облаку.

8. Крупные модели действий умеют запускать код, вызывать API и управлять целыми ИИ-системами. По сути, это уже шаг к автономным агентам, способным выполнять задачи от начала до конца. Простой пример: модель получает задачу «забронировать билет в Париж» и сама вызывает сервис бронирования.

9. Иерархические языковые модели мыслят на уровнях: разбивают сложную цель на подзадачи, а затем управляют их выполнением, что делает их особенно полезными в долгосрочных проектах и при многозадачности. Например, модель планирует написание книги, создаёт структуру глав, а затем постепенно разворачивает по каждой из них текст.

10. Когнитивные архитектуры (Hybrid / symbolic + neural). Они объединяют нейросетевые и символические методы для достижения большей интерпретируемости и точности. Это попытка сблизить ИИ с когнитивной моделью человека.

Пример: агент решает юридическую задачу, комбинируя формальную логику и статистический анализ прецедентов.

11. Крупные концептуальные модели. Их специализация — работа с абстрактными, высокоуровневыми знаниями и концептами. Они не просто соединяют факты, а строят обобщения и новые идеи. Такая модель может проанализировать историю технологий и сформулировать прогноз о будущем эволюции ИИ.

ИИ-агенты не являются монолитной концепцией, эволюционируя в системы взаимодополняющих архитектур и связей, каждая из которых оптимизирована для определённого уровня запросов и интеллекта. Или запроса интеллекта 🤭

Подписывайтесь на Telegram Product Management & AI.