Как я создал своего первого ИИ-агента: опыт, инсайты и форсайты
Коротко обо мне: всю жизнь занимался разработкой, последние 8 лет — развитием цифровых продуктов в финтехе, последние 6 лет — CPO (Chief Product Officer), из которых последние 4 года — в сфере инвестиций. Также был предпринимателем, занимался продажами, сейчас учусь на программе MBA в ВШЭ. По психологическому профилю — инноватор и интегратор продуктовых команд. Получается своего рода «золотое комбо» для управления компанией на позиции CPO / CAIO / CEO или запуска стартапа. Но долго не находилось идеи, которая была бы одновременно интересной, актуальной и коммерчески перспективной.
Тем временем мир активно развивает GPT-модели, открывающие массу новых возможностей, в том числе ИИ-агенты.
ИИ-агент в моём понимании — это автоматизация любого процесса, который ранее выполнял человек удалённо или через мессенджеры: обработка заявок, запись на приём, проверки, одобрения пул-реквестов, проведение регресса и т.д. Из этого же следует распространённое заблуждение, что автоматизация лишит людей работы. Я с этим не согласен и ниже объясню, почему.
Идея моего ИИ-агента
В финтехе огромный объём коммуникаций, чатов и созвонов, который хочется систематизировать и автоматизировать. Ассистент, однако, есть только у CEO уровня. Недавно я писал об этом в своём Telegram-канале. Так возникла идея интегрировать GPT-модель с Telegram и создать секретаря сначала для себя, затем для всех желающих. MVP уже готово, и в статье я расскажу о полученном опыте, неожиданных открытиях и дам прогнозы развития этой технологии.
Процесс от идеи до MVP
Первый шаг. Чтобы создать ассистента, нужен сервер и компетенции в DevOps, поскольку вся логика будет выполняться на сервере. Несмотря на то, что последние 5 лет я занимаю управленческие позиции (CPO), мои технические навыки позволяют решать подобные задачи, а старый сервер остался с предыдущих проектов.
Второй шаг. Я попытался запустить LLM в Docker-контейнере на своём сервере, выбрал модель DeepSeek. Результат был разочаровывающим — формирование ответа даже на простое «Привет» занимало до 20 минут.
Инсайт №1: Для запуска LLM нужен мощный сервер с видеокартами, аналогичный серверу для майнинга криптовалют. Поэтому большинство компаний предлагают доступ к GPT через API, сдавая в аренду технологию и инфраструктуру.
Я решил использовать API внешних компаний, но столкнулся с новой проблемой: санкции и блокировки. Ошибка 401 — your country is not allowed. Эту проблему удалось решить, но возникло стойкое ощущение, что Россия снова оказывается в технологической изоляции, как это было в 90-е годы. На мой взгляд, было бы стратегически полезно, чтобы российские IT-гиганты (например, Яндекс или VK) запустили публичные API GPT-моделей, обеспечив тем самым технологическую независимость. С другой стороны я уверен, что любая диджитал компания в РФ, да и в мире, сейчас прорабатывает запуск GPT моделей в своём контуре для внутренних целей.
Третий шаг: Оркестрация процессов. Ранее я создавал прототипы голосовых навыков для Яндекс.Алисы на Node.js с применением сложной асинхронной логики и распознавания паттернов. Сейчас появились эффективные и удобные Open Source-библиотеки, позволяющие визуально настраивать процессы примерно вот так:
Популярность таких библиотек стремительно растёт: в GitHub у библиотеки для автоматизации, которую использовал я, прибавляется примерно по 1000 новых подписчиков каждый день. И на текущий момент их уже 88 тысяч. И это только одно из множества возможных решений.
Инсайт №2: Прямо сейчас весь мир активно занимается созданием ИИ-агентов.
Четвёртый шаг. Оказалось, что GPT-модели по API предоставляются без встроенной памяти. То есть, если вы пользовались любой моделью как обычный пользователь, вы уже привыкли, что в рамках одного чата, ИИ помнит, всё о чём вы разговаривали ранее, но если вы будете обращаться к тому же DeepSeek по API - механизмы памяти будут отсутствовать напрочь. Можете сами попробовать моего самого первого бота без памяти и понять на уровне собственных ощущений, нулевую полезность собеседника, который буквально в следующем сообщении, забывает о чём вы говорили ранее. Предупреждение: когда будет исчерпан лимит оплаченных токенов - боты (этот и следующий в статье) будут отключены.
Инсайт №3: Если вы автоматизируете задачу с помощью ИИ, будьте готовы самостоятельно реализовывать механизмы памяти.
Параллельно возникла новая техническая задача: GPT-модели могут хранить информацию не только в текстовом, но и в векторном формате. Nе кто работали с базами данных, знают, что внутри они представлены как таблицы Excel, и в каждой таблице значения хранятся примерно так же в ячейках: тексты и цифры. Так вот в случае с GPT моделями в ячейках будет хранится векторное представление данных. Я пока не представляю, как человек будет способен выполнять поиск данных в БД в таком формате или осуществлять поддержку, поиск и исправление каких-либо данных в пром среде.
Инсайт №4: Близится время, когда ИИ-агенты будут общаться на каком-то неведомом языке, недоступном для понимания человеком, создавая новую специализацию для разработчиков и инженеров поддержки.
После недели работы я решил задачу сохранения контекста разговора с ИИ-агентом и представляю вам более продвинутую версию моего агента-секретаря: MVP агента-секретаря.
Форсайты
Основываясь на моём опыте, делюсь прогнозами будущего:
1) Скоро появится множество ИИ-агентов для самых разных задач, которые избавят нас от рутины, позволяя сосредоточиться на главном.
2) Люди не потеряют работу. Наоборот, те, кто научится интегрировать ИИ в рабочие процессы, станут супер-сотрудниками, решающими больше задач с гораздо большей эффективностью, подобно тому, как появление компьютеров, а позже интернета или сотовой связи в разы ускоряло мир, развитие общества и экономику - точно так же произойдёт и в этот раз.
3) Навыки работы с ИИ скоро станут таким же базовым требованием, как и умение пользоваться Excel сегодня.
4) Появятся ИИ-агенты для людей, переживших утрату. Эти агенты будут имитировать умерших близких, общаясь на основе всех сохранившихся материалов (переписок, фото, видео, аудио). У людей которые очень по кому-то скучают будет возможность написать агенту и получить очень реалистичный ответ.
5) ИИ-агенты смогут анализировать и обобщать информацию из каналов и СМИ, предоставляя краткие и важные отчёты.
6) ИИ-агенты станут новым инструментом для трейдеров на фондовом рынке, позволяя оперативно реагировать на изменения ситуации и принимать быстрые решения.
Спасибо за внимание! Подписывайтесь на мой Telegram-канал, чтобы следить за развитием темы и моими новыми инсайтами.