Я ненавижу мозговые штурмы. Поэтому я обучил нейросеть делать их за меня
Введение: фейл с машинкой по генерации идей
Возможно многие увидят схожую проблему при использовании нейронок. Я уже достаточно долго и часто использую llm для личных и рабочих задач, автоматизирую свои воркфлоу и в моих кейсах модели эффективно справлялись со своими задачами пока не столкнулся с одним кейсом. Этим кейсом оказался кейс по генерации интересной идеи: креатива нейминга до маркетинговой стратегии. Я открывал различные нейронки ChatGPT, Gemini и прочее, но в итоге получал что-то формальное, не интересное и обычное. Проводил много времени в чате, менял температуру, но в итоге - это список идей, но от которых не появляется простое слово "Вау !!!" В итоге вместо решения конкретной задачи нет методологии, ни структуры, ни оригинальность.
Вот с этого момента у меня появился мой личный инсайт, что генерация идей это отдельная задача которая лежит в основе многих процессов таких как маркетинг, продуктовый менеджмент, стратегический менеджмент и прочее. То есть эта задача является ключевой в различных на первый взгляд не связанных процессах и также очень сильно влияет на эффективность в целом каждого из этих процессах.
Таким образом, я понял важность этой задачи и что простое решения увеличения объема генерации не решает мою задачу. Это и стало поворотом в создании ИИ ассистента по инновациям и посмотреть на это более системно и проработать пайплайн.
Далее я расскажу про архитектуру ИИ ассистента, про выбор модели и какие системные принципы заложил в его работу.
Концепция ассистента по инновациям
Когда я понял, что проблема не в количестве идей или вычислительных мощностей, а в отсутствии методологии их создания, родилась идея: что если не просто генерировать варианты, а идти по чёткому пути инноваций — от исследования до прототипирования?
Для концепции не пришлось изобретать велосипед — я взял за основу проверенную методологию дизайн-мышления, которая включает пять этапов:
- Discovery - исследование проблемы;
- Define - формулировка проблемы;
- Ideate - генерация вариантов;
- Prototype - конкретизация;
- Test - валидация гипотезы.
Этап 1: Discover (Исследование)
Главная задача этого этапа — погрузиться в контекст за счет анализа трендов или сбора данных. Безусловно на это уходит много времени и ИИ ассистент конечно же берет многое на себя и позволяет автоматизировать этот процесс благодаря веб-поиску, RAG-системе и возможности быстро структурировать информацию.
Этап 2: Define (Определение)
Формулирование проблемы — это уже половина успеха. Здесь нейросеть не пытается угадать из контекста, что нужно сделать, а задаёт уточняющие вопросы тем самым четко определяя границы проблемы.
Этап 3: Ideate (Генерация)
Генерация идей — сколько человеко-часов команд на это потрачено без результата! Часто слышу: «Давайте поштармим!», но на практике команда тратит время, а качественного результата — ноль. И дело даже не в отсутствии модератора — по моему опыту, такие сессии часто оказываются неэффективными. Помимо подготовки к этому этапу и сбора необходимой информации, я добавил ассистенту 87 методик креативного мышления и в зависимости от проблематики подбираются те, что наиболее подходят. И уже агент по этим методикам проводит генерацию идей.
Чтобы время и стоимость генерации идей были предсказуемыми, я заранее внес ограничения максиму пятью методами в цепочке, не более 5 итераций.
Этап 4: Prototype (Прототипирование)
На этом этапе помощь ассистента также важна: он не только помогает сформулировать гипотезу, но также помогает определить scope MVP и в конечном итоге сформировать дорожную карту, что значительно экономит время на этих рутинных задачах.
Этап 5: Test (Тестирование)
На этом этапе ИИ предлагает критерии валидации, метрики успеха и список потенциальных рисков. Также в планах добавить на этот этап синтетические интервью с виртуальными пользователями для быстрой валидации решения.
Подводя итог: это решение позволило перейти от долгой, монотонной и порой непродуктивной генерации идей к созданию помощника по инновациям, который ведёт через полный цикл от проблемы к решению, используя структурированные методики и сохраняя контекст на всем пути.
Архитектура ассистента
Для реализации концепции инновационного пайплайна я создал модульную систему, где каждый компонент решает свою задачу, а вместе они образуют интеллектуальный конвейер.
Ключевые технологические решения
1. ReAct (Reasoning + Action) паттерн
Вместо простого «запрос-ответ» ассистент использует цикл мышление → действие → наблюдение:
ReAct-паттерн сегодня популярен в агентных решениях, и для моего ассистента он эффективно решает задачи всего процесса — от планирования до оценки результата.
2. Context Engineering
Для эффективной работы ассистента я сформировал систему контекста, которая включает:
- Файл со списком креативных методик (87 методов с метаданными):
- Файл с областями применения (8 категорий задач):
- Файл с описанием пайплайна (5 этапов с уровнями дивергенции/конвергенции):
- RAG-система для работы с локальной базой знаний
- Веб-поиск в реальном времени для актуальных данных и трендов
3. Поток данных: как информация движется по системе
Информация в системе передаётся как в конвейере: выход одного модуля становится входом для следующего. Пример работы:
Пример запроса: "Придумайте новую фичу для fitness-приложения"
1. Анализ и классификация → JSON с метаданными:
2. База знаний → получает JSON → возвращает подходящие методы:
3. Ядро (LLM) → получает всё выше + промпт → генерирует идеи
4. Оценка → получает идеи → фильтрует по критериям → возвращает топ-5
5. Отчёт → получает отфильтрованные идеи → формирует финальный вывод
4. Логика выбора методов: от 87 вариантов к 3-5
Выбор конкретной методики из 87 возможных — это не случайность, а детерминированный процесс с четырьмя уровнями фильтрации:
Уровень 1: Домен задачи
Результат: От 87 методов остаётся ~25
Уровень 2: Этап пайплайна
Результат: От 25 методов остаётся ~12
Уровень 3: Режим автоматизации
Результат: От 12 методов остаётся ~8
Уровень 4: Когнитивный баланс
Финальный выбор: 3-5 методов, например:
1. SCAMPER (explicit, структурированный)
2. Random Word (implicit, ассоциативный)
3. Attribute Listing (explicit, аналитический)
Итог: модульная архитектура позволяет детально контролировать процесс генерации, тонко настраивать каждый компонент и масштабировать решение до мультиагентной системы.
Системный промпт и логика работы
Для оркестрации контекста приложения я создал достаточно большой системный промпт, используя гибридное форматирование XML и Markdown.
ссылка на системный промпт: github
Для наглядности я представляю логику работы в виде диаграммы последовательности
Эта диаграмма показывает, как системный промпт превращается в конкретные действия: от анализа запроса до финального отчёта, с циклами валидации и коррекции. Ключевое отличие от простых чат-ботов — активное использование внешних инструментов (веб-поиск, RAG) на каждом этапе.
Выбор LLM для пайплайна
После разработки архитектуры и логики работы встал важный вопрос: какую языковую модель выбрать в качестве «мозга» системы?
Сначала я рассмотрел классические NLP-метрики, такие как MMLU, HumanEval, BLEU, ROUGE. Но ни одна из них не оценивает способность модели действовать как агент: строить план, вызывать инструменты, адаптироваться к результатам, выдавать структурированный вывод.
Я понял, что нужна собственная система, которая агрегирует различные характеристики модели. Эти характеристики я объединил в две группы:
- Метрики качества
- Метрики инференса
Главное — в своей системе я не хотел изобретать новые метрики и проводить самостоятельную оценку моделей, а использовать доступные данные из открытых источников.
Мой пайплайн требовал:
- Планирование — разбивка на этапы от Discover до Test
- Работу с инструментами — вызов веб-поиска, чтение CSV, RAG
- Структурированный вывод — JSON, а не свободный текст
- Контекстную память — сохранение состояния между этапами
- Экономическую эффективность — стоимость одной сессии не должна превышать ценность результата
Для метрик качества я сначала определил, какие эмерджентные свойства языковых моделей критичны для моего ассистента, и подобрал для них специализированные агентные бенчмарки. Я сфокусировался на трёх ключевых категориях, которые наиболее важны для инновационного пайплайна:
Таким образом, качество я оценивал как агрегат агентных бенчмарков.
Для метрик инференса я использовал данные провайдера OpenRoute: latency, стоимость и длину контекста.
Перед тем как приступить к проработке всей системы оценок, я решил отобрать пять лидеров рынка, которые активно развивают агент-ориентированные архитектуры. Для этих моделей я собрал скоры бенчмарков и метрики инференса:
Примечание: Self experience — моя субъективная оценка после тестирования каждой модели на 20+ реальных задачах пайплайна, учитывающая удобство работы, стабильность и соответствие ожиданиям.
Вместо субъективных «нравится/не нравится» я разработал систему оценки с весами, отражающими реальные приоритеты продакшена:
После взвешивания и нормализации значений к диапазону 0-1, где 1 — лучшее значение для метрики (для стоимости и задержки «лучше» означает «меньше»), я получил итоговые оценки:
Оценка решения
Всё-таки не удалось создать универсального инноватора, который одинаково круто придумывает и названия для стартапа, и стратегию для бренда, и фичу для мобильного приложения. Не вышло.
Со стратегиями — да. Действительно рабочие гипотезы, которые можно брать и пробовать. Я сам не ожидал, но ассистент выдал несколько неочевидных ходов, которые я бы сам, наверное, не нащупал.
А вот нейминг…
Я убил на него три цикла и сотню тысяч токенов. А в итоге — либо скучно, либо занято. Причем со вторым отдельная боль. Ассистент лезет в интернет, возвращается и пишет: «Название свободно». Я захожу в поисковик, ищу по этому названию — а там сайт. С логотипом, контактами, иногда даже работает всё. В общем, нейминг провален.
Я пытался собрать одного агента на все случаи. А надо, видимо, делать сборку под задачу. Где-то нужна дивергенция и хаос, где-то — жесткий фактчекинг.
В общем, работы продолжаются. Следить за развитием проекта можно в моем Telegram-канале: Ai_Builder_Lab