Как продакту проанализировать 2000+ страниц и не сдохнуть: краткое пособие по выживанию
Давно ничего не писала, а тут решила по горячим следам подготовить небольшую статью, да еще и не просто статью, а супер практический (как мне кажется) гайд для ситуаций, когда вам нужно проанализировать более 2000 страниц и родить что-то полезное.
PS список всех использованных тулзов - в конце
Всем привет! Меня зовут Лера и я продакт до мозга костей, а еще - амбассадор ламповых поездок, капучино и миндальных круассанов. Про свою любовь к продактству ИИ-продуктов пишу в телеграмм-канале @vne_aiti
Итак, ситуация:
Я - продакт, который с нуля разрабатывает решение с использованием технологий ИИ для центров мониторинга / ситуационных центров Безопасных и Умных городов. Пойти пообщаться с клиентами, чтобы понять их потребности - не вариант, НО безопасность - отрасль, которая регулируется кучей нормативных документов и ко всеобщей радости (моих коллег, не моей) они находятся в свободном доступе.
Проблема:
Так как меня интересуют нормативные документы для регионов Латинской Америки и Ближнего Востока, то проблем на самом деле несколько:
1. Язык документации - с английским все хорошо, но вот что касается Латинской Америки - там документация исключительно на испанском и португальском языках (спасибо альма-матер, что дал мне выбрать испанский вторым иностранным языком, уже немного легче).
2. Поиск - как эти документы вообще найти - отдельная история, обычный поиск в гугл не помогает от слова совсем, получается найти только 1-2 документа конкурентных решений с описанием "лучших практик".
3. Зона доступа - да, можно включить ВПН, но некоторые сайты доступны исключительно из той страны, для которой они создавались, поэтому угадайка с выбором локации бесплатного впн сервиса - то еще хождение по минному полю.
4. Объем - в среднем, в каждом таком документе было порядка 100-200 страниц сплошного текста. Упорство - мое все, поэтому оно и уперлось в то, что не готово к изучению такого объема материала.
Решение:
Теперь к самому интересному - как же справиться с такой ситуацией.
Шаг 1. Понять, а что собственно нужно анализировать
Как продакт ИИ решений, разумеется, первым делом я отправилась в, наверное, самый известный онлайн-помощник - Chat GPT. Пробовала и обычный поиск через Gpt 4o, и с использованием deep research, но итоговая стратегия была следующая:
Во-первых, я попросила GPT составить мне промт, который я скопирую в LLM, чтобы она нашла мне нужные материалы для исследования, а именно, материалы про практики работы в Ситуационных центрах умных городов, результат:
Во-вторых, я попросила перевести промт на английский язык и адаптировать его с прицелом на Perplexity
Результат:
По итогу первого шага у меня на руках оказался более-менее готовый промт, с которым можно было нырять в красный океан нормативов и регламентов 😪
Шаг 2. Найти документы, которые будем анализировать
Perplexity - для описания аргументации, почему был выбран именно он, а не deep research от Gpt или Поиск по сети Deepseek нужна отдельная статья. Так что прошу поверить на слово - способы были перепробованы все, но результат Perplexity порадовал больше по разнообразию и качеству источников / соответствию запросу и актуальности.
Промт остается с шага 1, при копировании в Perplexity ничего не редактировала, не добавляла, единственное отличие - в первую генерацию пробовала промт на русском языке, во - вторую на английском.
Шагов поиска нужных источников было много, как и чатов в Perplexity на разных языках. По итогу у меня получилось собрать папку из 15 файлов, в которых были описаны нормативы по организации Центров мониторинга в США, Бразилии, Мексике, Великобритании и еще 4 странах, или 2189 страницы А4, которые необходимо было прочитать -> выделить нужное -> зафиксировать -> обработать -> подготовить список ролей / задач и необходимого функционала.
Шаг 3. Понять, что делать со всем найденным добром
Учитывая, что работаю я от синка до синка со стейкхолдерами (ставь лайк, если тоже) - сроки на выполнение задачи стояли сжатые, а именно от вторника и до вторника. Примерно к четвергу я поняла, что потратив на поиск информации 2 дня, есть маленький шанс - не уложиться в срок.
Но, отставить панику на корабле! Вспоминаем про чудесный инструмент Google NotebookLM
Спойлер: многим NotebookLM нравится из-за функционала по автоматическому созданию Mind Map-ов, но вот именно мне эта фича не зашла. Когда речь заходит об анализе документов с разными сущностями (3 типа Центра мониторинга с разными функциями, 30+ ролей, 8 стран, 3 языка документации), случается казус - группы объединяются по понятным только системе признакам. Но, к слову, когда источников информации немного + у них схожая терминология - Mind Map строится просто замечательный!
Итак, загрузив все свои цифровые пожитки, получилась следующая картина:
До этого момента с Google NotebookLM я не работала, наверное, поэтому первое, что я сделала - попробовала создать Mind Map:
Несколько разделов, а именно Integrated Command and Control Centers (ICCC) и Smart Policing Initiative (SPI) я в дальнейшем взяла для финальной презентации, но большая часть получившихся mind map-ов особого интереса не представляла.
Следующий шаг - наконец-то попробовать вытащить из файлов именно ту информацию, которая мне нужна - про роли, их задачи, способы отчетности и т.д. Я пробовала задавать вопросы через чат и смотреть на результат.
Примерно через три попытки такого анализа мой впн решил, что ему пора уходить в спящий режим, и вместе с ним, выключился и Google Notebook LM, не сохранив ни один из сгенерированных ответов :)
Поэтому я решила проблему координально! И.. еще раз подключилась к серверу Великобритании и вернулась в свой любимый Chat GPT, но не для того, чтобы он помог мне проанализировать все документы, а для того, чтобы помог составить список вопросов, ответы на которые мне как продакту, нужно достать из найденных материалов.
Шаг 4. Сформулировать вопросы для исследования
По классике всех исследований, с этой задачи любое исследование и должно начинаться - с формулирования цели и вопросов, но... Получилось как получилось - возвращаемся к истокам.
По итогу (после нескольких подобных запросов) у меня получился внушительный список пунктов для анализа, начиная от Общей структуры Центров мониторинга и процессов, заканчивая Техническими и UX требованиями к системе, Безопасности доступа и т.д.
Далее я снова вернулась к Notebook ML и в чате задавала каждый из 35 вопросов по списку (7 ключевых блоков, по 5 вопросов в каждом):
Шаг 5. Приступить к анализу
После того, как я получила ответы на все вопросы и скопировала их в отдельный файл, разделив на блоки и вопросы в них, я снова вернулась в чат GPT. На этот раз мне нужно было получить краткую выжимку с основной информацией по каждому из блоков.
Промт был следующий:
И лайфхак - если вы хотите избежать галлюцинаций со стороны LLM, снизьте температуру - это параметр, который определяет степень случайности в ответах модели, чем он ниже, тем меньше случайности и тем меньше шанс нарваться на галлюцинации. Для моего случая, когда нужен только анализ имеющейся информации, без какой-либо "мозговой работы", я решила поставить максимально низкое значение параметра, прописав это в теле промта.
И при помощи таких манипуляций у меня получился неплохой анализ всех найденных документов - он был достаточно глубокий, охватывал все важные мне темы (от UX и до архитектуры решений), в нем не было каких-то идей или предположений, исключительно факты (да, я прошлась по итогу по всему тексту, который сгенерировал и Notebook LM, и Chat GPT), но это все равно не все... Далеко не все - впереди самое интересное!
Шаг 6. Начать работу над презентацией результатов
Скучные презентации по 50+ слайдов, бесконечные документы - прошлый век. Нужно то, что может захватить внимание. То, что наглядно покажет все результаты исследования. То, что запомнится. То, что разложит все по полочкам.
Всей душой люблю Chat GPT как ИИ-помощника и активно его использую, но когда речь заходит о том, чтобы написать код для какого-то продукта / элемента с нуля... В этих вопросах мой голос за Claude.
Основной запрос - создать интерактивную презентацию для стейкхолдеров, благодаря которой у меня получилось бы наглядно продемонстрировать полученные инсайты.
Промт состоял из 2 основных частей: непосредственно, запроса и ответа на вопросы. В этот раз все ответы, а вернее анализ ответов, полученный из Chat GPT, я загрузила одним запросом, так как у Claude я использую только бесплатную версию, количество возможных ежедневных вопросов сильно ограничено.
Шаг 7. Продолжить работу над презентацией результатов
Я попробовала запустить получившийся html файл через браузер, но у меня ничего не вышло. А запросы в Claude на этот момент уже закончились, поэтому сделать превью получившегося кода через чат также не вышло.
И я не придумала ничего лучше, чем... Загрузить html в Bolt AI и попросить его сделать интерфейс на основе кода из файла.
Просто прикрепила файл и написала то, что нужно сделать. В результате - получила красивый, а главное кликабельный интерфейс, который спокойно можно задеплоить и наслаждаться результатом:
И получившийся результат доступен по ссылке ниже:
Конечно, между строк остались еще часы работы над промтами для Gpt и Claude, над вычиткой получившихся результатов, внесении изменений в интерфейс, сгенерированный Bolt...
Результат
Артефакт, который не стыдно презентовать стейкхолдерам, и сэкономленные на вычитке 2000+ страниц часы. Но о том, как всему этому найти применение и использовать в продукте - уже совсем другая история.
Список использованных инструментов:
1. Open AI Chat GPT (преимущественно 4o), есть подписка
2. Perplexity (нет подписки)
3. Google NotebookLM
4. Claude (нет подписки)
5. Bolt (нет подписки)
PPS а какие инструменты вы обычно используете для анализа большого объема информации? Делитесь лайфхаками в комментариях!