Как продакту проанализировать 2000+ страниц и не сдохнуть: краткое пособие по выживанию

Давно ничего не писала, а тут решила по горячим следам подготовить небольшую статью, да еще и не просто статью, а супер практический (как мне кажется) гайд для ситуаций, когда вам нужно проанализировать более 2000 страниц и родить что-то полезное.

PS список всех использованных тулзов - в конце

Как продакту проанализировать 2000+ страниц и не сдохнуть: краткое пособие по выживанию

Всем привет! Меня зовут Лера и я продакт до мозга костей, а еще - амбассадор ламповых поездок, капучино и миндальных круассанов. Про свою любовь к продактству ИИ-продуктов пишу в телеграмм-канале @vne_aiti

Итак, ситуация:

Я - продакт, который с нуля разрабатывает решение с использованием технологий ИИ для центров мониторинга / ситуационных центров Безопасных и Умных городов. Пойти пообщаться с клиентами, чтобы понять их потребности - не вариант, НО безопасность - отрасль, которая регулируется кучей нормативных документов и ко всеобщей радости (моих коллег, не моей) они находятся в свободном доступе.

Как продакту проанализировать 2000+ страниц и не сдохнуть: краткое пособие по выживанию

Проблема:

Так как меня интересуют нормативные документы для регионов Латинской Америки и Ближнего Востока, то проблем на самом деле несколько:

1. Язык документации - с английским все хорошо, но вот что касается Латинской Америки - там документация исключительно на испанском и португальском языках (спасибо альма-матер, что дал мне выбрать испанский вторым иностранным языком, уже немного легче).

2. Поиск - как эти документы вообще найти - отдельная история, обычный поиск в гугл не помогает от слова совсем, получается найти только 1-2 документа конкурентных решений с описанием "лучших практик".

3. Зона доступа - да, можно включить ВПН, но некоторые сайты доступны исключительно из той страны, для которой они создавались, поэтому угадайка с выбором локации бесплатного впн сервиса - то еще хождение по минному полю.

4. Объем - в среднем, в каждом таком документе было порядка 100-200 страниц сплошного текста. Упорство - мое все, поэтому оно и уперлось в то, что не готово к изучению такого объема материала.

Решение:

Теперь к самому интересному - как же справиться с такой ситуацией.

Шаг 1. Понять, а что собственно нужно анализировать

Как продакт ИИ решений, разумеется, первым делом я отправилась в, наверное, самый известный онлайн-помощник - Chat GPT. Пробовала и обычный поиск через Gpt 4o, и с использованием deep research, но итоговая стратегия была следующая:

Во-первых, я попросила GPT составить мне промт, который я скопирую в LLM, чтобы она нашла мне нужные материалы для исследования, а именно, материалы про практики работы в Ситуационных центрах умных городов, результат:

Также рекомендую в промте прописать роль для LLM - например, Senior Market Researcher или Prompt Engineer 
Также рекомендую в промте прописать роль для LLM - например, Senior Market Researcher или Prompt Engineer 

Во-вторых, я попросила перевести промт на английский язык и адаптировать его с прицелом на Perplexity

Результат:

Рекомендую в промт также добавить описание вашего продукта; добавляла описание продуктовой идеи и гипотезы по ценностному предложению.
Рекомендую в промт также добавить описание вашего продукта; добавляла описание продуктовой идеи и гипотезы по ценностному предложению.

По итогу первого шага у меня на руках оказался более-менее готовый промт, с которым можно было нырять в красный океан нормативов и регламентов 😪

Шаг 2. Найти документы, которые будем анализировать

Perplexity - для описания аргументации, почему был выбран именно он, а не deep research от Gpt или Поиск по сети Deepseek нужна отдельная статья. Так что прошу поверить на слово - способы были перепробованы все, но результат Perplexity порадовал больше по разнообразию и качеству источников / соответствию запросу и актуальности.

Промт остается с шага 1, при копировании в Perplexity ничего не редактировала, не добавляла, единственное отличие - в первую генерацию пробовала промт на русском языке, во - вторую на английском.

Бесплатная версия Perplexity, режим Search 
Бесплатная версия Perplexity, режим Search 
Как продакту проанализировать 2000+ страниц и не сдохнуть: краткое пособие по выживанию

Шагов поиска нужных источников было много, как и чатов в Perplexity на разных языках. По итогу у меня получилось собрать папку из 15 файлов, в которых были описаны нормативы по организации Центров мониторинга в США, Бразилии, Мексике, Великобритании и еще 4 странах, или 2189 страницы А4, которые необходимо было прочитать -> выделить нужное -> зафиксировать -> обработать -> подготовить список ролей / задач и необходимого функционала.

Как продакту проанализировать 2000+ страниц и не сдохнуть: краткое пособие по выживанию

Шаг 3. Понять, что делать со всем найденным добром

Учитывая, что работаю я от синка до синка со стейкхолдерами (ставь лайк, если тоже) - сроки на выполнение задачи стояли сжатые, а именно от вторника и до вторника. Примерно к четвергу я поняла, что потратив на поиск информации 2 дня, есть маленький шанс - не уложиться в срок.

Но, отставить панику на корабле! Вспоминаем про чудесный инструмент Google NotebookLM

Спойлер: многим NotebookLM нравится из-за функционала по автоматическому созданию Mind Map-ов, но вот именно мне эта фича не зашла. Когда речь заходит об анализе документов с разными сущностями (3 типа Центра мониторинга с разными функциями, 30+ ролей, 8 стран, 3 языка документации), случается казус - группы объединяются по понятным только системе признакам. Но, к слову, когда источников информации немного + у них схожая терминология - Mind Map строится просто замечательный!

Итак, загрузив все свои цифровые пожитки, получилась следующая картина:

Ну круто же выглядит, да? 
Ну круто же выглядит, да? 

До этого момента с Google NotebookLM я не работала, наверное, поэтому первое, что я сделала - попробовала создать Mind Map:

Mind Map v1.0 - успела загрузить только 9 ресурсов, смотрится красиво, но по какому принципу, система решила поставить во главе угла Smart Columbus Data Management Plan - непонятно. 
Mind Map v1.0 - успела загрузить только 9 ресурсов, смотрится красиво, но по какому принципу, система решила поставить во главе угла Smart Columbus Data Management Plan - непонятно. 
Mind Map v2.0 - немного лучше, уже были использованы 17 ресурсов, но принцип объединения все также скрыт за завесой тайны.
Mind Map v2.0 - немного лучше, уже были использованы 17 ресурсов, но принцип объединения все также скрыт за завесой тайны.

Несколько разделов, а именно Integrated Command and Control Centers (ICCC) и Smart Policing Initiative (SPI) я в дальнейшем взяла для финальной презентации, но большая часть получившихся mind map-ов особого интереса не представляла.

Следующий шаг - наконец-то попробовать вытащить из файлов именно ту информацию, которая мне нужна - про роли, их задачи, способы отчетности и т.д. Я пробовала задавать вопросы через чат и смотреть на результат.

Кстати, что еще мне не понравилось в NotebookLM - оказалось, это очень неудобно, когда не сохраняется история запросов. Да, можно сделать Notes, но в них сохраняется только часть ответа.
Кстати, что еще мне не понравилось в NotebookLM - оказалось, это очень неудобно, когда не сохраняется история запросов. Да, можно сделать Notes, но в них сохраняется только часть ответа.

Примерно через три попытки такого анализа мой впн решил, что ему пора уходить в спящий режим, и вместе с ним, выключился и Google Notebook LM, не сохранив ни один из сгенерированных ответов :)
Поэтому я решила проблему координально! И.. еще раз подключилась к серверу Великобритании и вернулась в свой любимый Chat GPT, но не для того, чтобы он помог мне проанализировать все документы, а для того, чтобы помог составить список вопросов, ответы на которые мне как продакту, нужно достать из найденных материалов.

Шаг 4. Сформулировать вопросы для исследования

По классике всех исследований, с этой задачи любое исследование и должно начинаться - с формулирования цели и вопросов, но... Получилось как получилось - возвращаемся к истокам.

И опять же - лучше добавить больше контекста про продукт, чтобы GPT наверняка понял, что вы от него хотите. Больше деталей = большая точность ответа 
И опять же - лучше добавить больше контекста про продукт, чтобы GPT наверняка понял, что вы от него хотите. Больше деталей = большая точность ответа 

По итогу (после нескольких подобных запросов) у меня получился внушительный список пунктов для анализа, начиная от Общей структуры Центров мониторинга и процессов, заканчивая Техническими и UX требованиями к системе, Безопасности доступа и т.д.

Далее я снова вернулась к Notebook ML и в чате задавала каждый из 35 вопросов по списку (7 ключевых блоков, по 5 вопросов в каждом):

Пример одного из вопросов
Пример одного из вопросов

Шаг 5. Приступить к анализу

После того, как я получила ответы на все вопросы и скопировала их в отдельный файл, разделив на блоки и вопросы в них, я снова вернулась в чат GPT. На этот раз мне нужно было получить краткую выжимку с основной информацией по каждому из блоков.
Промт был следующий:

Я попросила GPT проанализировать ответы на 5 вопросов ниже (1 запрос = 1 блок с 5 вопросами, в каждом запросе дублировала изначальный промт).
Я попросила GPT проанализировать ответы на 5 вопросов ниже (1 запрос = 1 блок с 5 вопросами, в каждом запросе дублировала изначальный промт).

И лайфхак - если вы хотите избежать галлюцинаций со стороны LLM, снизьте температуру - это параметр, который определяет степень случайности в ответах модели, чем он ниже, тем меньше случайности и тем меньше шанс нарваться на галлюцинации. Для моего случая, когда нужен только анализ имеющейся информации, без какой-либо "мозговой работы", я решила поставить максимально низкое значение параметра, прописав это в теле промта.

И при помощи таких манипуляций у меня получился неплохой анализ всех найденных документов - он был достаточно глубокий, охватывал все важные мне темы (от UX и до архитектуры решений), в нем не было каких-то идей или предположений, исключительно факты (да, я прошлась по итогу по всему тексту, который сгенерировал и Notebook LM, и Chat GPT), но это все равно не все... Далеко не все - впереди самое интересное!

Шаг 6. Начать работу над презентацией результатов

Скучные презентации по 50+ слайдов, бесконечные документы - прошлый век. Нужно то, что может захватить внимание. То, что наглядно покажет все результаты исследования. То, что запомнится. То, что разложит все по полочкам.
Всей душой люблю Chat GPT как ИИ-помощника и активно его использую, но когда речь заходит о том, чтобы написать код для какого-то продукта / элемента с нуля... В этих вопросах мой голос за Claude.

Основной запрос - создать интерактивную презентацию для стейкхолдеров, благодаря которой у меня получилось бы наглядно продемонстрировать полученные инсайты.

Промт состоял из 2 основных частей: непосредственно, запроса и ответа на вопросы. В этот раз все ответы, а вернее анализ ответов, полученный из Chat GPT, я загрузила одним запросом, так как у Claude я использую только бесплатную версию, количество возможных ежедневных вопросов сильно ограничено.

В результате Claude выдал мне часть кода, которую затем я сохранила в формате .html файла и перешла к следующему шагу моего грандиозного плана!
В результате Claude выдал мне часть кода, которую затем я сохранила в формате .html файла и перешла к следующему шагу моего грандиозного плана!

Шаг 7. Продолжить работу над презентацией результатов

Я попробовала запустить получившийся html файл через браузер, но у меня ничего не вышло. А запросы в Claude на этот момент уже закончились, поэтому сделать превью получившегося кода через чат также не вышло.

И я не придумала ничего лучше, чем... Загрузить html в Bolt AI и попросить его сделать интерфейс на основе кода из файла.

Просто прикрепила файл и написала то, что нужно сделать. В результате - получила красивый, а главное кликабельный интерфейс, который спокойно можно задеплоить и наслаждаться результатом:

Как продакту проанализировать 2000+ страниц и не сдохнуть: краткое пособие по выживанию

И получившийся результат доступен по ссылке ниже:

Конечно, между строк остались еще часы работы над промтами для Gpt и Claude, над вычиткой получившихся результатов, внесении изменений в интерфейс, сгенерированный Bolt...

Результат

Артефакт, который не стыдно презентовать стейкхолдерам, и сэкономленные на вычитке 2000+ страниц часы. Но о том, как всему этому найти применение и использовать в продукте - уже совсем другая история.

Список использованных инструментов:

1. Open AI Chat GPT (преимущественно 4o), есть подписка
2. Perplexity (нет подписки)
3. Google NotebookLM
4. Claude (нет подписки)
5. Bolt (нет подписки)

PPS а какие инструменты вы обычно используете для анализа большого объема информации? Делитесь лайфхаками в комментариях!

2
2 комментария