Как проанализировать документы и составить базу знаний в «Нейроэксперте» от «Яндекса»

Выяснили, сумеет ли сервис пересказать содержимое файлов и ответить на вопросы прямо в диалоге. А главное — не выдумать при этом факты.

Как проанализировать документы и составить базу знаний в «Нейроэксперте» от «Яндекса»

Проблема, с которой сталкиваются многие пользователи нейросетей, — галлюцинации. Генеративные модели сочиняют информацию и делают это так правдоподобно, что иногда сложно отличить реальные факты от вымысла. «Нейроэксперт» от «Яндекса», как утверждают разработчики, работает по-другому: анализирует только тот материал, который в него загрузили.

Мы провели эксперимент и выяснили, сможет ли «Нейроэксперт» найти информацию в документе, ответить на каверзные вопросы, проанализировать базу данных, написать введение к исследованию и сделать конспект лекции. В тексте показываем, как сервис справился с запросами.

Содержание:

Что такое «Нейроэксперт» от «Яндекса»

Это ИИ-сервис, который анализирует информацию и формирует базу знаний из пользовательских файлов. «Яндекс» запустил бета-версию «Нейроэксперта» в начале апреля 2025 года.

Пока бета-версия сервиса бесплатная. Одновременно в «Нейроэксперте» можно хранить до 10 проектов, в каждом до 25 файлов. К проекту можно настроить совместный доступ, чтобы работать над документами вместе с коллегами.

В будущем бизнесу будет доступна расширенная версия ИИ-агента. Она пригодится для формирования корпоративных баз данных.

Что умеет «Нейроэксперт»

В бета-версии ИИ-агента можно:

  • Искать информацию в загруженных файлах. Нейросеть использует только те данные, к которым дал доступ пользователь.
  • Формировать базы знаний и обрабатывать большие массивы информации. Пользователю нужно загрузить контент, из которого будет состоять будущая база. Дальше нейросеть проанализирует данные, а по просьбе пользователя — напишет саммари, составит сравнительную таблицу или ответит на вопросы.
  • Генерировать текст. Встроенная модель YandexGPT 5 Pro подготовит письмо с кратким изложением отчёта или напишет введение к научной работе на основе более ранних статей (перед этим в сервис нужно загрузить референсы).
  • Анализировать аудио и видео. Это удобно, если нет времени переслушивать запись лекции или рабочего созвона — «Нейроэксперт» обработает запись и пришлёт конспект.

Нейросеть «Яндекса» будет полезна не только для рабочих задач, но и в быту. Например, она сравнит несколько товаров по описанию на сайте или видеообзору, подготовит ответы на экзаменационные билеты для студентов или объяснит правила сложной игры.

«Нейроэксперт» проанализировал PDF-файл с правилами игры «Ктулху» и коротко ответил, сколько специальных действий доступно сыщикам в каждом эпизоде. Источник: expert.ya.ru/expert 
«Нейроэксперт» проанализировал PDF-файл с правилами игры «Ктулху» и коротко ответил, сколько специальных действий доступно сыщикам в каждом эпизоде. Источник: expert.ya.ru/expert 

Сервис понимает и анализирует разные типы документов: текстовые файлы, таблицы, презентации, видео, аудио, ссылки на сайты. Возможно это благодаря объединению трёх технологий:

  • Визуально-языковая модель (VLM) читает графики и диаграммы.
  • Технология распознавания речи (ASR) анализирует аудио и видео.
  • Технология оптического распознавания символов (OCR) находит нужный текст на изображениях.

«Нейроэксперт» обобщает данные и с помощью нейросети YandexGPT 5 Pro генерирует ответы на вопросы пользователя.

Рубрика «Эксперименты»

Зарегистрироваться на сайте можно через «Яндекс ID». После авторизации откроется страница «Мои проекты». Здесь два блока — «Созданные вами» и «С вами поделились». Во втором по умолчанию лежат несколько проектов от «Яндекса» — для примера.

Нас интересует блок «Созданные вами». В нём и начнём эксперимент. Источник: expert.ya.ru/expert 
Нас интересует блок «Созданные вами». В нём и начнём эксперимент. Источник: expert.ya.ru/expert 

Анализируем документ и получаем саммари

Для начала поработаем с одним документом — отчётом «Future of Jobs Report 2025», который мы анализировали в статье про рынок труда в 2025 году.

Создадим новый проект. Для этого:

  • Нажмём на серую кнопку с иконкой в виде плюса.
  • Прикрепим файл. В нашем случае понадобится только один документ, всего можно загружать не больше 25 файлов. Отчёт весит 20 Мб, его загрузка заняла около четырёх-пяти минут.
Сервис просит не загружать документы, в которых содержится коммерческая тайна или персональные данные. Источник: expert.ya.ru/expert 
Сервис просит не загружать документы, в которых содержится коммерческая тайна или персональные данные. Источник: expert.ya.ru/expert 
  • Попробуем узнать ответ на один из трёх вопросов, которые нейросеть предложила обсудить в диалоге. Сервис сгенерировал вопросы самостоятельно.
В оригинале документ на английском языке, но ИИ написал краткое содержание на русском. А вот вопросы к документу задал на английском. Источник: expert.ya.ru/expert 
В оригинале документ на английском языке, но ИИ написал краткое содержание на русском. А вот вопросы к документу задал на английском. Источник: expert.ya.ru/expert 

Результат эксперимента: ответ «Нейроэксперта» получился кратким — без дополнительных уточнений эта информация вряд ли будет полезной. Ещё один недочёт — качество перевода: вместо «которые, как ожидается, сформируют» ИИ написал «ожидаются сформировать». Такой текст придётся редактировать.

Ответ на вопрос о ключевых драйверах изменений на рынке труда к 2030 году. Источник: expert.ya.ru/expert 
Ответ на вопрос о ключевых драйверах изменений на рынке труда к 2030 году. Источник: expert.ya.ru/expert 

Со вторым вопросом «Какие технологии изменят мировой рынок труда к 2030 году» вышло примерно то же — краткий ответ и ошибки в переводе.

Нейросеть выделила три ключевые технологические сферы: ИИ, роботы и энергетика. Больше никакой информацией «Нейроэксперт» не поделился. Источник: expert.ya.ru/expert 
Нейросеть выделила три ключевые технологические сферы: ИИ, роботы и энергетика. Больше никакой информацией «Нейроэксперт» не поделился. Источник: expert.ya.ru/expert 

Ищем информацию

Дальше попробуем пообщаться с нейросетью и найти в файле нужную нам информацию. Для этого в том же проекте, прямо в чате, напишем промпт с просьбой рассказать, какие профессии изменятся сильнее всего к 2030 году. Дополнительно укажем примерный объём ответа — около 2000 знаков.

Теперь ответ более развёрнутый. Источник: expert.ya.ru/expert 
Теперь ответ более развёрнутый. Источник: expert.ya.ru/expert 

Результат эксперимента: прогноз ИИ частично совпадает с выводами, которые сделал автор-человек (и нейросеть, и человек рассказали про изменения в сфере финансов и электромобилей). А вот наблюдения «Нейроэксперта» про специалистов по машинному обучению и разработчиков, согласно исследованию, связаны с ростом их востребованности, а не с трансформацией рынка труда в целом.

Получается, «Нейроэксперт» ответил не совсем на тот вопрос, который ему задали. Кроме того, в ответе не хватает информации о том, на основе какой части отчёта ИИ сделал выводы. Из плюсов — в сгенерированном тексте действительно нет выдумок.

Создаём базу знаний для выбора квартиры в Новой Москве

Механика для создания базы данных такая же, как для анализа одного документа. Загружать можно до 25 файлов — текст, презентации, таблицы, аудио, видео, веб-страницы. По сути, созданная папка станет базой знаний, на основе которой ИИ будет отвечать на вопросы.

В нашем случае нужно собрать базу знаний, которая поможет выбрать квартиру в Новой Москве. Для этого:

  • Нажмём на серую область со знаком «+» в блоке «Созданные вами» и выберем вариант «Добавьте ссылку на статью».
  • Прикрепим ссылки на 10 видео о недвижимости в Новой Москве.
Обработка исходников заняла у нейросети не больше пары минут. Источник: expert.ya.ru/expert 
Обработка исходников заняла у нейросети не больше пары минут. Источник: expert.ya.ru/expert 
  • Зададим вопрос нейросети: «Я думаю о покупке квартиры в Новой Москве. На основе видеообзоров подробно опиши плюсы и минусы такой покупки, а также сформируй список лучших ЖК в Новой Москве, которые мне стоит рассмотреть».

Результат эксперимента: «Нейроэксперт» перечислил плюсы покупки квартиры в Новой Москве, но минусы и рекомендации по ЖК не описал. Причиной нейросеть назвала то, что в документе нужной информации нет. Это неправда: в своём же пересказе ИИ писал, что видео содержат в том числе и недостатки локации.

Источник: expert.ya.ru/expert 
Источник: expert.ya.ru/expert 

Возможно, проблема в формате. Чтобы проверить эту гипотезу:

  • Дополним базу, состоящую из видео, ссылками на текстовые статьи. В этот раз загрузка заняла около трёх минут.
  • Отправим тот же промпт с просьбой описать плюсы и минусы района, а также прислать список лучших ЖК в Новой Москве.

Результат эксперимента: и снова с рекомендациями по новостройкам сервис не справился. Про минусы «Нейроэксперт» написал, но очень коротко.

На какие ЖК в Новой Москве стоит обратить внимание, нейросеть так и не сказала. Источник: expert.ya.ru/expert 
На какие ЖК в Новой Москве стоит обратить внимание, нейросеть так и не сказала. Источник: expert.ya.ru/expert 

Пишем введение к научному исследованию

Испытаем сервис ещё на одной задаче — попросим написать введение к научной работе. Для этого:

  • Скачаем семь свежих статей из The Journal of Artificial Intelligence Research в формате PDF. Они и станут базой знаний, которую мы загрузим в нейросеть.
  • Обратимся к «Нейроэксперту» с таким промптом: «Ты пишешь научное исследование. Работаешь над введением, в котором нужно описать актуальные тренды в исследованиях искусственного интеллекта. На основе всех загруженных статей напиши введение. Примерный объём: 4000 символов».
Объём сгенерированного текста оказался в два раза меньше ожидаемого. Источник: expert.ya.ru/expert 
Объём сгенерированного текста оказался в два раза меньше ожидаемого. Источник: expert.ya.ru/expert 

Результат эксперимента: из семи документов «Нейроэксперт» использовал только два (это видно по прикреплённым источникам). Но в запросе есть уточнение, что важно обработать все данные.

Снова уточним задачу и пропишем, что нужны выводы из всех семи источников. Сервис ответил, что нужной информации в файлах нет, сославшись на то, что статьи не описывают тренды.

В чём ошибка: мы просили рассказать не о трендах в ИИ, а о трендах в исследованиях нейросетей. Как и при анализе отчёта «Future of Jobs Report 2025», «Нейроэксперт» не точно понял задачу.

Источник: expert.ya.ru/expert 
Источник: expert.ya.ru/expert 

Превращаем аудио с лекцией в конспект

В последнем тесте проверим, как нейросеть справится с конспектом по лекции о дисперсии света. Для этого:

  • Добавим аудио с лекцией в документы проекта.
  • Напишем промпт «Сделай конспект лекции. Конспект должен быть не длиннее 3000 знаков».
Источник: expert.ya.ru/expert 
Источник: expert.ya.ru/expert 

Результат эксперимента: «Нейроэксперт» справился с заданием и сделал конспект, но его саммари отличается от того, которое сделал бы человек. Нейроконспект больше похож на список заголовков, в то время как человек выписал бы интересные и важные факты или формулы. Тем не менее выдуманных фактов в конспекте и правда нет. Вывод — неплохо, но пока не идеально.

Краткий вывод

  • «Нейроэксперт» помогает найти данные в документе и отвечает на вопросы по содержимому файла.
  • Нейросеть справляется с обработкой базы знаний, но не идеально. Например, иногда пишет ответы на основе выборочных источников и неточно понимает запросы.
  • Сервис не всегда учитывает детали и пожелания по объёму текста. Например, иногда говорит, что подходящей информации в источниках нет, хотя на самом деле нужные данные на месте.

Как вам возможности «Нейроэксперта»? Будете ждать расширенной версии сервиса?

4
3 комментария