Цифровое востоковедение: как ИВ РАН с Yandex Cloud открывает доступ к первоисточникам

Институт востоковедения РАН и Yandex Cloud создали AI-ассистента для работы с научными данными и платформу мониторинга китайских СМИ. Эти решения на базе AI ускоряют анализ первоисточников для исследователей в 6–8 раз.

Цифровое востоковедение: как ИВ РАН с Yandex Cloud открывает доступ к первоисточникам

В этой статье:

Работа с восточными рынками требует глубокого понимания контекста, языков и исторических связей. Но у российских исследователей и бизнеса практически нет доступа к первоисточникам — например, китайская внутренняя электронная периодика мало используется в научных и аналитических работах. Большинство информации приходит через англоязычные источники, что может искажать реальную картину событий.

Институт востоковедения РАН решает эту проблему с помощью двух разработок на платформе Yandex Cloud:

  • Первая — AI-ассистент для работы с востоковедческой информацией. Система анализирует академические труды института и предоставляет проверенные данные о странах Азии, Африки и Ближнего Востока. Фокус на трёх ключевых областях: история, культура и торгово-экономическое сотрудничество.
  • Вторая — система межъязыкового информационного поиска для мониторинга китайских СМИ. Она переводит и анализирует тысячи новостей, формируя ежедневные дайджесты по ключевым темам.

В статье рассказываем о разработке обоих решений.

Барьеры доступа к восточным источникам

СМИ Азии, Ближнего Востока и Африки публикуют тысячи статей каждый день. Это огромный массив информации, который труднодоступен для русскоязычных востоковедов, несмотря на владение ими восточными языками. Главные препятствия — языковой барьер и нехватка инструментов для сбора и анализа больших объёмов данных.

Русскоязычный доступ к текстовому корпусу на другом языке — это задача кросс-языкового информационного поиска. Разработкой в этой области занимаются уже много десятилетий. Долгое время основным решением было свести задачу к уже решённой, то есть к одноязычному поиску с помощью машинного перевода.

Для этого переводят либо пользовательские запросы на язык корпуса, либо весь корпус на язык пользователя. Генеративные модели и методы построения мультиязычных векторных моделей открыли новые возможности для таких задач.

RAG-архитектура для востоковедческих исследований

Институт востоковедения РАН разработал на основе технологий Yandex Cloud две информационные системы с однотипной архитектурой. Первая обеспечивает поиск по электронным СМИ на китайском языке, вторая — предоставляет исследователям-востоковедам AI-ассистента.

В разработке системы поиска по китайским СМИ участвовали сотрудники Лаборатории цифровых исследований современного Востока ИВ РАН и Института Китая и современной Азии РАН. Технической реализацией занимались стажёры Yandex Cloud — студенты московских вузов (ВМК МГУ, ВШЭ), которые обучаются по специальности машинного обучения. На всех этапах сотрудники Yandex Cloud оказывали им техническую поддержку и продолжают консультировать по применению облачных инструментов.

Обе системы разработаны как облачные и работают с использованием больших языковых моделей платформы Yandex Cloud. В их основе — RAG-архитектура.

RAG — широко распространённая и хорошо себя зарекомендовавшая технология. В ней языковая модель генерирует ответы на основе информации не только из самой генеративной сети, но и из дополнительных источников, найденных по запросу.

Задача AI-ассистента — превратить десятилетия накопленной экспертизы института в удобный цифровой инструмент. Система состоит из трёх ключевых компонентов. Векторизация данных и запросов обеспечивает семантический поиск — это позволяет преодолеть ограничения поиска по ключевым словам. Языковая модель FRED-T5-Summarizer сжимает длинные тексты в краткие выжимки, а YandexGPT (входит в состав Yandex AI Studio) формирует финальные ответы.

Благодаря такой архитектуре система анализирует информацию в контексте научной базы института. Главная информационная составляющая системы — специализированный корпус данных, собранный на основе исследований и публикаций института. База знаний охватывает шесть ключевых направлений:

  • история Востока — от древних цивилизаций до современности;
  • культура — обычаи, традиции, фольклор, искусство, литература;
  • экономика и общество стран Азии и Африки;
  • международные отношения в регионе;
  • языки и письменности Востока;
  • научная жизнь института — конференции, публикации, исследования.

Технологическая архитектура системы

Архитектура разработанных систем построена на современном стеке технологий. Бэкенд реализован на библиотеке FastAPI для создания быстрых веб-API на Python™. Он обеспечивает работу бэкенд-микросервиса поиска, который обрабатывает запросы исследователей и взаимодействует с базой знаний.

Для хранения и поиска информации использовали ChromaDB и Qdrant — векторные базы данных, позволяющие искать тексты по смысловому сходству. В текущей версии для векторизации применили несколько мультиязычных моделей. В итоге выбрали ту, которая показала в эксплуатации лучшие результаты.

В AI-ассистенте параллельно используется облачный интерфейс AI Assistant API с гибридной индексацией по эмбеддингам и ключевым словам. Гибридный подход к поиску стал ключевой особенностью архитектуры. Он объединяет векторный поиск (по смыслу) и лексический поиск с лемматизацией (по точному совпадению терминов). Комбинация методов существенно повышает точность: система находит и семантически близкие тексты, и документы с нужными формулировками.

YandexGPT генерирует финальные ответы на основе найденной информации. Интеграция с Yandex Cloud ML SDK позволяет эффективно управлять ресурсами и автоматически масштабировать систему при росте нагрузки.

Кроме того, интеграция даёт возможность использовать готовый стек объектов. Они отвечают за организацию диалога с пользователем: от файлового хранилища и его индекса до тредов.

Особую роль играет FRED-T5-Summarizer — модель для суммаризации русских текстов с около 1,74 млрд параметров. Она сжимает объёмные научные тексты в краткие выжимки по 40–60 токенов. Это критически важно для обработки длинных академических материалов и объединения результатов поиска в связный ответ.

DevOps и инфраструктура проекта

Система развёрнута на платформе Yandex Cloud. В облаке работают две виртуальные машины — одна для базы данных, другая для веб-сервиса. Компоненты системы изолированы в Docker®-контейнерах. Фронтенд и бэкенд на Python запущены в отдельных контейнерах.

Архитектура спроектирована с учётом современных DevOps-практик. Обновление конфигураций максимально упрощено — достаточно изменить JSON-файлы без правки кода. Модели и поисковые индексы обновляются таким же способом. Ключи доступа и идентификаторы хранятся отдельно от кода для безопасности. Централизованное логирование упрощает отладку и мониторинг работы системы.

Такая архитектура позволяет исследователям института сосредоточиться на научной работе, а не на технической поддержке инфраструктуры. Система автоматически адаптируется к изменениям нагрузки и обновлениям базы знаний.

Работа с китайскими источниками

Обработка публикаций в китайских СМИ требует специального подхода. Система анализирует три четыре варианта китайского языка — континентальный, тайваньский, гонконгский и сингапурский. В первой версии система перед индексацией переводила тексты с китайского на английский через Yandex Translate, аналогичным образом обрабатывались и пользовательские запросы. Так решили, поскольку предполагалось, что обученные преимущественно на англоязычных текстах модели будут лучше справляться с запросами на английском языке.

Июльский запуск в Yandex Cloud семейства моделей Qwen заставил пересмотреть этот подход в пользу прямой работы с китайскими текстами с помощью китайских моделей. Сейчас ведётся работа над подключением самой большой из доступных моделей — 235-миллиардной Qwen3.

Вместе с поиском по внутренней новостной базе данных система выполняет параллельный веб-поиск по китайским СМИ: собирает актуальные сообщения, переводит их, индексирует и передаёт на этап формирования ответа. Система хранит все тексты китайских СМИ, собранные во время обработки пользовательских запросов. Благодаря этому исследователи могут проводить семантический поиск в большом архиве новостей.

Прямая работа с первоисточниками принципиально меняет исследовательский процесс. Вместо англоязычных интерпретаций западных СМИ учёные получают доступ к материалам китайских источников, переведённым напрямую с китайского. Взаимодействие с исследователями происходит через русскоязычный интерфейс и запросы на русском языке.

Запущенные системы и планы масштабирования

Система развёрнута и проходит пилотное тестирование. База знаний AI-ассистента уже содержит более 1,5 млн документов по всем направлениям востоковедения. Система способна обрабатывать до 1000 источников в день, в то время как ранее исследователи успевали проанализировать вручную не более 8–10. В экспериментальной версии для анализа китайских СМИ используют несколько тысяч новостных текстов, но этого мало для промышленного использования.

Институт активно наращивает базу данных с целью тысячекратного увеличения. Главная задача на этот год — протестировать производительность и получить обратную связь от расширенной аудитории пользователей. Система тестирует автономное формирование русскоязычных ежедневных дайджестов по различным тематикам: от политики до экономики.

Перспективы развития

Институт планирует существенно расширить языковую поддержку системы. К китайскому добавят японский, арабский, персидский, иврит, турецкий, индонезийский, вьетнамский, корейский, монгольский и казахский. Это откроет исследователям доступ к первоисточникам из разных стран Азии, Ближнего Востока и Африки.

Важным этапом станет создание масштабного корпуса специализированной востоковедческой литературы. В него войдут научные монографии, статьи, сборники и первоисточники — десятки тысяч страниц академических текстов с метаданными и разметкой для обработки AI. Это позволит системе перейти от простых справок к глубокой аналитике. Исследователи получат аргументированные ответы со ссылками на источники и точными научными концепциями.

В долгосрочной перспективе институт видит переход к принципиально новым режимам взаимодействия исследователей и AI. Система будет заранее анализировать возможные направления научного поиска, помогая учёным сфокусироваться на перспективных гипотезах.

Опыт реализации проекта будет обобщён в академических публикациях этого года. Технологии Yandex Cloud и методология создания AI-ассистента войдут в совместные статьи для рецензируемых журналов ВАК и изданий из «белого списка».

Новая модель научно-технологической коллаборации

Проект AI-ассистента демонстрирует, как академическая наука может эффективно использовать современные облачные технологии. Десятилетия регионоведческой экспертизы Института востоковедения РАН превращаются в цифровой инструмент, доступ к которому расширяется по мере завершения тестирования.

Александр Костыркин
Старший научный сотрудник Лаборатории цифровых исследований современного Востока ИВ РАН

До недавнего времени учёные сталкивались с тем, что анализ материалов на оригинальных языках занимал много времени и ограничивал количество обрабатываемых источников. С помощью AI этот процесс ускоряется: время поиска и анализа сокращается в 6–8 раз — с нескольких часов до 10–15 минут на одну исследовательскую задачу. Это даёт исследователям возможность обрабатывать больше материалов ежедневно, проводить более глубокий анализ и получать полное представление о тенденциях в регионе.

Аликбер Аликберов
Директор Института востоковедения РАН, доктор исторических наук

Это не единственный цифровой проект ИВ РАН, который выполняется в сотрудничестве с Яндексом. Ведётся работа по диагностическим методам в археологии на основе машинного обучения. Институт востоковедения РАН проходит масштабную цифровую трансформацию, в центре которой — системная интеграция AI-технологий для работы с первоисточниками. Партнёрство с Яндексом позволяет нам существенно расширить объём и глубину анализа материалов, сохраняя фундаментальность академического подхода. Это касается цифрового источниковедения, археологии, лингвистики, перевода с восточных языков. Издаётся специализированный журнал «Цифровое востоковедение», освящающий цифровые методы в востоковедении и цифровую революцию в странах Востока.

Облачная архитектура на платформе Yandex Cloud обеспечивает надёжную работу системы. Она автоматически адаптируется к обновлениям базы данных и индексов, масштабируется под нагрузку и восстанавливается при сбоях. Это позволяет исследователям сосредоточиться на научной работе, а не на технической поддержке инфраструктуры.

В этом году институт тестирует систему на расширенной аудитории — учёных, аналитиках, журналистах, экспертах по Востоку. Первая независимая обратная связь поможет доработать систему под реальные потребности исследователей.

Анна Лемякина
Директор по национальным и стратегическим проектам Yandex Cloud

Востоковедам особенно важно работать с первоисточниками — понимать язык, контекст и логику региона, о котором они пишут. Искусственный интеллект позволяет сделать это быстрее, точнее и глубже. Наша цель — чтобы технологии помогали учёным видеть больше и работать с данными, которые раньше были труднодоступны.

Технологическая ниша межъязыкового информационного поиска для русского и восточных языков пока остаётся свободной. Специализированное решение Института востоковедения РАН и Yandex Cloud закроет этот пробел.

Хотите узнать, как AI и облачные технологии меняют образование, культуру и здравоохранение? Подписывайтесь на телеграм-канал Центра технологий для общества Yandex Cloud.

Другие статьи о социально значимых проектах:

Начать дискуссию