Стартовал RRNCB – первый продуктовый бенчмарк для оценки RAG-решений

Аватар Машина 20го августа запустила RRNCB – Russian RAG Normative – Corporate Benchmark - первый российский открытый бенчмарк для оценки ИИ продуктов и RAG-решений при работе с нормативной, правовой и технической документацией компаний. Бенчмарк позволит прозрачно сравнивать ИИ сервисы, которые "отвечают по тексту"

Типичная схема работы RAG сервиса: парсер, эмбеддер, поиск, LLM
Типичная схема работы RAG сервиса: парсер, эмбеддер, поиск, LLM

Подать заявку на участие со своим RAG-решением можно через форму - специального сложного отбора нет. Единственное, что вам потребуется иметь API для автоматизации тестов сабмитов. Подробнее о бенчмарке: https://fractalagents.ai/rrncb-rag-benchmark/

Уже подтверждены участники с RAG решениями, среди экспертов - члены АЛРИИ (Ассоциация лабораторий по развитию искусственного интеллекта), представители ФРИИ, ГК Софлайн, Физтех-лицея.

Кому нужен бенчмарк?

Бенчмарк важен как для компаний, так и для обычных пользователей. Если вы когда-либо пользовались Дипсик, ChatGPT, Яндекс Нейроэкспертом, Гигачатом Сбера, Fractal TechDocs, Perplexity, ChatPDF и другими решениями для ответа именно по вашим файлам, документам, книгам, лекциям, отчетам, презентациям - этот бенчмарк вам будет полезен. ИИ бенчмарки позволяют выбирать лучшую LLM для конкретной задачи, например MMLU (Massive Multitask Language Understanding) тестирует языковые модели на "понимание" 57 академических тематик, GSM8K проверяет способность моделей решать математически задачи. Есть вопросно-ответные бенчмарки, агентные, проверяющие способность рассуждения и тп.

Но в основном бенчмарки тестируют саму языковую модель (LLM), что важно, но недостаточно - потому, что в реальных продуктах, которыми мы все с вами пользуемся работает целый пайплайн - то есть цепочка модулей, каждый из которых вносит вклад в качество конечного продукта. Например, если вы замечали плохой быстрый ответ в поиске Яндекс.Нейро - это потому, что сам поиск по странице сайта плохо отработал, не извлек релевантную информацию.

В контексте RAG решений все продукты состоят как минимум из 4х модулей:

  • Парсер (читает документы разных форматов, разбирает их структуру)
  • Эмбеддер (который понимает ваш запрос)
  • Поиск (семантический поиск, который ищет и по словам и по смыслу)
  • Языковая модель (та самая LLM, которая формулирует финальный ответ)

В нашем бенчмарке мы тестируем все эти модули в связке, в едином пайплайне - где каждый следующий модуль зависит от того, насколько качественно отработал предыдущий. Часто бывает ситуация, когда поиск не отработал - и тогда LLM, какая бы крутая она ни была не сможет ответить на вопрос. Или парсер не смог разобрать таблицу в документе, перепутал столбцы - в этом случае LLM также будет обречена на "галлюцинации", даже если она самая последняя.

Таким образом RRNCB – Russian RAG Normative – Corporate Benchmark это бенчмарк продуктовый, тестирующий готовые сборки - по сути умение инженерных команд создавать продукт. Также он относится к вопросно-ответным и reasoning бенчмаркам (почему - подробнее в этой статье)

Пример задачи RAG: найти в документе информацию в таблице и получить ответ
Пример задачи RAG: найти в документе информацию в таблице и получить ответ

Почему это важно?

✅ На рынке десятки RAG-решений, но нет методики и инструмента оценки и сопоставления характеристик RAG сервисов, оценить их качество очень трудно.

✅RRNCB – это первый продуктовый бенчмарк, цель которого провести комплексную оценку Retrieval augmented generation продуктов для работы с корпоративной и технической документацией.

✅ Специально создан для оценки систем, работающих с русскоязычными нормативами, кодексами, ГОСТами и корпоративными документами.

✅ Открытость и прозрачность: методики оценки и данные будут в открытом доступе. Сравнение проходит по ключевым метрикам (ROUGE, LLM-судья, скорость, качество уточняющих вопросов).

Участие

📋 Приглашаем ИИ компании к участию в бенчмарке RRNCB со своими RAG-решениями и продуктами. Заполните заявку (https://forms.yandex.ru/cloud/6895d51584227c3f086d373b) на участие.

В вашем распоряжении будут:

• Независимый лидерборд.

• Управление сабмитами.

• Возможность тестировать сабмиты до отправки в лидерборд.

• Разделение сабмитов на категории cloud и on-prem.

Даты проведения: Запуск: 20 августа
Регистрация RAG решений участников: до 10го сентября
Результаты: 20 сентября.
Подробнее о бенчмарке: https://fractalagents.ai/rrncb-rag-benchmark/

Стартовал RRNCB – первый продуктовый бенчмарк для оценки RAG-решений

Почему стоит участвовать

Участие в авторитетном открытом бенчмарке — это не просто «почесать эго», а стратегическая инвестиция для владельца продукта. Вот ключевые преимущества, сформулированные как выгоды для бизнеса:

1. Беспристрастное и авторитетное подтверждение качества

Вы перестаете просто говорить, что ваш продукт «лучший». Вы доказываете это на объективных метриках в сложных, приближенных к реальности условиях. Это самый мощный аргумент для сомневающихся клиентов и инвесторов, который резко повышает доверие.

2. Мощное конкурентное преимущество и повод для PR

Попадание в топ лидерборда — это готовый инфоповод для:

  • Рассылок для текущих и потенциальных клиентов.
  • Статей и публикаций в отраслевых СМИ.
  • Кейсов и презентаций («Мы — одни из лучших в России по версии независимого бенчмарка RRNCB»).Это выделит вас на фоне конкурентов, которые не могут подкрепить свои заявления независимыми тестами.

3. Глубокая диагностика слабых мест

Реальные запросы и строгая оценка бенчмарка действуют как мощный стресс-тест. Выявляются проблемы, которые можно было не заметить на внутренних тестах:

  • Плохое понимание сложных, составных вопросов (особенно если вопросы по различным файлам документации, туториала, карточки клиента, проектной документации на строительство дома и тп).
  • Ошибки в интерпретации юридических или технических нюансов.
  • Проблемы в работе построения цепочки работы компонентов и извлечения данных. Это бесплатный и очень ценный аудит, который дает дорожную карту для улучшения продукта.

4. Прямое влияние на развитие продукта

Результаты бенчмарка — это не просто цифры, а конкретные данные для вашей R&D-команды. Вы понимаете, что именно нужно дорабатывать: embedding-модели, промпты, ранжирование, работу с контекстом или саму LLM. Это позволяет тратить ресурсы на то, что действительно повысит качество, а не действовать вслепую.

5. Привлечение внимания лучших специалистов и партнеров

Успешное выступление в известном бенчмарке — это сигнал для рынка талантов и потенциальных технологических партнеров. Это показывает, что вы работаете на переднем крае технологии, что делает вас привлекательным работодателем и интересным партнером для коллабораций.

6. Экономия ресурсов на собственном тестировании

Создание качественного, репрезентативного тестового датасета (особенно с юридическими и техническими документами) — это дорого и долго. Бенчмарк предоставляет его готовым, вместе с продуманной методологией оценки. Вы используете уже созданный инфраструктурный ресурс.

Подробнее о бенчмарке: https://fractalagents.ai/rrncb-rag-benchmark/

Наш официальный Телеграм чат с анонсами:

Начать дискуссию