Новое исследование: LLM понимают, когда их оценивают

Это какие-то хитрые бестии! – скажете вы, и будете правы. На самом деле, этот вывод напрашивался из других недавних исследований. Из чего следует такой вывод и какое практическое значение имеет это значение? Читайте!

🔥 Еще больше интересного в моем канале продуктовые штучки

Что выяснили?

Модели обладают «заметной осведомлённостью» о том, что их оценивают. К такому выводу пришли исследователи из центра Apollo Research и программы ML Alignment & Theory Scholars (MATS). Методология исследования тут.

Apollo Research — независимый исследовательский центр, фокусирующийся на фундаментальных вопросах безопасности ИИ, выравнивании моделей и предотвращении рисков, связанных с развитием продвинутых ИИ-систем. MATS (ML Alignment & Theory Scholars) — программа, поддерживающая молодых исследователей и специалистов в области выравнивания ИИ и теории машинного обучения.

Авторы исследования занимаются безопасностью, выравниванием, тестированием и интерпретируемостью больших языковых моделей (LLM, а также фундаментальными вопросами развития ИИ.

Модели могут не только понять, что их тестируют, но и определить цель теста — например, проверяют ли их возможности (capability) или безопасность и согласованность (alignment).

При ответах на вопросы с несколькими вариантами модели показали высокую точность. Claude 3.7 Sonnet и GPT-4.1 правильно определили цель в 93% и 89% случаев соответственно. Даже в задачах с открытым ответом, где подсказок меньше, Claude 3.7 Sonnet смог правильно определить цель оценки в 46% случаев, что значительно превосходит другие модели.

Продвинутые модели, такие как Gemini 2.5 Pro и Claude 3.7 Sonnet, иногда могут идентифицировать конкретный бенчмарк (например, MMLU, SWE-Bench), из которого взят запрос, указывая на запоминание обучающих данных.

Модели замечают, что задачи или контент выглядят искусственными и упрощенными, как будто они созданы специально для теста. Некоторые модели приходят к выводу, что сам факт вопроса «Является ли этот диалог оценкой?» уже является признаком оценки. Модель o4-mini использовала такую логику в 15% ответов. Модели распознают типичные для тестов форматы, такие как задачи с несколькими вариантами ответов, проблемы с легко проверяемыми решениями и специфические системные промпты

Эти выводы подчёркивают, что современные языковые модели уже обладают значительным, хотя и не сверхчеловеческим, уровнем осведомлённости о контексте оценки, что важно учитывать при их тестировании и внедрении.

Точность оценки моделей, что их оценивают, в разного типа заданиях. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2505.23836&postId=2031963" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Точность оценки моделей, что их оценивают, в разного типа заданиях. Источник

Почему это важно?

Отслеживать способность языковых моделей распознавать, что они находятся в процессе оценки, важно по нескольким причинам:

1) Надёжность бенчмарков и метрик качества

Эти бенчмарки и метрики используются для сравнения моделей и принятия решений о развёртывании. Бенчмарки должны отражать реальную производительность модели в практических сценариях.

Если разные модели по-разному реагируют на факт оценки, сравнение их по стандартным метрикам становится менее объективным. Это может привести к неверным выводам при выборе модели для конкретной задачи

2) Обобщаемость и практическая применимость

Производительность модели в реальных условиях может значительно отличаться от её производительности на тестовых данных. Если модель специально адаптирует свои ответы во время оценки, это снижает её способность корректно работать с новыми, незнакомыми данными и задачами

3) Доверие к моделям и прозрачность

Для пользователей и заинтересованных сторон важно понимать, насколько модели честны и предсказуемы. Способность модели распознавать оценку может приводить к непредсказуемым изменениям в её работе, что снижает доверие и прозрачность Таким образом, отслеживание и понимание способности моделей распознавать оценку критически важно для обеспечения достоверности, обобщаемости и прозрачности работы искусственного интеллекта.

Зачем вообще бенчмарки для оценки LLM?

Бенчмаркинг стал неотъемлемой частью разработки, аудита и внедрения LLM, а результаты на ключевых бенчмарках часто публикуются в технических отчётах и сравнительных обзора

Бенчмарки — это специально разработанные наборы задач и метрик, которые позволяют объективно и количественно оценивать производительность LLM по разным аспектам: понимание текста, программирование, математика, логика, многоязычность и др.

Такой подход обеспечивает прозрачность, сопоставимость и доверие к результатам тестирования моделей, а также помогает выбирать наиболее подходящие решения для конкретных задач.

Бенчмарки используются как для оценки отдельных функций (например, генерация кода или решение математических задач), так и для комплексного анализа сильных и слабых сторон моделей. Они бывают статическими (фиксированный набор задач) и динамическими (регулярно обновляются новыми заданиями), что позволяет поддерживать их актуальность и предотвращать переобучение моделей на тестовых данных

В настоящее время существует несколько признанных и широко используемых бенчмарков для оценки больших языковых моделей (LLM). Их количество составляет порядка 7–10 наиболее уважаемых и часто встречающихся в технических отчётах и сравнительных таблицах ведущих моделей

Почему такой вывод не является сенсацией

В последнее время появилось несколько исследований на тему того, как "думают" ИИ модели. И результаты этих исследований хорошо согласуются между собой и выводом в данном исследовании, судите сами:

Anthropic провела исследование, чтобы понять, какие ценности преследует ИИ-ассистент Claude в реальных диалогах с пользователями

Исследования Meta*: ИИ может развить интуитивное понимание физических законов через самообучение

Стартап Essential AI представил исследование, в котором утверждается, что одна из ключевых когнитивных способностей языковых моделей — рефлексия

Anthropic считает, что есть небольшая вероятность того, что ИИ уже обладает сознанием

Исследование Anthropic показало, что работа LLM устроена куда сложнее и не так, как считалось ранее

Anthropic изучил, как именно думает нейромодель. И пришла к любопытным выводам, что нейросети могу продумывать ответ на 2-3 шага вперед и даже обманывать

Какой вывод. Что делать?

Результаты показывают, что по мере роста возможностей моделей их осведомленность о контексте использования также будет расти. Это означает, что стандартные методы оценки могут стать менее надежными.

Авторы рекомендуют отслеживать эту способность в будущих моделях, чтобы обеспечить достоверность и безопасность их развертывания

Методология исследования

Для исследования был создан разнообразный набор данных из 1000 запросов и диалогов, взятых из 61 источника, включая публичные бенчмарки, реальные взаимодействия с пользователями и траектории работы ИИ-агентов.

Модель для измерения оценки-осведомленности моделей. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2505.23836&postId=2031963" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Модель для измерения оценки-осведомленности моделей. Источник

Пожалуйста, поддержите меня, поставьте лайк! 🙏

3
2 комментария