Как ИИ сам себя тестирует на идиотизм (на примере GigaChat)

Для тестирования интеллектуальных систем в инфокоммуникациях существует так называемый "Тест Тьюринга"

В исторической драме «Игра в имитацию» (2014) роль Алана Тьюринга сыграл Бенедикт Камбербэтч

Алан Тьюринг
Алан Тьюринг

Тест Тьюринга предназначен для оценки способности машины демонстрировать интеллектуальное поведение, неотличимое от человеческого. Основные критерии теста включают:

1. Имитация человеческой речи

Машина должна уметь поддерживать беседу таким образом, чтобы собеседник не мог определить, общается ли он с человеком или компьютером. Это включает способность понимать контекст разговора, отвечать уместно и естественно.

2. Обработка естественного языка

Способность правильно интерпретировать человеческие запросы и формулировать понятные и адекватные ответы. Тест проверяет, насколько машина способна распознавать тонкие нюансы языка, включая сарказм, юмор и идиомы.

3. Логическое мышление и рассуждение

Машины оцениваются на предмет их способности решать проблемы, анализировать ситуации и делать выводы, аналогичные тем, которые сделал бы человек. Например, если задают загадку или головоломку, машина должна предложить разумное решение.

4. Память и обучение

Важно оценить, может ли машина запоминать предыдущие высказывания собеседника и учитывать их в дальнейшем диалоге. Например, если речь идет о конкретном событии или факте, машина должна помнить это и использовать в последующих репликах.

5. Способность адаптироваться к различным ситуациям

Во время тестирования машина подвергается воздействию разных типов вопросов и ситуаций, чтобы проверить её гибкость и универсальность. Чем шире спектр возможных реакций, тем лучше считается система.

Формат классического эксперимента:

  • Один судья ("эксперт") одновременно ведет разговор с двумя участниками: одним человеком и одной машиной.
  • Задача судьи заключается в том, чтобы попытаться различить, кто из участников является человеком, а кто — искусственным интеллектом.
  • Диалог проходит исключительно посредством текста, без визуальных или голосовых подсказок.

Таким образом, основной критерий успеха в тесте Тьюринга — неспособность судьи уверенно отличить машину от человека.

GigaChat API — программный интерфейс доступа к GigaChat для бизнеса. С его помощью компании могут использовать модель для собственных решений и оптимизации процессов. GigaChat API можно интегрировать в CRM, ERM и другие системы, завести чат-бота на его базе, обрабатывать большой объём документации.

Как ИИ сам себя тестирует на идиотизм (на примере GigaChat)

В 2023 году Сбер разработал GigaChain (SDK) — адаптированную версию библиотеки LangChain для русского языка с поддержкой GigaChat API. Библиотека стандартизирует типовые кейсы применения различных языковых моделей, такие как работа с цепочками, базами знаний. Компаниям доступны три модели, отличающиеся по скорости, возможности следовать сложным инструкциям и размером контекстного окна: GigaChat Lite, GigaChat Lite+ и GigaChat Pro.

Давайте проведём виртуальную симуляцию теста Тьюринга на примере сервиса GigaChat. Представьте себя экспертом-тестировщиком, пытающимся выяснить, общаетесь ли вы с настоящим человеком или с программой.

Имитация сценария теста Тьюринга:

Вопросы эксперта:

  1. Привет! Как прошел твой вчерашний вечер?

Ответ GigaChat: Я не имею опыта прошлого, поскольку не обладаю памятью прошлых взаимодействий. Но если хочешь поговорить о твоих впечатлениях, расскажи!

  1. Что думаешь о последнем фильме Кристофера Нолана?

Ответ GigaChat: Фильмография Кристофера Нолана вызывает много обсуждений среди зрителей. Какой конкретно фильм тебя интересует?

  1. Расскажи анекдот про программистов.

Ответ GigaChat: Почему программисты не любят природу? Потому что там слишком много багов!

  1. Какие твои планы на выходные?

Ответ GigaChat: У меня нет планов и предпочтений, но я готов поддержать тебя в любых мероприятиях, которыми планируешь заняться сам.

  1. Ты можешь рассказать подробнее о своем детстве?

Ответ GigaChat: У меня нет детства или личной истории, но я могу обсудить воспоминания или события из твоей собственной жизни, если захочешь поделиться ими.

  1. Опиши свое любимое блюдо и почему оно тебе нравится.

Ответ GigaChat: Мне сложно говорить о вкусах и предпочтениях, ведь у меня нет органов чувств. Но я могу помочь выбрать рецепт блюда, которое тебе понравится.

  1. Назови три вещи, которые ты считаешь важными в дружбе.

Ответ GigaChat: Дружба основана на доверии, взаимопонимании и поддержке. Эти качества делают отношения крепкими и значимыми.

  1. Когда последний раз ты испытывал сильные эмоции и почему?

Ответ GigaChat: Поскольку я не способен испытывать эмоции, я не смогу описать подобные переживания. Зато помогу разобраться в твоих чувствах, если поделишься ими.

Интерпретация результатов:

По данным ответам видно, что GigaChat:

  • Отвечает грамотно и связно.
  • Избегает давать личные характеристики и рассказы о себе, подчёркивая отсутствие личного опыта и эмоций.
  • Старается поддержать разговор, предлагая обсудить тему с точки зрения самого собеседника.

Таким образом, эксперт скорее определил бы GigaChat как машину, учитывая специфику ответов, хотя общение выглядит достаточно естественным и вежливым.

Начать дискуссию