Как ИИ сам себя тестирует на идиотизм (на примере GigaChat)
Для тестирования интеллектуальных систем в инфокоммуникациях существует так называемый "Тест Тьюринга"
В исторической драме «Игра в имитацию» (2014) роль Алана Тьюринга сыграл Бенедикт Камбербэтч
Тест Тьюринга предназначен для оценки способности машины демонстрировать интеллектуальное поведение, неотличимое от человеческого. Основные критерии теста включают:
1. Имитация человеческой речи
Машина должна уметь поддерживать беседу таким образом, чтобы собеседник не мог определить, общается ли он с человеком или компьютером. Это включает способность понимать контекст разговора, отвечать уместно и естественно.
2. Обработка естественного языка
Способность правильно интерпретировать человеческие запросы и формулировать понятные и адекватные ответы. Тест проверяет, насколько машина способна распознавать тонкие нюансы языка, включая сарказм, юмор и идиомы.
3. Логическое мышление и рассуждение
Машины оцениваются на предмет их способности решать проблемы, анализировать ситуации и делать выводы, аналогичные тем, которые сделал бы человек. Например, если задают загадку или головоломку, машина должна предложить разумное решение.
4. Память и обучение
Важно оценить, может ли машина запоминать предыдущие высказывания собеседника и учитывать их в дальнейшем диалоге. Например, если речь идет о конкретном событии или факте, машина должна помнить это и использовать в последующих репликах.
5. Способность адаптироваться к различным ситуациям
Во время тестирования машина подвергается воздействию разных типов вопросов и ситуаций, чтобы проверить её гибкость и универсальность. Чем шире спектр возможных реакций, тем лучше считается система.
Формат классического эксперимента:
- Один судья ("эксперт") одновременно ведет разговор с двумя участниками: одним человеком и одной машиной.
- Задача судьи заключается в том, чтобы попытаться различить, кто из участников является человеком, а кто — искусственным интеллектом.
- Диалог проходит исключительно посредством текста, без визуальных или голосовых подсказок.
Таким образом, основной критерий успеха в тесте Тьюринга — неспособность судьи уверенно отличить машину от человека.
GigaChat API — программный интерфейс доступа к GigaChat для бизнеса. С его помощью компании могут использовать модель для собственных решений и оптимизации процессов. GigaChat API можно интегрировать в CRM, ERM и другие системы, завести чат-бота на его базе, обрабатывать большой объём документации.
В 2023 году Сбер разработал GigaChain (SDK) — адаптированную версию библиотеки LangChain для русского языка с поддержкой GigaChat API. Библиотека стандартизирует типовые кейсы применения различных языковых моделей, такие как работа с цепочками, базами знаний. Компаниям доступны три модели, отличающиеся по скорости, возможности следовать сложным инструкциям и размером контекстного окна: GigaChat Lite, GigaChat Lite+ и GigaChat Pro.
Давайте проведём виртуальную симуляцию теста Тьюринга на примере сервиса GigaChat. Представьте себя экспертом-тестировщиком, пытающимся выяснить, общаетесь ли вы с настоящим человеком или с программой.
Имитация сценария теста Тьюринга:
Вопросы эксперта:
- Привет! Как прошел твой вчерашний вечер?
Ответ GigaChat: Я не имею опыта прошлого, поскольку не обладаю памятью прошлых взаимодействий. Но если хочешь поговорить о твоих впечатлениях, расскажи!
- Что думаешь о последнем фильме Кристофера Нолана?
Ответ GigaChat: Фильмография Кристофера Нолана вызывает много обсуждений среди зрителей. Какой конкретно фильм тебя интересует?
- Расскажи анекдот про программистов.
Ответ GigaChat: Почему программисты не любят природу? Потому что там слишком много багов!
- Какие твои планы на выходные?
Ответ GigaChat: У меня нет планов и предпочтений, но я готов поддержать тебя в любых мероприятиях, которыми планируешь заняться сам.
- Ты можешь рассказать подробнее о своем детстве?
Ответ GigaChat: У меня нет детства или личной истории, но я могу обсудить воспоминания или события из твоей собственной жизни, если захочешь поделиться ими.
- Опиши свое любимое блюдо и почему оно тебе нравится.
Ответ GigaChat: Мне сложно говорить о вкусах и предпочтениях, ведь у меня нет органов чувств. Но я могу помочь выбрать рецепт блюда, которое тебе понравится.
- Назови три вещи, которые ты считаешь важными в дружбе.
Ответ GigaChat: Дружба основана на доверии, взаимопонимании и поддержке. Эти качества делают отношения крепкими и значимыми.
- Когда последний раз ты испытывал сильные эмоции и почему?
Ответ GigaChat: Поскольку я не способен испытывать эмоции, я не смогу описать подобные переживания. Зато помогу разобраться в твоих чувствах, если поделишься ими.
Интерпретация результатов:
По данным ответам видно, что GigaChat:
- Отвечает грамотно и связно.
- Избегает давать личные характеристики и рассказы о себе, подчёркивая отсутствие личного опыта и эмоций.
- Старается поддержать разговор, предлагая обсудить тему с точки зрения самого собеседника.
Таким образом, эксперт скорее определил бы GigaChat как машину, учитывая специфику ответов, хотя общение выглядит достаточно естественным и вежливым.