Например, если приложение обрабатывает клиентские запросы, важно проверить, как оно реагирует на формулировки с разным стилем, грамматическими ошибками или контекстами. Оценку точности проводим гибридным методом. В оценке помогает ИИ, но после него всё равно проверяет человек.
Я кстати не догадывалась тестировать нейропомощников на реакции на запрещенные/оскорбительные темы. Спасибо за наводку)
Спасибо за статью! LLM-ки действительно добавили в процесс тестирования исследовательского интереса в плане того, что же ещё у неё можно выведать и как же ещё её можно сбить с толку))