Шифт (не всякому дано) темы и субъекта
Подкаст того, что сделали:
И транскрипт:
Всем привет. Сегодня у нас особый разбор. Заглянём, так сказать, под капот разработки искусственного интеллекта. Да, тема очень интересная. Вот вам задачка. Как научить машину не просто, ну, слова слышать, а улавливать, когда разговор меняет русло? Мм, это важно. Представьте и агента, который вот прямо в реальном времени, глядя на пару последних фраз, должен понять, мы всё ещё о вашей головной боли говорим или уже мм переключились на кашель вашей дочери. Звучит вроде бы несложно, но на деле это, знаете, одна из таких ключевых задач для имитировать нашу человеческую способность следить за нитью беседы.
Точно понимать контекст, различать о ком и о чём сейчас идёт речь.
Да, это гораздо сложнее, чем просто распознать отдельные слова. Тут нужно именно понимание динамики.
Именно над этим и работали разработчики, судя по материалам, которые мы сегодня изучаем, они как раз тестировали агента на базе Яндекс GPT. пытались научить его надёжно отслеживать вот эти смены темы и субъекта в диалоге.
По сути, перед нами такой, ну, фрагмент лабораторного журнала разработчиков и да,
в каком-то смысле, да, взгляд на внутреннюю кухню.
Наша цель тогда разобраться, с какими трудностями они столкнулись, пытаясь научить Ии вот этим тонкостям,
да, и как именно проходило тестирование, что получилось.
Посмотрим на этот конкретный кейс, как, например, того, как ИИ, ну, обретает способность с слышать не только слова, но и сам разговор.
Как он развивается?
Хорошо, давайте начнём погружение. Итак, изначальная задача, как я понял, была сформулирована довольно чётко.
Да, вполне. Создать агента, который смотрит на последние, скажем, три-четыре обмена репликами между пользователем и ботом. Угу. И выносит вердикт: сменился ли субъект о ком говорим или тема, о чём говорим. Казалось бы, ну что тут сложного? На первый взгляд, да, но Разработчики сразу предвидели целый ряд проблем, таких, знаете, типичных для задач понимания естественного языка.
Каких именно?
Ну, основные сложности можно сгруппировать. Во-первых, проблемы с контекстом и неоднозначностью.
Ага.
Как и и поймёт, кто главный герой обсуждения, если их несколько. Они же могут переплетаться.
Ну да, если говорили и о муже, и о сыне.
Вот. И как связать местоимение он с нужным человеком, если до этого упоминались, скажем, и муж, и сын. и врач. Это вот классическая проблема разрешения кореференций.
То есть понять, что он, этот специалист и условно Иван Петрович - это все один и тот же человек, о котором говорили три фразы назад.
Именно вот это оно. Во-вторых, сложность с определением, так сказать, уровня темы.
Уровня в смысле.
Ну, смотрите, здоровье - это одна тема, а симптомы простуды у ребёнка - это другая, более конкретная. Как научить модель вот эти уровни детализации? различать.
Понятно. Гранулярный, значит,
да. В-третьих, ограничения по памяти. Анализ только последних фраз рискует упустить важный контекст из начала беседы.
Логично. Что-то важное могли сказать 10 минут назад,
конечно. И, наконец, были ещё и чисто технические ограничения. Модель должна была выдавать ответ в очень строгом формате Jon
без возможности объяснить своё решение. Просто сухой Джейсон.
Да. И ещё ей было сложно оценить собственную уве в ответе. Насколько она сама считает свой вывод правильным?
Да уж, похоже на попытку собрать какой-то очень сложный пазл, причём с недостающими деталями, да ещё и руки связаны этим форматом Jсоon.
Вот-вот становится понятно, почему даже простой человеческий разговор - это такой серьёзный вызов для Ии.
И как разработчики вышли из этой ситуации, какой был следующий шаг?
Они решили, ну, немного изменить подход, смягчить требования, можно сказать.
Ага.
<…>
Мм, действительно,сколько важного контекста, который упоминался где-то в самом начале, просто теряется? И, может быть, более фундаментальный вопрос,да,сможет ли и когда-нибудь по-настоящему уловить то, что не сказано словами. Иронию, сарказм, скрытые эмоции, какой-то культурный подтекст. Все то, что люди считывают, так легко, почти не задумывается.Именно это огромное поле для будущих исследований. Сможет ли Иитать между строк?Действительно, есть над чем задуматься. Большой вопрос на будущее. Спасибо, что были с нами в этом погружении в детали разработки и тестирования ИИ.Спасибо.Надеемся, этот разбор был полезным и интересным. До новых встреч и новых исследований.