Меня всегда интересовало, как живые существа думают. Как работает интеллект, разные его виды. В проекте я делал простые, но занимающие много времени вещи. Валидировал тесты и обучающие корпусы как с точки зрения языка, так и с точки зрения логики. Корпусы большие, там тысячи позиций, всё надо выверить. Выявлял разночтения и неоднозначности, чтобы исключить возможность некорректной оценки. Работал над инструкциями для хьюман бенчмарка, который появился благодаря героическим усилиям Алёны Феногеновой, Андрея Евлампиева, Владислава Михайлова. Так что все задачи «проверены на людях» и нам есть с чем сравнивать успехи машин. Что ещё? Корректировал разнообразие примеров, чтобы с помощью тестов можно было судить, понимает ли модель русский язык в целом, а не один из его стилей (например, публицистический) или не только вопросы о котиках.
Если мы берём корпусов разрезе задач чат-ботов, как насчёт отслеживания контекста диалога и смена его без потери, использование извлечённых параметров ?
Это хорошее задание! Возьмем на заметку в след релизе :)
Для английского такое есть, называется MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling
Ответы в примерах которые приведены сгенерирован с нулям или варианты заложены изначально?
Не все модели подходят для генерации, но нужно обеспечить им разные условия. Поэтому алгоритм такой: делаем максимально сложное содержание, а формат ответа простой. В данном случае нужно выбирать из вариантов.
В заданиях ответы взвешены, чтобы случайное угадывание давало минимальный скор
Вы проделали большой объем работы, полезная информация, спасибо.
Обратил внимание на следующее - люди справляются с заданиями на 80,2%, а нейросети — на 54,6%. Сопоставимо с результатами генератора случайных чисел. Очевидно, что в данной области нужны другие алгоритмы, нейросети не справляются с такими задачами.
50% - вероятность при случайном выборе из 2 вариантов.
У нас не так: почти во всех заданиях выбор из многих вариантов, случайное угадывание дает меньше 20%.
Самая простая система с линейными моделями дает 37%
54.6% - результат трех технологических революций. Немного, но что есть
лучше бы вашу «команду» посадить на тех. поддержку юзеров, чтобы людей меньше кидали, пользы и то больше будет.
Слили сами базу, ее активно окучивают преступники, а вы все в какую-то дичь играетесь, чатботы емае, современные нейросети это бутафория, даже сравнивать с человеком уже обман. Сранивать ее можно только с фунциями внутри которых наборы if’ов обычных