Самая понятливая нейросеть: зачем нам рейтинг лучших NLP-систем и кто учит русскому языку англоязычные модели

Меня зовут Татьяна Шаврина, и я расскажу, как мы (команда AGI NLP Сбербанка) запустили проект Russian SuperGLUE — рейтинг русскоязычных NLP-моделей.

2222

В архитектуру NLP модели нужно встраивать автоматический универсальный тематический классификатор предложения, способный определить тематику текста на уровне предложения и коротких фраз. Ещё в обучающем датасете у каждого предложения нужно проставить тем же классификатором тематические классы.
Предметная область текста - это ключ к пониманию текста. Человек любой воспринимаемый текст сначала классифицирует на контекст, тематику, предметную области - это нужно отслеживать одновременно по всему тексту. Если на третьем предложении меняется тематика, то меняется и суть написанного вместе с ней и контекст. 

Ответить

С контекстами отлично справляется наша система, на наш взгляд именно отслеживание контекстов основная задача сейчас, а не мериться кто на сотую долю лучше определил правильно интент.

Ответить