Задача первого этапа заключалась в том, чтобы выйти за рамки встроенных макротем отзывов — типичный отзыв предопределяется пользователем в одну из 10 обобщенных категорий — «Вклад”, «Кредитные карты», “Ипотека» и пр. — и не позволяет определить суть проблемы клиента и, главное, мониторить частоту их возникновения. Для нас была важна возможность учитывать контекст отзыва с учетом банковской специфики и интерпретируемость результата — мы перепробовали не один алгоритм текстовой аналитики, начиная с простых n-грамм tf–idf, латентного размещения Дирехле (LDA) и остановились на векторизации слов, рассчитанной на основе всех собранных отзывов о банках, и применении алгоритма FastText, разработанного лабораторией Facebook.