Автореферирование отзывов о трудоустройстве
Анализ отзывов, оставленных на сайтах, требует много времени. Для того, чтобы сократить временные затраты на ознакомление с информацией используют алгоритмы суммаризации, позволяющие выделить основную идею и создать краткий текст, полностью отражающий суть отзыва.
Для анализа были получены отзывы о трудоустройстве с популярных сайтов.
Исходные данные представляют собой примерно 31000 отзывов о трудоустройстве и процессе работы в компании, начиная с 2006 года. Большая часть отзывов – развернутый, эмоциональный текст, занимающий минимум половину листа А4. Для сокращения объема анализируемой информации, было принято решение реализовать суммаризацию текстов.
Подготовим данные для анализа: удалим стоп-слова и короткие слова, не несущие смысловой нагрузки, переведем текст в нижний регистр, удалим знаки препинания и цифры. Для предобработки отзывов и генерации резюме используем две различные функции, так как обработка текста и резюме немного различаются.
Превратим тексты в числовые последовательности. Для этого воспользуемся Keras. Прежде всего, создадим единый словарь. Разделим текст на слова с помощью функции text_to_sequences(). Воспользуемся функцией pad_sequences() для того, чтобы все последовательности имели одинаковую длину. Урезать или дополнять последовательность будем с конца.
Приступим к построению модели. Ключевыми компонентами модели будут являться:
- Кодер – позволяет кодировать слова в числовые данные для последующей работы LSTM;
- Уровни LSTM – количество уровней можно варьировать для достижения большей точности;
- Декодер – преобразует числовые данные в понятный форма.
В качестве функции потерь использована разреженная категориальная перекрестная энтропия (SCCE). Для остановки обучения в нужный момент времени был использован метод ранней остановки (модель прекратит обучение, когда увеличится потеря валидации), если необходимо отобразить номер эпохи, в которой обучение было остановлено, необходимо установить аргумент verbose=1:
Теперь расшифруем последовательность для генерации текста и преобразуем числовую последовательность слов в краткое резюме.
Несколько резюме, сгенерированных моделью:
По результатам работы модели можно сделать вывод о том, что автореферирование является эффективным способом анализа большого объема информации. Применения этого метода поможет значительно сократить время на изучение отзывов, а также упростить выделение тематик текстов.