Искусство применения искусственного интеллекта для анализа текстового пространства

В последнее время термин “Искусственный интеллект” прочно вошел в жизнь каждого человека. Несмотря на критику и относительно новое название, этот термин впервые появился в 60-х годах 20 века. В связи с появлением интернета и ростом информации возникла необходимость ее качественной обработки. На сегодняшний день аналитик не способен вручную проанализировать весь объем контента, который существует в веб-пространстве по его продукту. Поэтому анализ текстового пространства с помощью искусственного интеллекта это одно из самых важных и основных направлений при обработке данных.

В статье будут описаны основные модели, применяемые нашей компанией на протяжении последних 6 лет для создания рекомендательных систем с целью подбора релевантных сегментов для таргетинга. Таким образом, мы помогаем рекламодателям найти наиболее заинтересованных в их продукте или услуге потребителей, предварительно изучив контент веб-пространства.

Модель 1. Word2vec

Все началось с подхода Word2vec, который представлял слова в виде векторов и близкие по смыслу слова имели схожие вектора. Данный подход реализован во многих рекомендательных системах таких гигантов, как Airbnb, AliExpress и Spotify (источник: https://habr.com/ru/articles/446530/).

С помощью данного подхода был реализован и ряд решений Weborama: BigFish, MoonFish и GoldenFish. Они помогают подбирать релевантные слова-рекомендации, которые находятся в одном контексте с ключевые слова и могут быть интересны целевой аудитории.

Для корректного поиска URL с релевантным контекстом проводится несколько итераций:

Токенизация - разбиение текста на отдельные единицы слов и фраз.
Лемматизация - приведение слова к его словарному виду. По сути, лемма - это слово в именительном падеже единственного числа в случае с существительными и прилагательными или инфинитив в случае с глаголом.

Разберем это на примере cookie-based решения нашей компании. Мы вводим в интерфейсе ключевое слово и система на основе векторных представлений выдает рекомендации. На скриншоте мы видим показатель Audience estimate, который показывает максимальный объем тех cookie-идентификаторов, которые контактировали с рекомендованными системой словами в течение последних 30 дней.

<p><i>На скриншоте изображены ключевые слова, рекомендации к лемме “лотерея”, а также пример сегмента с оценкой его максимального объема </i></p>

По сравнению с таргетированием по социально-демографическим характеристикам, таргетирование, основанное на поведенческих сегментах отыгрывает лучше. В пример, можно привести интерес к покупке лотерейного билета. По социально-демографическим характеристикам под целевую аудиторию такого продукта можно отнести всех пользователей веб-пространства. Однако, после применения поведенческого таргета аудитория значительно сузится. Поведенческий таргетинг основывается на факте контакта веб-пользователя с текстами, содержащими леммы, связанные с покупкой лотерейного билета (лотерея, лотерейный билет, тираж лотереи и др). Согласно кейсу средний чек покупки на сегментах Weborama оказался вдвое выше, чем средний по кампании в целом (кейс “Столото”). Однако, минус любого подобного решения заключается в том, что несмотря на анализ всего контекста и наличия ключевых слов в нем, в сегмент могут попадать URLs, которые нерелевантны запросу. Это увеличивало время на чистку урлов, как автоматическим, так и ручным способом. О том, как мы решили данную задачу, мы поговорим далее.

<i>На скриншоте изображены URLs по запросу лемм “лотерея” и “билет”, где второй URL-адрес является нерелевантным запросу</i>

Модель 2. BERT

В 2021-2022 годах Weborama проапгрейдила свое решение BigFish, используя модель Bert.

Изначально продукт BigFish, предназначенный для анализа текстов, был основан на модели Word2Vec, что предполагало анализ слов и их близость в контексте. BERT также начинает с токенизации подаваемого на вход текста. Когда модель обрабатывает текст, каждое слово кодируется своим векторным представлением (эмбединг). Это векторное представление включает информацию о самом слове, номере предложения, в котором оно находится, и его позиции в этом предложении. Мы обрабатываем входные данные (слова) сетью параллельно, что означает, что не обязательно рассматривать слова поочередно. Однако, информация о том, как слова расположены друг относительно друга в оригинальном предложении, сохраняется в векторном представлении каждого слова, включая его позицию в предложении.

После апгрейда продукта в исследовании появилась возможность анализа тональности текста.

На графике представлено три цвета, где красным обозначены негативные предложения, серым - нейтральные, а зеленым - положительные. Основываясь на данном распределении, стало возможным также добавление показателя NPS (Net Promoter Score, или Индекс потребительской лояльности).

Также стало возможно сегментировать исследованный текст с помощью Weborama Generic Taxonomy - то есть распределять контекст на URLs по базовым тематикам. Так, на картинке представлено, что наиболее популярные темы в исследованных текстах связаны с детьми и правильным питанием.

<p><i>Сегментация содержащихся слов в исследуемых текстовых корпусах</i></p>

Получение подобных результатов стало возможным, благодаря тому, что в каждом слое кодировщика BERT применяется двустороннее внимание. Оно позволяет учитывать контекст с обеих сторон от рассматриваемого токена.

Модель 3. Large Language Model

Несмотря на существенное улучшение анализа текстов, проблема с наличием ключевых слов на страницах, не являющихся для нас релевантными, сохранялась. На скрине представлен кейс, когда нам необходимо найти статьи о художниках-любителях, но в данном случае система выдает нам страницы, где содержится информация не только о нашей аудитории, но и в целом о любителях искусства.

<p><i>На скриншоте изображены URLs по запросу лемм “Художник” и “Любитель”</i></p>

В связи с этим, мы решили использовать ChatGPT. С помощью искусственного интеллекта мы создали несколько предложений по нашей целевой аудитории. Из них мы отобрали три предложения, наиболее подходящих для нашего исследования, и использовали их в качестве целевых.

На основе данных целевых предложений мы выделили наиболее похожие URLs и определили их аффинитивность.

<i>Рекомендательная система подобрала наиболее похожие URLs к выбранным нейросетью предложениям</i>

В перспективе мы планируем использование LLM для сбора сегментов по запросу рекламодателей и будем передавать данные URLs на сторону площадок для открутки рекламных кампаний.

Что дальше и какие у нас планы

Безусловно, на этом мы не останавливаемся. Планируем развивать новый рекомендательный инструмент на базе описанной выше Large Language Model. Уже сейчас нейросети дают нам возможность не только настроить более точно тональность, но и уловить те лингвистические оттенки и связи, которые ранее не были доступны моделям Word2vec и Bert, благодаря постоянной обучаемости и совершенствованию GPT- технологий.

Конечно, нельзя не упомянуть про предстоящую отмену cookies-файлов, которая кардинально повлияет на рекламный рынок в целом. И тут применение решений на основе искусственного интеллекта также сыграет важную роль в обеспечении рынка рекламы инструментами таргетинга. Контекстуальный таргетинг, основанный на семантическом анализе данных, уже сейчас активно применяется рекламодателями, а его результативность во многом не уступает cookie-based инструментам. И мы уверены, что наступление cookieless-эры даст толчок в развитии инструментов, основанных на нейросетях.

Искусство применения искусственного интеллекта для анализа текстового пространства

Ведущий аналитик Weborama Дарья Белякова рассказала про основные подходы, которые лежат в основе рекомендательных инструментов для таргетинга