Язык до интернета. Как встроиться текстом в алгоритмы Google до поисковой индексации?

Привет, это Махина Альба. Наша задача – донести персонализированное предложение до клиента или получить его, обработать и автоматически дать ответ. Сегодня здесь Александр Мазалов и Юлия Шевченко. Саша создал компанию Machinae Albae, Юля ею управляет, вместе мы исследуем язык и создаем системы для коммуникаций с клиентами. Свои решения мы тестируем в разных клиентских отраслях, а началось все с выигрыша российского полуфинала Startup World Cup 2020.

Мазалов и Шевченко тогда работали в другой компании, кубок на прошлогодней конференции OpenTalks.AI получили за собственную разработку модели, которая из простой человеческой речи из чатов и прочего извлекала факты и могла по ним, подобрав условия сотрудничества, предложить договор. Сейчас это делается легко, а в 2019 году запуск в прод автоматизации документооборота через семантику был новым подходом к Natural Language Processing. Однако важнее оказались побочные эффекты, которые привели нас к проекту для маркетинга.

Как инженер по первому образованию и юрист по второму, Александр исследует юридический язык. Это сплошной канцелярит, жаргон в прямом смысле. У него очень бедная лексика – мы об этом узнали, когда для обработки юридической документации использовали модель, которая была обучена на общем языке, весила 600 МБ и потребляла много мощностей. А потом мы на очень малом объеме юридической документации на русском языке обучили такую же модель, она весила меньше и была обучена хуже, но с новой документацией она справлялась точно так же.

На языке юристов, бедном с точки зрения контекста, синтаксических конструкций, уникальных слов, все договора написаны одинаково плохо в литературном смысле. Большая часть исследовательской работы была направлена на то, чтобы найти эти различия и понять, как их использовать. Мы их нашли, оценили, провели эксперименты. Сделали что-то вроде переводчика с русского языка на русский юридический язык.

Задача одновременно забавная и бесполезная: если у тебя сложный договор, ты идешь к юристу и он его вычитывает, упрощать это – не вариант. Но одновременно мы обнаружили, что это позволяет нам многократно улучшить возможность поисковой системы в области договорной работы. Наш поисковый алгоритм, который учитывал юридический контекст и как бы «переводил» обычный запрос на юридический язык, выдавал существенно более релевантные результаты, чем просто гибкий терминологический поиск.
Александр Мазалов, разработчик-исследователь Machinae Albae

Результаты работы опубликованы, вышли доклады, но удобное решение незапланированной задачи не нашло коммерческого применения системы. Для этого в больших компаниях должны появиться юристы, которые понимают, что такое технология, язык, как они работают. Сегодня же человеческий труд стремительно дешевеет, юридические компании лучше наймут еще одного специалиста, это существенно выгоднее. Если сравнить среднюю зарплату разработчика и юриста, то в Воронеже это примерно 160 и 40 тысяч рублей. Раз AI решения слишком дорогие, а дешевые работают пока намного хуже, чем люди, то человека нужно не заменять, а дополнять, – рассудили мы в Machinae Albae и использовали свои разработки как элемент, который позволил пойти дальше.

Из аналитики и Data Science AI проник в алгоритмы Google, Яндекс и других поисковых систем. Для анализа массивов текста и ранжирования сайтов Гугл применяет модели на основе искусственного интеллекта, построенные с помощью нейронных сетей. Такие факторы как вставить ключевые слова или напичкать текст синонимами уходят в прошлое. Для оценки текста Гугл и Яндекс используют модель машинного обучения Трансформер. Она анализирует текст в целом – насколько он релевантен смыслу, насколько тема подходит под запрос. Все, чтобы удовлетворить намерение пользователя найти более точный ответ.

Релевантность текста на сайте и его метатегов ключевому запросу (чем больше, тем лучше). Скрин <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Faiforseotools.com%2F&postId=340702" rel="nofollow noreferrer noopener" target="_blank">https://aiforseotools.com/</a>

Чтобы предсказать, как ML-модель оценит тот или иной текст, надо знать ее архитектуру. Люди все время пытаются обмануть модель, она же все время на этом учится и пытается под них подстраиваться, чтобы не дать себя обхитрить.

Область SEO, анализ текстовых данных – это с чего я начинала и где в 2017 году произвела фурор новая архитектура нейросетей под названием Трансформер. Появилось много возможностей по анализу текстов, и мы начали обучать на основе этой архитектуры свою модель. Вместе с командой сделали сервис AIforSEO, который с помощью таких же моделей на основе AI и нейросетей обрабатывает тексты из топ-10 Google по релевантному запросу и текст вашего сайта. Сравнивает данные и показывает, чего не хватает, какие нужно внести изменения.
Юлия Шевченко, генеральный директор Machinae Albae

Мы попытались подстроиться под эту модель, создав такую же, но в сотни раз меньше. Обучая свою модель автоматически адаптироваться, чтобы она была алгоритмически похожа на оригинал, система показывает, как Гугл оценивает текстовый контент на сайте и какое место он занимает в поисковой выдаче. Все обрабатывается на виртуальных серверах. Прототип AIforSEO уже запущен в демо-версии, на стадии тестирования предоставляются свободные слоты для работающих с английским языком и Гуглом.

Нам не важна уникальность, мы не ищем плагиат, у нас жестко заточенный ресурс. Есть разные сервисы, которые делают глубокий статистический анализ SEO, например, Semrush – мы не будем с ними конкурировать, людям не нужен второй Semrush. Мы работаем со смыслом текста. Например, по Semrush вы проходите нормально, а у нас Гугл уверен на 80%, что ваш текст про батоны. Вслед за Гуглом на нейронных сетях с идентичной архитектурой работают все поисковые системы. Вот мы и пытаемся понять, как модели, в первую очередь Гугл, понимают смысл этого текста. Мы это делаем не на основе подсчетов ссылок и слов – этим пусть занимаются другие сервисы, мы их тоже используем, чтобы учесть больше источников. На основании своего анализа мы можем говорить: этот контент релевантен запросу, этот не релевантен, вам вот тут надо поправить, вот тут надо убрать.

Ключевые слова из текста и оценки их важности в контексте документа. Скрин <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Faiforseotools.com%2F&postId=340702" rel="nofollow noreferrer noopener" target="_blank">https://aiforseotools.com/</a>

Текущие модели будто созданы для борьбы с сеошниками. Если в тексте про батоны слово батон будет 57 раз, это еще не значит, что текст будет отнесен к ним по смыслу. Приложение AIforSEO определяет релевантность текста, его тональность, место сайта в поисковой выдаче по ключевому запросу и классифицирует, к какой категории относится весь контент на странице. Главное чтобы сайт не был нейтральным, хороший или плохой не важно. Нейтральный означает безэмоциональный – такой текст всегда будет ранжироваться хуже, потому что эмоционально заряженный текст обладает большей магнитудой, он менее информационный. Это в том числе история про кликбейт, который всегда будет выше в выдаче. Система пока так работает, что текст с эмоциями воспринимает как менее роботический.

Разбор каждого предложения введенной ссылки: релевантность, анализ настроения, если запрос подан в форме вопроса – насколько предложение содержит в себе ответ на него. Скрин <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Faiforseotools.com%2F&postId=340702" rel="nofollow noreferrer noopener" target="_blank">https://aiforseotools.com/</a>

В основном все хотят генерировать тексты, у нас функциональность отличается. Мы анализируем тексты, чтобы состоялся следующий этап – правка текста на основе нашего анализа. Это не просто генерация популярными нейросетями GPT-3, у которых свои сложности: они очень много весят, у них пока неконтролируемая генерация, и результат вряд ли потянет на качественную статью. Но с этими моделями уже можно работать, и в итоге вывести текст на что-то нормальное, удобочитаемое, понятное человеку. Мы в эту сторону движемся. Надеюсь, наш сервис будет доступен всем, кому он необходим.
Юлия Шевченко, генеральный директор Machinae Albae

Проект AIforSEO интересен англоязычным компаниям с высокочастотными запросами и SEO-агентствам с зарубежными клиентами. Он создан для отделов маркетинга и пиара, фрилансеров. Готовишь себе контент для сайта, по подписке на сервис парсишь ее и смотришь отчеты, каким областям она релевантна, как ее улучшить. Пользователи малого предпринимательства могут сами проанализировать своих конкурентов или дать задания своим маркетологам. В бета-версии AIforSEO доступы пока только по приглашениям (чтобы его получить, надо написать на почту seo@aiforseotools.com), через месяц-два после успешного тестирования будем увеличивать число человек, которые могут пользоваться сервисом.

В AIforSEO есть модуль, отвечающий за голосовой поиск. Все больше запросов делается голосом, вся информация ищется в обычной сети, а обычная сеть – это текстовый контент. От того, как описан и оптимизирован контент на сайте, зависит место, которое он займет по итогам голосового поиска. В отличие от письменных запросов, устные больше похожи на обычную человеческую речь, поэтому ответы и сайты под голосовые ключи ранжируются иначе. Попасть в сниппет важно – колонка отвечает с источника по первой ссылке. На смартфонах голосовой поиск выдается виджетом на три результата либо тоже голосом. Зная эти особенности, шансы попасть в высокую выдачу многократно увеличиваются.

Язык до интернета. Как встроиться текстом в алгоритмы Google до поисковой индексации?

Идею, будто современные голосовые роботы заменяют людей в службе поддержки, мы считаем неправильной. Скорее, они улучшают опыт пользовательский и опыт менеджерский, когда помогают более быстро и правильно искать информацию, нужную оператору и клиенту. Самого оператора на текущей модели они никак не заменят, а без него вызывают ненависть. Как их ни делают, все боты – это улучшенное голосовое меню «нажмите один» и так далее. Всем этим роботам одинаково кричат в трубку: «Оператора! Оператора!!» Это неудобно для пользователя и работает только если заставить, не предлагая других вариантов. Сбер сильный, а ты слабый – поэтому сиди и работай с цифровым меню.

Как только ты становишься в равную позицию с клиентом, все эти AI решения не нужны, потому что они работают намного хуже, чем люди. Но как только ты не заменяешь, а дополняешь человека, улучшается система в целом.

Наш пример из другого проекта: автоматизация документооборота с применением распознавания голоса. В процессе разговора упоминается слово накладная. Мы по источнику определяем, кто этот клиент, и сразу оператору в его рабочую программу по API выкидываем эту накладную. Ему не надо ее искать, ходить по ссылкам – у него уже она есть. Или вас просят выслать счет – по слову счет у вас уже сформировался документ. Остается только его отправить. Анализ языка позволяет сделать сложные вещи простыми, но решения принимает сам человек.

Базовых прорывов в NLP мы достигли только потому, что работали с языком с точки зрения лингвистической практики. Когда мы анализируем речь, то глубоко погружаемся в семантику, в оценку сложности текста, его структуры.

Моя задача – создать систему, которая является этичным ключом к человеческому сознанию. Язык – это этичный ключ. Неэтично – это шлем, который считывает энцефалограмму. Это тоталитарное будущее, которое скорее всего наступит. Когда машина с тобой разговаривает и понимает, о чем ты говоришь, это значит, что тебе не нужно надевать шлем.
Александр Мазалов, основатель Machinae Albae

Причина наших хороших результатов – мы не использовали чужие математические модели, а пытались понять, чем отличается одна речь от другой, какие у нее особенности, и как эти особенности использовать.

Все решения, работающие с английским языком, многократно лучше чем, все решения с русским или иным языком, по простым причинам: ученых лингвистов, работающих с английским, неизмеримо больше, чем всех остальных, потому что университетов, которые финансируют в разработку английского языка, неизмеримо больше, и они финансируются лучше. Объем текста, написанного на английском и доступного разработчикам в сети интернет, неизмеримо больше, чем на всех языках. Большинство компаний, обладающих гигантскими вычислительными мощностями, это все компании из англосаксонского мира, и они все работают с английским. Если бы компания Google была бы вьетнамской, то первая модель появилась бы на вьетнамском языке. Но у нас прототипы всегда на английском, и в этом языковое неравенство.

Архитектура Transformer была создана разработчиками Google. Монополистами им помешала стать американская компания OpenAI, начавшая копировать и дорабатывать решения Гугла. По этому же пути в последние два года пошли российские гиганты Яндекс, Сбер и МФТИ (проект DeepPavlov). Свои архитектуры в России не разрабатываются. В свое время Google, Apple и Facebook вложили сотни миллиардов долларов в бюджет России – конкретно в вычислительные мощности и в обучение модели. Только благодаря тому, что они обучили модель, протестировали архитектуру и выложили в открытый доступ исследования ученых, мы в России можем всем этим пользоваться. Это кратко о том, как в нашей стране обстоит дело с обработкой естественного языка.

Поэтому инструмент AIforSEO первоначально разработан для английского языка. А первыми его пользователями стали специалисты, которые у нас в России занимаются иностранным SEO.

#nlp #ml #ai #seo #лингвистика #искусственныйинтеллект

5 комментариев

Виктор Петров

28.12.2021

Текст нейросеть писала? Очень тяжело читать, а смысл написанного ускользает.

Ответить

Андрей Корнеев

29.12.2021

Смысл обзор сервиса. А как им пользоваться пробуйте сами.
Я лично семантику интегрирую под быстрые ответы без воды и для людей.
Текста все уникальные и написаны с нуля и вот какой результат.
Сервисы с одной стороны облегчают а с другой эффект не долгий будет, т.к. без души сделано)