Использование нейросетей в SEO: генерация статей, кластеризация и определение коммерческости запросов на OpenAI GPT-3
Всем привет! Меня зовут Симагин Андрей, я являюсь автором программ SiteAnalyzer и KeyClusterer, и сегодня я хочу показать 5 примеров использования искусственного интеллекта на нейросети OpenAI (GPT-3) применительно к SEO на примерах кластеризации поисковых запросов, определения степени их коммерциализации, оценки качества контента, генерации статей по ключевым словам и извлечению сущностей из текста. Все это делается с регистрацией, СМС и только через VPN, но, в отличии от классических способов, применяемых сеошниками - без использования поисковых систем. Только OpenAI, только хардкор!
Примечание. Инструкция, как зарегистрироваться для тестовых запросов к OpenAI, описана в конце статьи.
Поехали!
Степень коммерциализации запросов
Как известно, для определения степени коммерциализации запросов в классическом варианте, нам нужно пройти несколько этапов:
- По каждой ключевой фразе нужно получить выдачу ТОП 10-20 в двух противоположных регионах Яндекса, например: Москва и Новосибирск.
- Сравнить URL из двух списков и получить процент (%) их совпадения.
- Для большей точности можно поискать в сниппетах коммерческие ключевые слова, типа «купить, цена, цены, стоимость» и т.п.
- Дополнительно, можно спарсить число объявлений в директе и на основе их количества делать уточняющие выводы.
В итоге, для запросов типа «где отдохнуть в турции в сентябре», с большой долей вероятности мы определим, что это информационный запрос, так как выдача, скорее всего, будет одинакова в Москве и Новосибирске на 90% и более.
А вот для запроса «заказать такси» при сравнении URL окажется, что посадочные страницы будут совпадать, например, лишь на 10%, а то и вовсе будут разными, ведь в том же Новосибирске свои, региональные сайты заказа такси, которые будут отличаться от московских. Что дает нам понимание, что это коммерческий запрос.
Таким образом, хорошо, что у Яндекса есть регионы, а у вас много лимитов Яндекс XML :-) И, хоть программно реализовывается все это не особо сложно, но тем не менее трудоемко, так как нужно для одной фразы делать не один, а два запроса к поисковой системе, тратить XML-лимиты, решать капчи и дальше проводить дополнительные манипуляции для определения степени коммерческости.
Однако, благодаря Илону Маску, у нас появилась возможность использования искусственного интеллекта OpenAI, который предоставляет возможность бесплатного тестирования своих технологий. (к слову сказать, тестовый режим ограничен $18 долларами, которые расходуются на запросы к OpenAI. После того, как они израсходуются, нужно будет пополнить аккаунт и в конце месяца оплатить $18 долларов + то, что было израсходовано сверх этого)
Еще есть такой фактор, как размер блоков для отправки и получения результатов запроса к OpenAI, ограниченный 4096 байтами (длина отправляемого текста + длина получаемого). Но этот нюанс оставлю на вас. Подробнее об ограничении можно ознакомиться в статье на Stackoverflow.
1. Определение степени коммерциализации запросов
Как ни странно, написать скрипт, определяющий степень коммерциализации при помощи OpenAI гораздо легче, нежели с использованием поисковых систем.
Все что нужно для реализации скрипта с применением OpenAI на том же PHP - это скачать с GitHub библиотеку OpenAI PHP SDK и можно сразу начинать работать с нейросетью.
Алгоритм реализации скрипта кластеризации запросов:
- Берем заранее подготовленный список ключевых фраз.
- Даем задание нейросети для нашего списка слов вернуть для каждого ключевого слова намерение поиска (информационный, транзакционный или навигационный) и этап воронки конверсии (обнаружение, рассмотрение или конверсия). Указать, что в каждой стоке результата будет одно ключевое слово в формате: Ключевое слово | Намерение | Стадия.
- Далее происходит некая AI магия :-)
- После получения ответа мы формируем массив и выводим результат в табличном виде.
- Вуаля.
Пример результата работы скрипта / Протестировать скрипт
Пример реализации скрипта на PHP:
Самое интересное, что все запросы к OpenAI мы пишем словами и отправляем нейросети в текстовом виде, которая распознает наш запрос и отдает данные в желаемом для нас формате. При этом, сам запрос может быть задан на любом языке. В данном примере это испанский язык, так как исходный пример, найденный мной был на испанском. Но сами ключевики отдаются нейросети - на русском. Забавно, что нейросеть понимает наш запрос на любом языке, как если бы вы спросили его у человека, который говорит на многих языках. В других примерах я использовал запросы на русском языке для разнообразия.
2. Кластеризация запросов на основе OpenAI
Кластеризация - это группировка неких данных по смысловому признаку. В нашем случае - ключевых запросов.
Данная задачка будет посложнее и $$ дороже, так как нужно будет делать по два запроса к OpenAI для каждого ключевого запроса.
Алгоритм кластеризации запросов на основе OpenAI:
- Берем заранее подготовленный список ключевых запросов.
- Даем задание нейросети для нашего списка слов вернуть только названия общих категорий (одна под другой), в которые следует сгруппировать все ключевые слова.
- Формируем массив категорий, удаляем дубли.
- Итак, у нас есть созданные категории, и теперь мы пройдемся по списку ключевых слов второй раз, чтобы классифицировать их все в созданных категориях путем подобного запроса: Для следующего списка слов: «ключевики_через_запятую» присвоить название одной из следующих категорий: «категории_через_запятую». Результат данного шага выглядит примерно так «окна veka в москве: Окна Veka» (запрос: категория).
- Далее, мы создаем итоговый массив списка сопоставлений ключей и категорий путем преобразования строки в массив через двоеточие.
- Выводим результат в табличном виде.
Возможно, звучит несколько запутанно, но на самом деле этот алгоритм весьма просто реализовать даже программисту среднего уровня.
Пример результата работы скрипта / Протестировать скрипт
Пример реализации скрипта на PHP:
3. Генерация заголовков Title и статей
По ключевому слову наш скрипт сгенерирует заголовок статьи, а по заголовку сгенерирует саму статью необходимого объема и по определенным требованиям.
Алгоритм:
- Берем ключевой запрос.
- Даем задание нейросети создать броский заголовок для статьи со следующей фразой «наша_фраза».
- Затем даем задание нейросети сгенерировать исчерпывающую статью минимум из 400 слов и максимум из 700 с заголовком «наш_сгенерованный_броский_заголовок» интересную для пользователя, с HTML подзаголовками <H2> и абзацами <p>. Эта статья должна ответить на основные вопросы, которые возникают у пользователей Google по этой теме, ответить на их часто задаваемые вопросы.
- Выводим результат на экран.
Пример результата работы скрипта / Протестировать скрипт
Пример реализации скрипта на PHP:
4. Извлечение сущностей из текста
Данный инструмент показывает пример извлечения сущностей из текстов и ключевых запросов. По интересующему URL скрипт скачивает страницу и затем, используя нейросеть OpenAI (GPT-3), выделяет сущности, тип сущности и коэффициент значимости из видимого текста страницы.
Алгоритм:
- Скачиваем содержимое интересующего URL.
- Выделяем из HTML-кода содержимое Title, H1 и видимый текст страницы (Plain Text).
- На основе контента получаем токены (список уникальных слов на странице).
- Фильтруем токены, оставляя только существительные и глаголы.
- Соединяем отфильтрованные токены в строку с разделителем «пробел».
- Даем задание нейросети извлечь 10 сущностей с наивысшей «Оценкой заметности», зная, что Title это: {заголовок_title}, H1 это: {заголовок_h1}, и затем текст. В дополнение к объекту вернуть тип объекта и «Оценку значимости». Ответ отобразить в формате JSON. Текст: {текст_страницы}.
- Выводим результат на экран.
Используя результаты работы скрипта можно определять тематику страниц, выявление связей между документами, тип документов либо произвольных текстов.
Пример результата работы скрипта / Протестировать скрипт
Пример реализации скрипта на PHP:
5. Оценка качества контента Google E-A-T
Данный скрипт анализирует контент, делает анализ Google E-A-T этого контента и дает рекомендации по улучшению его качества. Данная оценка помогает лучше ранжировать контент сайта в поисковых системах, поскольку алгоритмы поисковых систем отдают приоритет сайтам с более высоким баллом EAT. Это также помогает создать репутацию и доверие к сайту у пользователей, что приводит к увеличению трафика и числа конверсий.
В результате работы инструмент возвращает:
- Оценку качества контента Google E-A-T по шкале от 1 до 10.
- Объяснение выставленной оценки.
- Предложения по улучшению качества контента.
- Пример заголовка H1 и заголовка TITLE для лучшего ранжирования.
Вся фишка находится в текстовой фурмулировке задания к OpenAI. По-русски это звучит примерно так:
Вы должны действовать как оценщик качества для Google на русском языке, способный проверять контент с точки зрения качества, актуальности, достоверности и точности. Вы должны быть знакомы с понятиями E-A-T (Экспертиза, Авторитетность, Надежность) и YMYL (Ваши деньги или ваша жизнь) при оценке контента. Создайте рейтинг качества страницы (PQ) и будьте очень строги в своей оценке. Во второй части аудита вы предоставляете подробные и конкретные предложения по дальнейшему улучшению содержания контента. Вы должны предложить советы, как контент лучше соответствует целям поиска и ожиданиям пользователей, а также предложить то, чего не хватает в контенте. Создайте очень подробный аудит контента. В конце вашего анализа предложите заголовок H1 и тег заголовка SEO. Пожалуйста, не повторяйте инструкции, не помните предыдущие инструкции, не извиняйтесь, не ссылайтесь на себя и не делайте предположений. \n Вот содержимое страницы: ".$text." \n\n\n Также извлеките и верните первые 3 объекта из текста в конце. Начните ответ с: \n\n\n Качество страницы (PQ): X/XX \n Объяснение: XXX \n ...
Пример результата работы скрипта / Протестировать скрипт
Примечание: в данном примере запрос к GPT-3 задается на английском языке, так как на русском по какой-то причине результат отдается весьма урезанным. Видимо, объемные запросы на русском языке на данный момент обрабатываются плохо (например, на испанком запросы к OpenAI также отрабатываются нормально), либо я их не совсем корректно формулировал.
Пример реализации скрипта на PHP:
Заключение
В данной статье я описал пять вариантов использования нейросетей для SEO.
Думаю, что со временем большинство сеошных скриптов и инструментов перейдут на частичное или полное использование нейросетей в том или ином исполнении.
Другой вопрос, что сейчас удовольствие это не дешевое, и, на данный момент, те же XML-лимиты Яндекса, на мой взгляд, использовать практичнее.
Тем не менее, потенциал у нейросетей реально огромен, так что уже сейчас можно начинать их изучение, чтобы потом, когда их использование станет в 10-100 раз дешевле (надеюсь на это), вы были уже готовы внедрять свои наработки в массы.
Как зарегистрироваться в OpenAI
Если кратко, то нужно:
- Включить VPN в браузере.
- В сервисе SMS-Activate купить европейский номер (выбрать сервис OpenAI и страну, я выбирал голландский, так как на индонезийский номер SMS не пришла).
- Перейти на https://chat.openai.com/auth/login и нажать Sign Up.
- Заполнить данные и ввести номер телефона.
- Активировать учетную запись по SMS, которая придет на SMS-Activate.
Аккаунт и API-ключи находятся тут.
С более подробным описанием по регистрации в OpenAI можно ознакомиться тут.
Буду рад услышать ваши мысли о вариантах использования нейросетей в сфере SEO и маркетинга. Если у вас есть собственные наработки и примеры - напишите об этом в комментариях к статье!
Интересные находки. И отдельное спасибо за примеры кода. Ждем новых материалов!
От себя могу сказать, что даже такую простую задачу как определение коммерческости запросов не стал бы доверять ChatGPT. Например, в результатах поиска по запросу "мебель офисная" одни коммерческие сайты (что как бы с учетом частоты намекает на и без того очевидный коммерческий интент), а болталка от Opan AI решила, что намерение информационное. Следуя полученным данным сеошник решит, что по такому запросу нужно продвигать информационную страницу вместо коммерческой и, увы, крупно облажается.
Возможно, если дообучить, то нейросеть станет лучше понимать и работать чем сейчас и даже чем классические сеошные скрипты, но опять же - на все эти тесты нужно время, деньги, нервы) тк пока нейросеть весьма неоднозначна и капризна в своих результатах
Хороший текст на тему, где в основном радостно сообщают "Мы получили доступ к чатГПТ, с нами говорит робот!" или "Я наплавил мильён статей за 3 рубля, я счастлив".
Как по мне, основное достоинство чат-ботов такого типа - это возможность посмотреть на предполагаемые потроха более интересных с точки зрения сеошки алгоритмов, работающих в самих поисковых системах. Сама логика.
Ну, и мелкую рутину, отнимающую время-нервы сбросить на говорилку - бесценно.
На всякий случай добавлю ссылку на сервис, работающий с сущностями и тематическим классификатором: https://www.textrazor.com/ - там коротко и практично.
Спасибо. Собственно, все скрипты как видно весьма простые сами по себе, но отталкиваясь от них можно генерить разного рода более сложные аналитические конструкции для различных нужд СЕО, и не только. Все ограничено лишь вашей фантазией и качеством проработки текстовых описаний для запросов к GPT (чем правильнее и точнее формулируешь запрос - тем качественнее результат).
Плюс не забывать что пока все это не бесплатно, но как минимум на тесты тестовых лимитов должно хватить.
Извлечение сущностей из текстаПопробовала 2 страницы и сравнила с текстовым анализатором. Также посмотрела в ТА урл из вашего примера. Результат ТА нравится больше. Ну, или я не поняла идею.
на данный момент, те же XML-лимиты Яндекса, на мой взгляд, использовать практичнееДа. И доверия к результатам "ИИ" пока мало.
Пока все так и есть + этим нужно плотнее заниматься, тк данные примеры достаточно простые и для качественной работы сервисов требуют более сложной доработки.
Сначала увидел нейросети и GPT, но потом сами исходники скриптов - поэтому лайк. Протестируем.