Использование нейросетей в SEO: генерация статей, кластеризация и определение коммерческости запросов на OpenAI GPT-3
Всем привет! Меня зовут Симагин Андрей, я являюсь автором программ SiteAnalyzer и KeyClusterer, и сегодня я хочу показать 5 примеров использования искусственного интеллекта на нейросети OpenAI (GPT-3) применительно к SEO на примерах кластеризации поисковых запросов, определения степени их коммерциализации, оценки качества контента, генерации статей по ключевым словам и извлечению сущностей из текста. Все это делается с регистрацией, СМС и только через VPN, но, в отличии от классических способов, применяемых сеошниками - без использования поисковых систем. Только OpenAI, только хардкор!
Примечание. Инструкция, как зарегистрироваться для тестовых запросов к OpenAI, описана в конце статьи.
Поехали!
Степень коммерциализации запросов
Как известно, для определения степени коммерциализации запросов в классическом варианте, нам нужно пройти несколько этапов:
По каждой ключевой фразе нужно получить выдачу ТОП 10-20 в двух противоположных регионах Яндекса, например: Москва и Новосибирск.
Сравнить URL из двух списков и получить процент (%) их совпадения.
Для большей точности можно поискать в сниппетах коммерческие ключевые слова, типа «купить, цена, цены, стоимость» и т.п.
Дополнительно, можно спарсить число объявлений в директе и на основе их количества делать уточняющие выводы.
В итоге, для запросов типа «где отдохнуть в турции в сентябре», с большой долей вероятности мы определим, что это информационный запрос, так как выдача, скорее всего, будет одинакова в Москве и Новосибирске на 90% и более.
А вот для запроса «заказать такси» при сравнении URL окажется, что посадочные страницы будут совпадать, например, лишь на 10%, а то и вовсе будут разными, ведь в том же Новосибирске свои, региональные сайты заказа такси, которые будут отличаться от московских. Что дает нам понимание, что это коммерческий запрос.
Таким образом, хорошо, что у Яндекса есть регионы, а у вас много лимитов Яндекс XML :-) И, хоть программно реализовывается все это не особо сложно, но тем не менее трудоемко, так как нужно для одной фразы делать не один, а два запроса к поисковой системе, тратить XML-лимиты, решать капчи и дальше проводить дополнительные манипуляции для определения степени коммерческости.
Однако, благодаря Илону Маску, у нас появилась возможность использования искусственного интеллекта OpenAI, который предоставляет возможность бесплатного тестирования своих технологий. (к слову сказать, тестовый режим ограничен $18 долларами, которые расходуются на запросы к OpenAI. После того, как они израсходуются, нужно будет пополнить аккаунт и в конце месяца оплатить $18 долларов + то, что было израсходовано сверх этого)
Еще есть такой фактор, как размер блоков для отправки и получения результатов запроса к OpenAI, ограниченный 4096 байтами (длина отправляемого текста + длина получаемого). Но этот нюанс оставлю на вас. Подробнее об ограничении можно ознакомиться в статье на Stackoverflow.
1. Определение степени коммерциализации запросов
Как ни странно, написать скрипт, определяющий степень коммерциализации при помощи OpenAI гораздо легче, нежели с использованием поисковых систем.
Все что нужно для реализации скрипта с применением OpenAI на том же PHP - это скачать с GitHub библиотеку OpenAI PHP SDK и можно сразу начинать работать с нейросетью.
Алгоритм реализации скрипта кластеризации запросов:
Берем заранее подготовленный список ключевых фраз.
Даем задание нейросети для нашего списка слов вернуть для каждого ключевого слова намерение поиска (информационный, транзакционный или навигационный) и этап воронки конверсии (обнаружение, рассмотрение или конверсия). Указать, что в каждой стоке результата будет одно ключевое слово в формате: Ключевое слово | Намерение | Стадия.
Далее происходит некая AI магия :-)
После получения ответа мы формируем массив и выводим результат в табличном виде.
Кластеризация - это группировка неких данных по смысловому признаку. В нашем случае - ключевых запросов.
Данная задачка будет посложнее и $$ дороже, так как нужно будет делать по два запроса к OpenAI для каждого ключевого запроса.
Алгоритм кластеризации запросов на основе OpenAI:
Берем заранее подготовленный список ключевых запросов.
Даем задание нейросети для нашего списка слов вернуть только названия общих категорий (одна под другой), в которые следует сгруппировать все ключевые слова.
Формируем массив категорий, удаляем дубли.
Итак, у нас есть созданные категории, и теперь мы пройдемся по списку ключевых слов второй раз, чтобы классифицировать их все в созданных категориях путем подобного запроса: Для следующего списка слов: «ключевики_через_запятую» присвоить название одной из следующих категорий: «категории_через_запятую». Результат данного шага выглядит примерно так «окна veka в москве: Окна Veka» (запрос: категория).
Далее, мы создаем итоговый массив списка сопоставлений ключей и категорий путем преобразования строки в массив через двоеточие.
Выводим результат в табличном виде.
Возможно, звучит несколько запутанно, но на самом деле этот алгоритм весьма просто реализовать даже программисту среднего уровня.
По ключевому слову наш скрипт сгенерирует заголовок статьи, а по заголовку сгенерирует саму статью необходимого объема и по определенным требованиям.
Алгоритм:
Берем ключевой запрос.
Даем задание нейросети создать броский заголовок для статьи со следующей фразой «наша_фраза».
Затем даем задание нейросети сгенерировать исчерпывающую статью минимум из 400 слов и максимум из 700 с заголовком «наш_сгенерованный_броский_заголовок» интересную для пользователя, с HTML подзаголовками <H2> и абзацами <p>. Эта статья должна ответить на основные вопросы, которые возникают у пользователей Google по этой теме, ответить на их часто задаваемые вопросы.
Данный инструмент показывает пример извлечения сущностей из текстов и ключевых запросов. По интересующему URL скрипт скачивает страницу и затем, используя нейросеть OpenAI (GPT-3), выделяет сущности, тип сущности и коэффициент значимости из видимого текста страницы.
Алгоритм:
Скачиваем содержимое интересующего URL.
Выделяем из HTML-кода содержимое Title, H1 и видимый текст страницы (Plain Text).
На основе контента получаем токены (список уникальных слов на странице).
Фильтруем токены, оставляя только существительные и глаголы.
Соединяем отфильтрованные токены в строку с разделителем «пробел».
Даем задание нейросети извлечь 10 сущностей с наивысшей «Оценкой заметности», зная, что Title это: {заголовок_title}, H1 это: {заголовок_h1}, и затем текст. В дополнение к объекту вернуть тип объекта и «Оценку значимости». Ответ отобразить в формате JSON. Текст: {текст_страницы}.
Выводим результат на экран.
Используя результаты работы скрипта можно определять тематику страниц, выявление связей между документами, тип документов либо произвольных текстов.
Данный скрипт анализирует контент, делает анализ Google E-A-T этого контента и дает рекомендации по улучшению его качества. Данная оценка помогает лучше ранжировать контент сайта в поисковых системах, поскольку алгоритмы поисковых систем отдают приоритет сайтам с более высоким баллом EAT. Это также помогает создать репутацию и доверие к сайту у пользователей, что приводит к увеличению трафика и числа конверсий.
В результате работы инструмент возвращает:
Оценку качества контента Google E-A-T по шкале от 1 до 10.
Объяснение выставленной оценки.
Предложения по улучшению качества контента.
Пример заголовка H1 и заголовка TITLE для лучшего ранжирования.
Вся фишка находится в текстовой фурмулировке задания к OpenAI. По-русски это звучит примерно так:
Примечание: в данном примере запрос к GPT-3 задается на английском языке, так как на русском по какой-то причине результат отдается весьма урезанным. Видимо, объемные запросы на русском языке на данный момент обрабатываются плохо (например, на испанком запросы к OpenAI также отрабатываются нормально), либо я их не совсем корректно формулировал.
Пример реализации скрипта на PHP:
Заключение
В данной статье я описал пять вариантов использования нейросетей для SEO.
Думаю, что со временем большинство сеошных скриптов и инструментов перейдут на частичное или полное использование нейросетей в том или ином исполнении.
Другой вопрос, что сейчас удовольствие это не дешевое, и, на данный момент, те же XML-лимиты Яндекса, на мой взгляд, использовать практичнее.
Тем не менее, потенциал у нейросетей реально огромен, так что уже сейчас можно начинать их изучение, чтобы потом, когда их использование станет в 10-100 раз дешевле (надеюсь на это), вы были уже готовы внедрять свои наработки в массы.
Как зарегистрироваться в OpenAI
Если кратко, то нужно:
Включить VPN в браузере.
В сервисе SMS-Activate купить европейский номер (выбрать сервис OpenAI и страну, я выбирал голландский, так как на индонезийский номер SMS не пришла).
С более подробным описанием по регистрации в OpenAI можно ознакомиться тут.
Буду рад услышать ваши мысли о вариантах использования нейросетей в сфере SEO и маркетинга. Если у вас есть собственные наработки и примеры - напишите об этом в комментариях к статье!
Интересные находки. И отдельное спасибо за примеры кода. Ждем новых материалов!
От себя могу сказать, что даже такую простую задачу как определение коммерческости запросов не стал бы доверять ChatGPT. Например, в результатах поиска по запросу "мебель офисная" одни коммерческие сайты (что как бы с учетом частоты намекает на и без того очевидный коммерческий интент), а болталка от Opan AI решила, что намерение информационное. Следуя полученным данным сеошник решит, что по такому запросу нужно продвигать информационную страницу вместо коммерческой и, увы, крупно облажается.
Возможно, если дообучить, то нейросеть станет лучше понимать и работать чем сейчас и даже чем классические сеошные скрипты, но опять же - на все эти тесты нужно время, деньги, нервы) тк пока нейросеть весьма неоднозначна и капризна в своих результатах
Хороший текст на тему, где в основном радостно сообщают "Мы получили доступ к чатГПТ, с нами говорит робот!" или "Я наплавил мильён статей за 3 рубля, я счастлив".
Как по мне, основное достоинство чат-ботов такого типа - это возможность посмотреть на предполагаемые потроха более интересных с точки зрения сеошки алгоритмов, работающих в самих поисковых системах. Сама логика.
Ну, и мелкую рутину, отнимающую время-нервы сбросить на говорилку - бесценно.
На всякий случай добавлю ссылку на сервис, работающий с сущностями и тематическим классификатором: https://www.textrazor.com/ - там коротко и практично.
Спасибо. Собственно, все скрипты как видно весьма простые сами по себе, но отталкиваясь от них можно генерить разного рода более сложные аналитические конструкции для различных нужд СЕО, и не только. Все ограничено лишь вашей фантазией и качеством проработки текстовых описаний для запросов к GPT (чем правильнее и точнее формулируешь запрос - тем качественнее результат).
Плюс не забывать что пока все это не бесплатно, но как минимум на тесты тестовых лимитов должно хватить.
Я всё надеюсь, что появится сервис типа Seolemma, только с более широким функционалом, блекджеком и чатботами, с nltk и gensim на борту, под широкий пул задачек сеошных, на парсинге и с пруфами.
А ведь появится.
Конечно, это лишь вопрос времени. У тех же Пиксельтулс видел что активно что-то сеошное появляется.
Единственное, что тут подход несколько иной чем например просто спарсить данные и как-то их агрегировать и отдать юзеру. Тут нужно проводить много тестов и уточняющих запросов, так как она может выдавать каждый раз относительно разные данные, возможно где-то дообучать нейросеть + все это пока не бесплатно, а значит будет и не бесплатно для пользователя.
В бурже сервисы уже есть, хотя в основном сильно узкоспециализированные и не работающие с русским языком. Для решения какой-то конкретной задачки - пожалуйста. А вот универсального комбайна до сих пор не встречал.
Я думаю, что пока нейросети это скорее что-то вспомогательное и не для крупных задач, так как они, например, не могут сами открыть браузер и спарсить сайт ) но за то на уже неких заранее полученных данных они могут провести их анализ быстрее и качественнее человека за счет помощи "глобальных" знаний из интернета.
В любом случае - пока все это только начало. Посмотрим до чего все это дорастет и во что разовьется в конечном итоге.
Попробовала 2 страницы и сравнила с текстовым анализатором. Также посмотрела в ТА урл из вашего примера. Результат ТА нравится больше. Ну, или я не поняла идею.
на данный момент, те же XML-лимиты Яндекса, на мой взгляд, использовать практичнее
Пока все так и есть + этим нужно плотнее заниматься, тк данные примеры достаточно простые и для качественной работы сервисов требуют более сложной доработки.
Да, на то и был прицел под конечного читателя, иначе без исходников оно обычно все в стиле "бла-бла-бла-ЧатГПТ-бла-бла-бла", что выглядит уже несколько однобоко, хотя варианты использования GPT могут быть весьма обширны и разносторонни и могут решать весьма сложные задачи, чем банальный переводчик текста, чат-бот и т.п.
Конечно. Главное для начала продумать, какие задачи нейросеть сможет решить лучше, чем уже имеющиеся стандартные решения.
Если решение будет по качеству +- таким же либо оно будет дороже, то возможно и не стоит тратить на это время.
Но в любом случае - если тема сама по себе интересна, то значит и идеи появятся и со временем думаю все это станет бесплатным либо будет стоить копейки. А сами нейросети будут внедрены повсеместно. Как и крипта. Все это лишь вопрос времени.
Интересные находки. И отдельное спасибо за примеры кода. Ждем новых материалов!
От себя могу сказать, что даже такую простую задачу как определение коммерческости запросов не стал бы доверять ChatGPT. Например, в результатах поиска по запросу "мебель офисная" одни коммерческие сайты (что как бы с учетом частоты намекает на и без того очевидный коммерческий интент), а болталка от Opan AI решила, что намерение информационное. Следуя полученным данным сеошник решит, что по такому запросу нужно продвигать информационную страницу вместо коммерческой и, увы, крупно облажается.
Возможно, если дообучить, то нейросеть станет лучше понимать и работать чем сейчас и даже чем классические сеошные скрипты, но опять же - на все эти тесты нужно время, деньги, нервы) тк пока нейросеть весьма неоднозначна и капризна в своих результатах
Хороший текст на тему, где в основном радостно сообщают "Мы получили доступ к чатГПТ, с нами говорит робот!" или "Я наплавил мильён статей за 3 рубля, я счастлив".
Как по мне, основное достоинство чат-ботов такого типа - это возможность посмотреть на предполагаемые потроха более интересных с точки зрения сеошки алгоритмов, работающих в самих поисковых системах. Сама логика.
Ну, и мелкую рутину, отнимающую время-нервы сбросить на говорилку - бесценно.
На всякий случай добавлю ссылку на сервис, работающий с сущностями и тематическим классификатором: https://www.textrazor.com/ - там коротко и практично.
Спасибо. Собственно, все скрипты как видно весьма простые сами по себе, но отталкиваясь от них можно генерить разного рода более сложные аналитические конструкции для различных нужд СЕО, и не только. Все ограничено лишь вашей фантазией и качеством проработки текстовых описаний для запросов к GPT (чем правильнее и точнее формулируешь запрос - тем качественнее результат).
Плюс не забывать что пока все это не бесплатно, но как минимум на тесты тестовых лимитов должно хватить.
Я всё надеюсь, что появится сервис типа Seolemma, только с более широким функционалом, блекджеком и чатботами, с nltk и gensim на борту, под широкий пул задачек сеошных, на парсинге и с пруфами.
А ведь появится.
Конечно, это лишь вопрос времени. У тех же Пиксельтулс видел что активно что-то сеошное появляется.
Единственное, что тут подход несколько иной чем например просто спарсить данные и как-то их агрегировать и отдать юзеру. Тут нужно проводить много тестов и уточняющих запросов, так как она может выдавать каждый раз относительно разные данные, возможно где-то дообучать нейросеть + все это пока не бесплатно, а значит будет и не бесплатно для пользователя.
В бурже сервисы уже есть, хотя в основном сильно узкоспециализированные и не работающие с русским языком. Для решения какой-то конкретной задачки - пожалуйста. А вот универсального комбайна до сих пор не встречал.
Я думаю, что пока нейросети это скорее что-то вспомогательное и не для крупных задач, так как они, например, не могут сами открыть браузер и спарсить сайт ) но за то на уже неких заранее полученных данных они могут провести их анализ быстрее и качественнее человека за счет помощи "глобальных" знаний из интернета.
В любом случае - пока все это только начало. Посмотрим до чего все это дорастет и во что разовьется в конечном итоге.
Попробовала 2 страницы и сравнила с текстовым анализатором. Также посмотрела в ТА урл из вашего примера. Результат ТА нравится больше. Ну, или я не поняла идею.
на данный момент, те же XML-лимиты Яндекса, на мой взгляд, использовать практичнееДа. И доверия к результатам "ИИ" пока мало.
Пока все так и есть + этим нужно плотнее заниматься, тк данные примеры достаточно простые и для качественной работы сервисов требуют более сложной доработки.
Сначала увидел нейросети и GPT, но потом сами исходники скриптов - поэтому лайк. Протестируем.
Да, на то и был прицел под конечного читателя, иначе без исходников оно обычно все в стиле "бла-бла-бла-ЧатГПТ-бла-бла-бла", что выглядит уже несколько однобоко, хотя варианты использования GPT могут быть весьма обширны и разносторонни и могут решать весьма сложные задачи, чем банальный переводчик текста, чат-бот и т.п.
Спасибо за статью, Андрей. Для себя пока по-мелочи тестирую, в ручном режиме. Если реально подешевеет, можно будет масштабировать.
Конечно. Главное для начала продумать, какие задачи нейросеть сможет решить лучше, чем уже имеющиеся стандартные решения.
Если решение будет по качеству +- таким же либо оно будет дороже, то возможно и не стоит тратить на это время.
Но в любом случае - если тема сама по себе интересна, то значит и идеи появятся и со временем думаю все это станет бесплатным либо будет стоить копейки. А сами нейросети будут внедрены повсеместно. Как и крипта. Все это лишь вопрос времени.
"ai-kommerce.txt): failed to open stream: No such file or directory"