Как проверять контент, созданный нейросетью?
Хотите послушать историю, как однажды мы проверяли 5000 текстов с поздравлениями, сгенерированных нейросетью? Вручную!
Мурашки побежали? 😁
Если честно, на деле все оказалось не таким страшным — в запасе у нас имелась пара трюков. Каких, сейчас расскажу.
Постановка задачи и поиск решения
Техническое задание звучало так: нужен пул коротких новогодних поздравлений для широкой аудитории. Каждое поздравление должно быть вычитано копирайтером, конечный текст — получиться осмысленным, емким и без «воды». Вроде бы обычные требования, однако, учитывая количество текстов, задачка получилась со звездочкой.
Для наглядности покажу на цифрах.
В среднем, на вычитку текста у нас уходила минута. Умножим на количество текстов, получаем: 5000 минут или 84 часа или почти 11 полноценных рабочих дней. Причем наполненных чтением одного и того же текста, с незначительными вариациями. Копирайтерский ад, не меньше, а дедлайн уже через 2 дня.
Нанимать штат редакторов из 5-6 человек времени не было (даже на поиск), поэтому мы прибегли к некоторым машинным хитростям — воспользовались помощью искусственного интеллекта (ИИ).
Какую нейросеть выбрать? Немного теории и занудства
Несмотря на то что адепты мистификации пророчат нейросетям захват мира и всеобщий апокалипсис, языковые модели — очень простые ребята. И заточены делать одну функцию — предсказывать следующее слово по контексту. Под капотом у них, конечно, запрятано множество переменных, но алгоритм простой. Хотя и позволяет делать огромное количество вещей: создание тестов, переводы, ответы на вопросы, редактирование. Этим может похвастать «великий и ужасный» ChatGPT или MLP сеть, примером которой он является.
Но, как говорится, не текстом единым, задачи меряются, и в работе могут пригодиться и другие сети:
- Сверточные нейронные сети (CNN).
Или «нейроглаза». Специализируются на обработке визуальной информации: круто распознают образы (движение, лица), из-за чего широко применяются в компьютерном зрении. Например, система безопасности с использованием видеокамер.
- Рекуррентные нейронные сети (RNN).
Хранители времени. Если задача требует учёта последовательности данных, RNN в игре. Подходят для обработки текста, речи или временных рядов.
- Специализированные архитектуры.
Например, Generative Adversarial Networks (GAN) — для генерации визуального контента (фотографии, картинки). Все эти: Midjourney, DALL·E 2, DeepAI, Шедеврум и другие плюшки для дизайнеров.
Еще один представитель специализированных архитектур — Reinforcement Learning (RL), для обучения роботов. Но это уже больше хардкор.
- Трансформеры.
Обычный голосовой помощник, который переводит речь на разные языки и учится на предыдущих разговорах.
Какого нейропомощника выбрать будет зависеть от конкретной задачи. Наш кейс с новогодними поздравлениями отлично решался с помощью чат-бота ChatGPT.
Магия ИИ в действии, или как создать адекватный текст
Многие представляют ChatGPT как нечто волшебное — нажимаешь кнопку, и «вжух», все проблемы решены сверхразумом.
Однако на практике все работает по-другому. Кнопка есть, но чтобы получить толковый результат, нужно постараться. Как говорится, без внятного ТЗ (техническое задание), даже нейросеть не справится. 😄 Нужно грамотно сформировать prompt (промпт), запрос к модели.
В нашем случае все тексты мы генерили по общему шаблону.
Какие правила мы использовали:
1. Четко формулировали задачу. Тут нужна ясность и конкретика.
Надо писать так, будто даешь четкое задание сотруднику. Предложения должны быть короткими, без двусмысленности или слишком общих вопросов. Тогда ответы получатся точнее.
В нашем кейсе нейросеть обращалась к читателям на “вы”, чтобы убрать половую принадлежность. Меньше вариантов выбора — меньше возможности ошибиться (прямо как на ЕГЭ по русскому).
2. Указали желаемый формат ответа.
В промпте надо строго прописывать, какой формат ответа нужен. Это может быть список, пожелание, короткое название или как в нашем случае — предсказание.
3. Чтобы не получить «воду», ограничили контекст.
4. Использовали примеры.
Чтобы ИИ лучше понял запрос, желательно объяснять все подробно, «на пальцах», и накидать примеров. Чем больше, тем качественнее результат.
Вот что у нас получилось по итогу:
Если ответы модели вышли не такими исчерпывающими, как хотелось, переформулируйте промпт или уточните запрос. Укажите на недостатки и попросите нейросеть их исправить. Можете генерировать снова и снова, пока результат вас не устроит.
Проверка валидации текстов и поиск ошибок
В итоге нейросеть выдала нам 5000 поздравлений в нужном формате. Даже при условии четкого ТЗ оставлять тексты в неизменном виде было нельзя — требовалась проверка на адекватность. Чтобы не вычитывать весь текст, на этапе генерации большую часть предсказаний мы сделали плюс-минус одинаковыми. Оставалось лишь найти часто встречающиеся ошибки.
Трюки, которые мы использовали:
- Рандомная проверка текстов.
Несмотря на шаблон, познакомиться с полученными текстами надо было все равно. Мы выбрали 20% из общего числа и вычитали их.
- Поиск паттерна.
Если находили повторяющиеся конструкции или слова, меняли их во всех текстах автозаменой. Так, мы проработали около 70% текста.
Например: слово «заботливость», меняли на заботу, так как первое — это склонность проявлять заботу, а нам нужны были характеристики качества. «Консерватизм» заменили на «консервативность» и все в таком духе.
- Black list. ☠
Чтобы убрать из текста запрещенные слова, мы сформировали для ChatGPT своеобразный черный список, который исключал их использование.
- Создание простенького текстового интерфейса для просмотра и редактирования, в котором потом и работали.
- Проверка текста на нецензурные слова и их аналоги через специальную нейросеть для детекции мата. На всякий случай.
Выводы
Выполнение данного кейса стало для нас интересным этапом в работе с нейросетью. С ее помощью мы уложились в срок, не сошли с ума от триллиона «букавок», и, главное, заказчик остался доволен.
Как видите, в коллабе с этими моделями работается неплохо — оптимизируются идеи, время, персонал. Кому это может помочь? Всем, кто генерит контент. Что можно создать? Да что угодно: нейминг, письма для рассылок, УТП для бизнеса, любое текстовое и визуальное наполнение. При умелом использовании, возможности ИИ безграничны. Кстати, название этой статьи нам тоже сгенерировал ИИ, неплохо, да.😎
Какие выводы мы сделали для себя и хотели бы поделиться с теми, кто хочет и планирует использовать нейросети в работе:
- Не бойтесь нейросетей. Мир они пока не захватят и с работы никого не выгонят — интеллекта нет. Это просто ценные помощники, ускорители, которые с легкостью выполнят задачи, на которые у вас ушла бы уйма времени. Как представлю, что мы сами редактируем все эти тексты, наше новогоднее предсказание выглядело бы вот так:
- Промпт — наше все. Чем понятнее и четче он будет, тем лучше результат.
- Если генерите большой объем текста, вычитать все не получится — это нереально.
- Все ошибаются, даже нейросеть. Это нужно принять и не строить завышенных ожиданий. Полученный результат всегда надо оценивать и проверять на адекватность (привет, фактчекинг!). Постепенно, методом проб и ошибок, косяков станет меньше. Все как в жизни: вы учитесь и нейросеть тоже.
- Важно искать паттерны повторения ошибок, чтобы править текст, не смотря в него.
- Идеала не существует. Даже после нескольких итераций правок, текст может остаться шероховатым (в мелочах), вопрос только в том, как это уменьшить.
Поделитесь в комментариях, был ли у вас опыт работы с нейросетями и как все прошло. Если появились вопросы, задавайте. С радостью ответим.😉