Нейронная сеть генерирует заголовки статей для vc.ru

На выходных стало скучно, и я решил поиграться с моделью GPT-3 для русского языка, которую опубликовал «Сбер» в 2020 году. Результаты порадовали, читайте ниже подробнее о результатах и потестируйте сами ;)

Стоит сказать спасибо Сберу, что инвестировал вообще в это направление и сделал результаты работы общедоступными.

Оригинальная модель от OpenAI(Основателем которой является Илон Маск) показывает впечатляющие результаты. Думаю, все уже слышали, что она может писать стихи, код, но также её во всю применяют для решения бизнес задач. Модель у Сбера меньше по количеству параметров. Но, судя по опубликованным результатам, она тоже что-то может. И можно даже попробовать применить её для решения какой-нибудь серьезной задачи.

Но начать я решил с не такой уж и серьезной задачи.

Как постоянный читатель vc.ru, подумал, что будет интересно поиграться c его контентом. Решил собрать заголовки статей. Сделать это просто, потому что контент-ориентированные сайты публикуют sitemap со всеми ссылками на статьи. Собрал ~100K статей, подготовил обучаю выборку и запустил обучение модели на AWS. Ну и чтобы можно было тестировать, сделал бота для Telegram.

Чтобы сгенерировать тексты, достаточно передать категорию статьи(по другому Название подсайта). Также можно задать "затравку" для названия статьи.

Результат оценивайте сами :) Проект был сделан ради фана, а заголовки, на мой взгляд, иногда получаются интересные.

Вот некоторые примеры

Самое интересное, что если выбрать подсайт "Трибуна" (где часто рассказывают про свои проекты) и ввести какое-нибудь название, можно получить описание

Как потестировать?

Вот ссылка: Бот

Чтобы сгенерировать заголовок нужно передать категорию статьи(Название подсайта) первой строкой, а второй строкой передать затравку для заголовка.

Если у вас возникли вопросы, можете связаться со мной здесь.

Ну и на всякий случай: Бот обучен на материалах из интернета без фильтрации контента. Генерируемый текст не должен восприниматься всерьез и интерпретироваться как оскорбление. Торговые знаки и слоганы принадлежат правообладателям и не используются для коммерческих целей.

Что дальше?

Варианты продолжения фана:

  • Можно сделать конкурента местного Олега от Тинькофф.
  • Можно генерировать целые статьи
  • Предложите свой вариант в комментариях
0
23 комментария
Написать комментарий...
Павел Иванов

Подтвердили мои догадки, что 50% статей здесь пишет нейросеть.

Ответить
Развернуть ветку
Aidar Musin
Автор

Честно говоря, некоторые генерируемые заголовки выглядят настолько реалистично, что начинаешь проверять не правда ли это...

Ответить
Развернуть ветку
Alexey Ivanov

Вы натренируйте сеть на статьях Аязов, Портнягиных, Роббинсов и Бизнес Молодости )))

Ответить
Развернуть ветку
Aidar Musin
Автор

бот-мотиватор? хм, почему бы и нет

Ответить
Развернуть ветку
Павел Иванов

да проще простого, в том то и дело. Так же как и современные фильмы. Техническая жвачка.

Ответить
Развернуть ветку
Вадим Клюев

она же их и читает, потому что подобные вещи разве что ее заинтересуют, человек с критическим мышлением не поведется)

Ответить
Развернуть ветку
Aidar Musin
Автор

Не поведётся на что? Имеете ввиду поймёт что это написано компьютером?

Ответить
Развернуть ветку
Марк Климов

Предлагаю вариант: Генерацию комментариев к статье от разных личностей с большой базой уже существующих комментариев (чтобы у каждого комментатора был свой стиль).

Ответить
Развернуть ветку
Artem Petrenkov

Илья Максимов vs Александр Свергун

Ответить
Развернуть ветку
Aidar Musin
Автор

Интересный вариант :)

Ответить
Развернуть ветку
Павел Иванов

да что здесь интересного, из той же серии как мултьяшние аватары сбера. Только отвращение.

Ответить
Развернуть ветку
Илья Байбус

Это точно бот?

Ответить
Развернуть ветку
Илья Байбус

Даже слишком хорошо

Ответить
Развернуть ветку
Aidar Musin
Автор

Человек бы не смог в таком количестве генерировать ;)

Ответить
Развернуть ветку
Игорь Валиков

Истории
Как я объелся
...
Как я объелся гречкой и стал «невидимкой»: история одного из первых российских инвесторов в недвижимость Сергея Гордейчика

Что ж за гречка?))

Ответить
Развернуть ветку
Khabib96

очевидная греча с курой, сударь

Ответить
Развернуть ветку
Ivan Vishnyakov

Поржал с обычного спутника

Ответить
Развернуть ветку
Андрей Бобков

Гениально! Спасибо автору, сделал мой день))

Ответить
Развернуть ветку
Петр Черненков
Ответить
Развернуть ветку
Khabib96
Ответить
Развернуть ветку
miteigi nemoto

А может ли система пересказывать статью без потери смысла исходного?

Ответить
Развернуть ветку
Aidar Musin
Автор

Да, задача в направлении NLP называется text summarization. Если дообучить эту же модель специальным образом, то может что-то получиться

Ответить
Развернуть ветку
Alexey Ivanov

Если был смысл ))

Ответить
Развернуть ветку
20 комментариев
Раскрывать всегда