Нейронная сеть генерирует заголовки статей для vc.ru

На выходных стало скучно, и я решил поиграться с моделью GPT-3 для русского языка, которую опубликовал «Сбер» в 2020 году. Результаты порадовали, читайте ниже подробнее о результатах и потестируйте сами ;)

Стоит сказать спасибо Сберу, что инвестировал вообще в это направление и сделал результаты работы общедоступными.

Оригинальная модель от OpenAI(Основателем которой является Илон Маск) показывает впечатляющие результаты. Думаю, все уже слышали, что она может писать стихи, код, но также её во всю применяют для решения бизнес задач. Модель у Сбера меньше по количеству параметров. Но, судя по опубликованным результатам, она тоже что-то может. И можно даже попробовать применить её для решения какой-нибудь серьезной задачи.

Но начать я решил с не такой уж и серьезной задачи.

Как постоянный читатель vc.ru, подумал, что будет интересно поиграться c его контентом. Решил собрать заголовки статей. Сделать это просто, потому что контент-ориентированные сайты публикуют sitemap со всеми ссылками на статьи. Собрал ~100K статей, подготовил обучаю выборку и запустил обучение модели на AWS. Ну и чтобы можно было тестировать, сделал бота для Telegram.

Чтобы сгенерировать тексты, достаточно передать категорию статьи(по другому Название подсайта). Также можно задать "затравку" для названия статьи.

Результат оценивайте сами :) Проект был сделан ради фана, а заголовки, на мой взгляд, иногда получаются интересные.

Вот некоторые примеры

Нейронная сеть генерирует заголовки статей для vc.ru

Самое интересное, что если выбрать подсайт "Трибуна" (где часто рассказывают про свои проекты) и ввести какое-нибудь название, можно получить описание

Нейронная сеть генерирует заголовки статей для vc.ru

Как потестировать?

Вот ссылка: Бот

Чтобы сгенерировать заголовок нужно передать категорию статьи(Название подсайта) первой строкой, а второй строкой передать затравку для заголовка.

Если у вас возникли вопросы, можете связаться со мной здесь.

Ну и на всякий случай: Бот обучен на материалах из интернета без фильтрации контента. Генерируемый текст не должен восприниматься всерьез и интерпретироваться как оскорбление. Торговые знаки и слоганы принадлежат правообладателям и не используются для коммерческих целей.

Что дальше?

Варианты продолжения фана:

  • Можно сделать конкурента местного Олега от Тинькофф.
  • Можно генерировать целые статьи
  • Предложите свой вариант в комментариях
Нейронная сеть генерирует заголовки статей для vc.ru
1616
23 комментария

Подтвердили мои догадки, что 50% статей здесь пишет нейросеть.

9
Ответить

Честно говоря, некоторые генерируемые заголовки выглядят настолько реалистично, что начинаешь проверять не правда ли это...

7
Ответить

она же их и читает, потому что подобные вещи разве что ее заинтересуют, человек с критическим мышлением не поведется)

1
Ответить

Предлагаю вариант: Генерацию комментариев к статье от разных личностей с большой базой уже существующих комментариев (чтобы у каждого комментатора был свой стиль).

3
Ответить

Илья Максимов vs Александр Свергун

2
Ответить

Интересный вариант :)

1
Ответить

Это точно бот?

2
Ответить