(function(m,e,t,r,i,k,a){m[i]=m[i]||function(){(m[i].a=m[i].a||[]).push(arguments)}; m[i].l=1*new Date(); for (var j = 0; j < document.scripts.length; j++) {if (document.scripts[j].src === r) { return; }} k=e.createElement(t),a=e.getElementsByTagName(t)[0],k.async=1,k.src=r,a.parentNode.insertBefore(k,a)}) (window, document, "script", "https://mc.yandex.ru/metrika/tag.js", "ym"); ym(93807279, "init", { defer: true, clickmap:true, trackLinks:true, accurateTrackBounce:true }); ym(93807279, 'hit', window.location.href);

На vc.ru появилась возможность писать комментарии с помощью нейросети

Вместе со Сколтехом мы обучили её на том, что пишут пользователи vc.ru, TJournal и DTF.

Возможно, вы уже заметили, что в комментариях появилась кнопка «Нейротекст»:

Мы несколько недель обучали нейросеть GPT-2 на трёх датасетах: комментариях пользователей vc.ru, TJournal и DTF. Так появился спецпроект «Нейротекст», который может написать или дописать комментарий за вас.

Что такое GPT-2

GPT-2 — это нейронная сеть, которая основана на архитектуре transformers и обучена предсказывать следующее слово в предложении. Оригинальная модель содержит 1,5 млрд параметров и может генерировать длинные тексты, удерживая контекст и отсылаясь к предыдущим событиям в тексте.

Наша модель обученная, например, на комментариях DTF, содержит в себе около 29 миллионов параметров.

Чтобы с нуля обучить нейросеть GPT-2, нужен внушительный объём данных. Комментарии пользователей — хорошая основа:

  • На vc.ru пользователи оставили 1,2 млн уникальных комментариев длиннее 10 символов.
  • На DTF — 3,5 млн.
  • На TJ — 1,8 млн.

Мы выгрузили все комментарии с трёх сайтов — получилось 1,8 Гб текста. Но это сырые данные, которые нельзя было использовать. Поэтому датасеты пришлось отфильтровать: убрать лишние символы и ссылки, исключить комментарии из нескольких символов — скорее всего, ничего хорошего с ними бы не вышло.

Затем каждый датасет разбили на «токены», на которых построены предложения. На их основе нейронная сеть собрала свой словарь. С ним она теперь и будет работать, генерируя комменты за вас.

Тренировка нейросети на каждом датасете заняла пять дней, а делали мы всё на этом звере — Nvidia Quadro RTX 6000.

Денис Ширяев, продакт-менеджер «Комитета»

«Нейротекст» напишет комментарий за вас — но готовьтесь ко всякому

Если вы нажмёте на «Нейротекст», то увидите ещё три кнопки с логотипами изданий. Каждая из них сгенерирует комментарий в стиле пользователей соответствующего сайта.

Нейросеть может написать комментарий с нуля, а может — продолжить начатый вами. Редактировать то, что написал робот, нельзя — мы хотим видеть чистый результат работы «Нейротекста».

В процессе тренировки мы генерировали комментарии для тестов и не могли поверить, насколько осмысленно выглядят некоторые из них. Пару десятков раз даже шли в датасеты, чтобы проверить определённые фразы, но их там не было. То есть нейросеть генерировала всё это с нуля.

Илья Чекальский, технический директор «Комитета»

А можно посмотреть на примеры работы нейросети?

Ещё как.

Как мне понять, что я общаюсь с человеком, а не с роботом

Возле каждого комментария, который сгенерирован нейросетью, будет стоять плашка «Нейротекст». Её цвет покажет, от лица какого издания ответил робот. Часть текста, которую написала нейросеть, будет подчёркнута цветной линией.

Мы знаем, что кому-то такие эксперименты могут показаться вмешательством в размеренную жизнь издания. Поэтому предусмотрели тумблер, который выключает все комментарии робота — вернуть их так же просто.

Мы неплохо повеселились — научиться делать такое же можно в Сколтехе

С помощью нейронок можно делать и более сложные и масштабные проекты. Машинное обучение становится базовым инструментарием во многих сферах — всё не ограничивается Data Science.

Например, в магистратуре Сколтеха Advanced Manufacturing Technologies учат применять нейросети в реальном промышленном производстве. Научные сотрудники вместе со студентами этой программы недавно сделали для автопроизводителя Fiat Chrysler Automobiles проект, который сократил время проектирования деталей с двух с половиной месяцев до пары дней.

На направлении Energy Systems применяют машинное обучение для умной техники. Из простых примеров — нейросеть подбирает идеальные параметры работы кондиционера и обогревателя на ближайшие часы в зависимости от размера и расположения окон, планировки, материалов стен и так далее. А в сфере беспроводных связей — нейросети способны снизить энергопотребление мобильных устройств.

Эксперты Сколтеха рассказали о примерах применения нейросетей в своих проектах в отдельном материале — читайте по ссылке ниже.

Что теперь

Заходите в комментарии и давайте общаться. Теперь не только с людьми, но и с роботами.

Обновление: Эксперимент подошёл к концу. 🤖

0
612 комментариев
Написать комментарий...
Евгений Делюкин

Дуров — это тот человек, который все это знает?

Ответить
Развернуть ветку
Саша Мураховский

Нет, Дуров — лучший выбор для развития человечества.

Ответить
Развернуть ветку
Евгений Делюкин

Илон Маск — победитель Tesla.

Ответить
Развернуть ветку
Саша Мураховский

Я согласен, потому что Джефф Безос — старый американский кикстартер. В оригинале, кажется, он говорит: У вас есть выбор: покупать или покупать в Китае.

Ответить
Развернуть ветку
Евгений Делюкин

Это не так. Это просто так получилось, что я не мог понять, почему люди до сих пор думают, что это не так. Ну, в общем-то, это не так.

Ответить
Развернуть ветку
Андрей Фролов

Вообще-то Tesla изобрела BigData и написала её в своё время, в рамках своего исследования.

Ответить
Развернуть ветку
Dima Khabibulin

Интересно было бы узнать, как у них с поддержкой и какими-либо сервисами, которые уже сейчас помогают решить эту проблему. Например, из-за отсутствия возможности подключить вайбер. И на каком этапе?

Ответить
Развернуть ветку
Андрей Фролов

могу предположить, что вайбер почему то всё ещё может работать.

Ответить
Развернуть ветку
Dima Khabibulin

А в чем проблема? Я вот, например, не могу понять. Зачем мне такая мулька, если она мне нужна?

Ответить
Развернуть ветку
Андрей Фролов

Вы бы лучше подумали, прежде чем сказать, что у меня нет аргументов. Я не знаю как это работает. Я просто не понимаю, что именно Вы хотите доказать.

Ответить
Развернуть ветку
Dima Khabibulin

Да, я думаю не все. Редакция vc.ru с вами полностью согласна на эту тему.

Ответить
Развернуть ветку
bingo boy

Не думаю, что у них есть какой-то смысл что-либо делать. Это же надо сначала начать с того, что боты в чатиках и через день написать статью в профиле. А то будет так: - Ой, а я думал это как ботах.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Artem Petrenkov

По мнению Ильи Максимова, это не та характеристика.

Ответить
Развернуть ветку
609 комментариев
Раскрывать всегда