Нейросети уже рисуют картины и пишут сценарии. Где ещё они догоняют человека

По данным Всемирного Экономического Форума, к 2025 году искусственный интеллект заменит 85 миллионов рабочих мест, в том числе — творческих. Нейронные сети уже умеют рисовать картины, писать сценарии и создавать музыку, а их произведения продают на аукционах за огромные деньги.

В этой статье разберёмся, на что ещё способны нейросети, как у них получается так хорошо подражать людям и где они смогут заменить человека. И обязательно попробуем сгенерировать что-нибудь сами.

Васнецов писал «Спящую царевну» 40 лет, Да Винчи рисовал губы Джоконды 12 лет, а нейросети генерируют десятки образов за несколько секунд. Посмотрим, как им это удаётся и как выглядит их «творчество».

Google был одним из первых, кто научил нейронные сети создавать картины. Ещё в 2015 году команда инженеров, среди которых был россиянин Александр Мордвинцев, разработала алгоритм компьютерного зрения Deep Dream. Он использует свёрточные нейронные сети, которые хорошо распознают образы.

DeepDream не умеет полноценно писать картины, он лишь может генерировать новые изображения на основе полученного. Но работы нейросети всё равно пользуются спросом. Например, на аукционе Christie’s картину искусственного интеллекта продали за 432 тысячи долларов.

Сначала Deep Dream обучают. Нейросети показывают разные изображения, и она запоминает образы: людей, животных, здания.

Затем в Deep Dream загружают фотографию. Нейронка анализирует изображение, начинает искать знакомые элементы.

Потом DeepDream рисует замеченные образы. На первых этапах нейронная сеть «смотрит» на края и углы изображений, поэтому добавляет лишь небольшие завитки и штрихи, и картинка немного искажается.

Фотографию загружают в Deep Dream → Deep Dream добавляет небольшие искажения в виде завитков

Новую картинку с искажениями Deep Mind снова анализирует и искажает. Так происходит 10–30 раз. Изображение всё больше меняется, и в итоге на нём постепенно вырисовываются объекты, которые нейросеть видела при обучении. Например, на картинке — дерево, а нейронка насмотрелась на здания, поэтому дорисует дом.

Поскольку Deep Mind в процессе обучения показали очень много картинок с животными, она видит их везде. Показываешь небо — видит птиц. Показываешь Мону Лизу — видит собаку и очень много глаз.

До обработки Deep Mind / После обработки Deep Mind

Рыба-собака / Свино-улитка / Верблюд-птица / Собака-рыба

Обработать изображение с помощью DeepDream →

В 2020 году «Яндекс» создал целую виртуальную выставку картин, которые написала нейросеть. Это уже больше похоже на традиционное искусство. Нейросеть повторяет архитектуру StyleGAN2 от NVIDIA, которую изначально создавали, чтобы генерировать лица, неотличимые от настоящих.

Сгенерировать лицо несуществующего человека с помощью StyleGAN2 →

StyleGAN2 — нейросеть, где есть два алгоритма, которые соревнуются между собой. Это как фальшивомонетчик и Центробанк: первый постоянно придумывает новые способы подделать деньги, а второй подстраивается и учится отделять настоящее от фальшивого. Так система эволюционирует.

StyleGAN2 устроен подобным оброзом: с одной стороны есть генератор — он «рисует» картины, а с другой, дискриминатор — он вычисляет, похоже это на реальную картину или нет.

Сначала дискриминатору показывают изображения — например, с котиками, чтобы он научился их «видеть».

Потом в генератор подают «случайный шум», то есть набор чисел. Он создаёт из них изображение и отправляет дискриминатору.

Дискриминатор анализирует изображение, и если оно похоже на котиков, пропускает.

Так генератор и дискриминатор самообучаются в процессе постоянного «соревнования». А мы получаем всё более реалистичные картинки.

Специалисты «Яндекса» обучили свою нейросеть на произведениях из разных направлений живописи: от фовизма и кубизма до минимализма и стрит-арта. Поэтому результат работы их алгоритма гораздо ближе к привычному искусству, чем у Google:

Самостоятельно сгенерировать картины с помощью StyleGAN2 →

В январе 2021 года OpenAI разработала новую нейронную сеть DALL·E, которая умеет переводить текст в изображение.

Нейронные алгоритмы Text-to-Image — тренд 2021 года. Это гораздо больше напоминает реального художника: формулируешь ТЗ → нейросеть пишет картину.

DALL·E тоже сначала обучают. Ей показывают пары текст–изображение, то есть объясняют: здесь — собака, там — машина, тут — человек.

Пользователь отправляет в нейросеть текстовый запрос. Он преобразуется в набор цифр, а цифры внутри нейронки с помощью сложных формул превращаются в изображение.

Созданные изображения отбирает другая нейросеть — CLIP. У DALL·E нет своего дискриминатора, приходится подключать дополнительные функции. CLIP умеет определять, что изображено на картинке без предварительного обучения. Например, может точно сказать, что на фото кинг-чарльз-спаниель, а не бретонский эпаньоль или кокер-спаниель.

DALL·E может сгенерировать полную чушь, но если CLIP разглядит на картинке что-то знакомое, он её отберёт.

Вот, какие изображения генерирует DALL·E на сразу два запроса: «синяя клубника» и «витражи».

Нейросети уже рисуют картины и пишут сценарии. Где ещё они догоняют человека

А вот ещё несколько интересных картин по разным запросам:

Самостоятельно сгенерировать картины с помощью DALL·E mini →

У Singularis Lab есть разработка на базе сверточной нейросети, которая позволяет определить жанр и стиль картины. Для этого достаточно загрузить файл в систему, и алгоритм выдаст результат.

Обучаем нейросеть «основам изобразительного искусства». Мы показали нейросети множество различных картин. Система запомнила характерные признаки представленных ей академических стилей и жанров и научилась определять их самостоятельно.

Загружаем изображения. Демка доступна с любого устройства с выходом в интернет. Вы можете загрузить любое изображение, даже фотографию вашего блокнота. Нейросеть в любом случае классифицирует его по своей базе знаний.

Нейросеть классифицирует изображение, показывает вам результат и примеры похожих картин.

Подробнее о проекте рассказываем здесь.

Поиграться с нашей разработкой вы можете здесь →

Главный научный сотрудник Narrative Science Кристиан Хаммонд считает, что к 2030 году 90% новостей будут написаны искусственным интеллектом.

Западные издания уже применяют нейросети для написания новостных заметок. Для этого используют передовую модель на нейронных сетях GPT-3 — самый мощный инструмент, который умеет генерировать текст.

GPT-3 настолько хорошо подражает человеку, что OpenAI держит нейросеть в закрытом доступе. Создатели боятся, что их разработку могут использовать для распространения дезинформации.

Нейросеть заранее обучают. Например, на старте GPT-3 показали 45 ТБ текста из интернета: статьи из «Википедии», книги, полезные материалы.

Нейросеть запоминает, как пишут люди: о чём они говорят, какие слова чаще ставят вместе, а какие — нет..

GPT-3 принимает начало текста от пользователя и начинает пристраивать к нему каждое следующее слово. Она перебирает все известные ей слова и оценивает, какое лучше подойдёт в каждом случае. Поскольку она видела очень много примеров, предсказания GPT-3 часто оказываются удачными.

Американский студент создал целый блог, который вела нейросеть GPT-3. Тексты публиковались на известном агрегаторе новостей Hacker News.

GPT-3 настолько хорошо генерирует тексты, что одна статья даже заняла первое место в топе — пользователи посчитали её самой интересной.

Подвох заметил лишь один юзер Hacker News, но его обвинили в некорректности и попросили не обижать автора.

Похоже, что это написал GPT-3. Текст ни о чем.— Может, вы здесь новенький, но ваш грубый комментарий неприемлем в этом сообществе. Если вы не согласны с текстом, приведите аргументы, а не оскорбляйте автора.

Ещё GPT-3 хорошо показала себя в создании новостных заголовков. У «Медузы» есть проект Neural News, в котором русскоязычная модель GPT-3 от «Сбера» занимается ровно этим — генерирует фейковые заголовки. Порой выходит очень правдоподобно:

Нейронка помогает и серьёзным западным изданиям. В сентябре 2020 года британская газета The Guardian опубликовала колонку, которую написала GPT-3.

«Робот написал всю эту статью. Ты уже напуган, человек?» — заголовок статьи, написанной GPT-3 для The Guardian.

Сгенерировать текст с помощью русскоязычной GPT-3 в Google Colab →

По сценариям, которые пишут нейросети, уже снимают короткометражные фильмы. Выходит странно, но по-своему интересно. На YouTube есть целый канал Calamity Ai, на который студенты калифорнийской киношколы выкладывают короткометражки по сценариям, написанным нейросетью.

Посмотреть короткометражку от нейросети вы можете здесь.

Такая нейросеть есть и у «Яндекса». В июне 2021 года компания представила сервис «Балабоба», который умеет достраивать тексты. В основе «Балабобы» — нейросеть YaLM, которая готовит ответы для «Поиска» и «Алисы».

«Балабоба» умеет генерировать сценарии фильмов, теории заговора, ТВ-репортажи, пацанские цитаты, тосты и рекламные слоганы.

YaLM работает по похожему с GPT-3 принципу.

«Яндекс» заранее обучил YaLM. Нейросетке показали веб-страницы с текстом на русском: статьи, новости, книги, посты в соцсетях и сообщениях на форумах.

Нейронка запомнила примеры. Она усвоила, что в предложения Толстого тянутся на полстраницы, а после «Мама мыла...» лучше поставить слово «рама», а не «бегать».

Теперь, когда пользователь пишет начало текста «Балабобе», нейронка начинает подбирать каждое следующее слово — как Т9 в смартфоне. YaLM перебирает слова и оценивает, какое лучше подойдёт для этого контекста и не нарушит ли нейросеть при этом правила русского языка.

Вот, какую концепцию для фильма «Балабоба» сгенерировал на основе зачина криминальной комедии «Карты, деньги, два ствола»:

Создать синопсис фильма с помощью «Балабобы» →

Искусственный интеллект так быстро развивается, что под угрозой оказались сами разработчики. В августе 2021 года OpenAI выпустила нейросеть Codex, которая однажды может заменить программистов.

Codex — это инструмент, который умеет преобразовывать команды на английском языке в программный код. Нейросеть лучше всего работает с Python, но спокойно может написать код на JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript и даже Shell.

Codex — по сути, тот же GPT-3, который просто гораздо лучше пишет код.

Сначала Codex изучает все открытые репозитории GitHub — это терабайты программного кода.

Затем нейронка анализирует код и комментарии к нему. Она запоминает, что пишет программист после определённого комментария и учитывает это при работе.

Пользователь на английском языке пишет Codex, что нужно сделать. Например, «выведи “Привет, мир”». А нейрость пишет строчку кода: print('Привет, мир'), если выбрали язык Python.

Вот, как с помощью Codex разработчик создаёт игру через команды нейросети:

«Анимируй астероид так, чтобы он двигался горизонтально и вертикально»

Смотреть полную версию →

OpenAI Codex работает в закрытом бета-тестировании. Чтобы попробовать нейросетку, нужно попасть в список ожидания. Для этого придётся заполнить форму и немного подождать.

Присоединиться к списку ожидания Codex →

Нейросети уже рисуют картины и пишут сценарии. Где ещё они догоняют человека

Живопись

Нейросеть Google

Как это работает

Как это выглядит

Нейросеть «Яндекса»

Как это работает

Как это выглядит

Нейросеть от OpenAI

Как это работает

Как это выглядит

Нейросеть от Singularis Lab

Как это работает

Новости и статьи

Как это работает

Как это выглядит

Сценарии

Как это работает

Как это выглядит

Разработка

Как это работает

Как это выглядит

Самому поиграться с нейросетями