Что ждет художников, маркетологов, фотографов и писателей? Какие сервисы их заменят

Я уже давно знаю, что написать пару строчек текста в специализированном софте можно за пару секунд, получив иллюстрацию прекрасного качества, над которой художник работал бы пару дней минимум. Видимо, об этом теперь узнало больше людей, потому что в последний месяц все мои ленты социальных сетей забиты фотками кислотного цвета, то ли космонавтов, то ли рептилоидов.

Илон Маск и мышь. Промп: **handsome virile Elon Musk eating a big magic mushroom.detailed portrait. A big,cute clever piglet with electronic chip in the head sits beside. snowing.Luxury,aesthetic,beautiful composition.ultra detailed realistic photography.
Илон Маск и мышь. Промп: **handsome virile Elon Musk eating a big magic mushroom.detailed portrait. A big,cute clever piglet with electronic chip in the head sits beside. snowing.Luxury,aesthetic,beautiful composition.ultra detailed realistic photography.

Модные приложения, работающие с фильтрами для лица, массово стали добавлять функцию генерации иллюстраций на базе промта (небольшого текстового описания) .

Давайте разберемся: Generative AI - это начало нового бума стартапов или тренд, который уже прошел.

Называется это направление Generative AI. (Дословно: генеративный AI, поскольку на русском это звучит так себе, далее по тексту буду писать как есть на английском)

И это значит, что этот AI может создать что-то новое, на основе технологий глубокого обучения, либо генеративно-состязательная сеть (GAN- Generative Adversarial Network ), либо языковая модель, основанная на архитектуре трансформер и, обученная в self-supervised режиме на куче текстовых данных (GPT - Generative Pre-trained Transformer). Есть еще модель (LDM) Latent Diffusion Models. Не буду тут останавливаться подробно, если нужны подробности, пишите в комментариях, можно устроить хорошее обсуждение этих моделей и их преимуществ.

Исторически, до 2014 была модель GAN, которая больше занималась распознаванием образов для поисковых задач. Наверное, все пробовали искать в Google по картинке, а еще Google мог вам найти изображения по запросу, например, картинки с котами, если вы спросили про котов. Потом Ян Гудфеллоу придумал, как заставить одну нейросеть, конкурировать с другой, и получились первые результаты, когда модель нарисовала то, чего раньше не было. А в 2017 Google Brain представили технологию, которая смогла воспринимать абзац текста как единое смысловое целое, понимая контекст. Это называется-Трансформатор. Последняя буква в аббревиатуре GPT. Поскольку, первоначальная модель имела определенные ограничения, связанные с набором данных, которым она была обучена, появились другие модели, которые обучали дополнительно. Самые популярные модели сейчас-это GPT-3 (GPT), Dall-E (GPT), Stable Diffusion (LDM).

Все что надо знать про историю Generative AI. Во всем виноват Google
Все что надо знать про историю Generative AI. Во всем виноват Google

И вот 22 год, когда все сложилось. Нейросети необходимого уровня могут работать на умном утюге, модели настолько обучены, что могут и текст написать, и крутую картинку генерировать, и даже, речь на слух воспринимать. Все это в свободном доступе, и любой желающий, с начальными знаниями программирования, может с этим работать. Самое время запускать стартапы, и они появились. Более того, уже есть мощные раунды. Стартап для генерации текста Jasper поднимает 125М по оценке 1,5B и это не предел.

Таблица применений моделей к задачам
Таблица применений моделей к задачам

Какие стартапы можно сделать прямо сейчас?

Генерация картинок из текста (text-to-image)

Пока в ней больше развлекательной составляющей. Результат генерации все еще мало предсказуем, интересуются технологией исключительно техники и ранние адоперы. Однако, есть большой потенциал создания инструментов для творческих профессий.

Как  работает DALL-E
Как  работает DALL-E

Кому может быть полезны продукты

Дизайнеры - инструменты для поиска идей и референтов, быстрое создание почти готовых прототипов интерфейсов, построенных на описании процессов, подгонка эскизов под фирменный стиль или, внедрение нового фирменного стиля в текущие дизайны приложений и рекламных материалов.

Фотографы - смогут автоматизировать процесс постобработки и дополнения готовых фотографий, дополнительными объектами, изменения погоды и освещения на уже готовом снимке.

Маркетологи - смогут генерить картинки для оформления статей, а так же, фигачить креативы для рекламных компаний в 100 раз быстрее.

Использовать модели проще и быстрее: Stable diffusion , Midjourney, Dall-E 2

Стартапы, которые уже что-то делают : Starry AI , Dream By Wombo, Nightcafe, Pixray, Deep Dream Generator, Artbreeder, Hypotenuse AI, Midjourney, Google’s Imagen

Генерация готовых текстов.

Пока действующие модели не могут писать романы или философские труды, все еще невозможно написать научную статью, в которой нейросеть сделает открытие, однако, очень хорошо получаются тексты, основанные на фактах, компиляции, и написание сценариев. Уверен, что это не предел, и очень скоро мы увидим сгенерированный повести и романы.

Что ждет художников, маркетологов, фотографов и писателей? Какие сервисы их заменят

Для кого можно пилить продукты

Маркетологи: легко можно генерировать SEO контент с набором ключевых слов нужной длины. Как я писал выше, можно и картинки еще под это сгенерировать.

Блогер и писатели: можно заменить корректора и редактора, которые обогащают тесты примерами и нарабатывают объем. Поможет в работе для серийных проектов, чтобы не запутаться в героях и сюжетных линиях.

Боты: тут можно и организовать службу поддержки, где бот будет искать и создавать ответы на вопросы, которых нет в базе знаний колл-центра, а также, создавать уникальных ботов-персонажей, которые никогда не забудут, о чем вы с ними говорили неделю назад или год назад.

Использовать модели можно : GPT-3 , EleutherAI , Bloom

Стартапы, которые уже что-то делают: Copy.Ai, Replica, Romantic.AI

Генерация голоса из текста

Еще недавно это звучало ужасно. Сейчас это можно перепутать с профессиональным ведущим. Область применения технологии очень широкая.

Как применить для нового стартапа?

Перевод и озвучку контента в интернете: робот может читать пользователю статьи и переводить YouTube ролики приятным голосом

Создавать аудио контент на других языках: все мы знаем, что звучать на родном языке и на китайском-сложно. Но можно синтезировать свой голос и выдавать аудио контент на 150 языках.

Изучение иностранного языка с крутым аудированием, которое будет подстраиваться под твой прогресс.

Hugging Face — лучшая библиотека для этих целей (и есть еще около 200)

Какие стартапы уже есть: Podcast AI, Resemble AI, Papercup $33.2M, Neosapience $26,8M, Deepdub $20M

Генерация видео из текста

Пока можно говорить о том, что сгенерировать можно не очень качественные и короткие видео, но это только начало. Тоже самое было с картинками и текстами.

Как примерно это работает 
Как примерно это работает 

Как это можно использовать для стартапа?

Для создания развлекательного контента: мы живем во времена Тик Тока и супер коротких форматов видео. Кредиторов хватает, но можно пойти дальше, нейросеть узнает пользователя, и будет генерировать контент, под каждого свой.

Тоже и в маркетинге: под каждую целевую категорию можно показать свой ролик. И вообще, можно хакнуть технологию вирусных роликов, тк их генерировать можно тысячами, без затрат.

Какие стартапы уже есть: Lumen5, Runway $35M, HourOne $20M

Итак, пилить стартап на этих технологиях или нет?

Generative AI
Тренд, который быстро пройдет
Технология, которая изменит наш мир к лучшему
Это Скайнет, скоро прийдет Терминатор-6

ЗА эту идею:

Молодой Илон Маск и Дональд Трамп
Молодой Илон Маск и Дональд Трамп

Рынок пока еще пустой, а задач, которые можно решить-дофига. Можно сейчас стать одним из первых и поднять инвестиции, создавая принципиально новый бизнес. Гипотетически, рынок под это есть и он огромный

ПРОТИВ этой идеи:

Что ждет художников, маркетологов, фотографов и писателей? Какие сервисы их заменят

Они связаны, прежде всего, с тем, как общество отреагирует на повсеместное внедрение таких технологий. Как это повлияет на рынок труда, и как это будет регулироваться. Ведь контент, который мы создаем сейчас, регулируется законодательством, возрастными и моральными ограничениями. Такое регулирование появится и у Generative AI. А возможно, эти услуги вообще сложно будет монетизировать из-за быстрого развития технологий, которые просто не оставят времени на окупаемость.

Я помогаю тем, кто хочет поднять инвестиции в стартап но: не знает с чего начать, не отвечают инвесторы или заканчиваются деньги. Подпишитесь на мой телеграмм канал, там еще больше постов и размышлений.

66
3 комментария

Комментарий недоступен

1

Правильно ли я понял, что библиотеки в открытом доступе и тот же Midjourney использует бесплатную библиотеку? Спасибо)
Статья пушка и попалась ровно тогда когда нужно

1

Лично для меня искусство самоцель и смысл жизни. Если оно станет ненужным, сменю профессию на киллера, принцип тот же что и в фотографировании, оружие тоже есть, в тир хожу))) Можно например зарабатывать тем что убивать программистов и обналичивать их биткоины, так сказать приятное с полезным.
p.s. нет это не шутка, без искусства жизнь не имеет ни ценности ни смысла, а значит убийство больше не табу. Да и программисты все равно почти роботы, это и не убийство по сути