Как мы при помощи ИИ создаем визуалы для обучения студентов

Как при помощи нейросетей в «Школе Сколково» создается визуальный контент для образовательных программ, рассказывает Вячеслав Крискевич, наш директор по мультимедиа.

По статистике, визуальный контент воспринимается мозгом в 60 000 раз быстрее, чем текст. В среднем человек запоминает 65% увиденного, 20% прочитанного и 10% услышанного. Это явление называется эффект превосходства образа.

Чтобы обучение на программах было эффективнее, мы активно внедряем визуальный контент в образовательные процессы Школы. Новые технологии, позволяющие создавать иллюстрации и видео совместно с ИИ, помогают нам экономить время и дают большое пространство для развития и экспериментов.

Нейросети не только генерируют изображения и видео, но и помогают обрабатывать исходные материалы. При работе с оформлением презентаций, программ и спецпроектов, а также при создании видеороликов и игр мы используем разные возможности ИИ:

  • создание картинок и видео с нуля;
  • формирование серии изображений в едином стиле;
  • генерирование коллажей;
  • создание фонов для съемок;
  • анимация изображений;
  • создание нейроспикеров;
  • достройка изображений и видео до нужных пропорций;
  • добавление новых объектов на фотографию или видео и удаление «лишних»;
  • генерация голоса.

Формирование картинок с нуля для презентаций и спецпроектов

Самые простые примеры использования нейросетей для оформления образовательных проектов – это создание иллюстраций для презентаций. При производстве картинок наша дизайн-команда экспериментирует с разными нейросетями. Чтобы результат соответствовал ожиданиям, мы специально обучаем ее работе с разными инструментами, в том числе с Google Colab – площадкой для разработки и выполнения программного кода в облаке. Одна из задач, которые можно решить с помощью сервиса – создание и применение стилей.

Какие-то инструменты мы используем регулярно, другие – реже. С тех пор как генератор изображений DALL-E стал частью ChatGPT, некоторые запросы можно формулировать обычным языком, без применения промптов, которые нужно прописывать, например, в Midjourney. Теперь картинки в ChatGPT создаются через диалог дизайнера с нейросетью. Результаты получаются достаточно интересные, причем иногда этот виртуальный агент обрабатывает запрос намного точнее, чем Midjourney.

<p>Результаты по запросу «знак вопроса металлический»: слева – в Midjourney, справа – в ChatGPT</p>

Результаты по запросу «знак вопроса металлический»: слева – в Midjourney, справа – в ChatGPT

Хотя сейчас Midjourney обрабатывает запросы лучше, чем раньше:

<p>«Знак вопроса металлический» в новой версии Midjourney</p>

«Знак вопроса металлический» в новой версии Midjourney

Изображения, сделанные ИИ, помогают подчеркнуть тему презентации и задать направление разговора. Стилистика изображений отличается в зависимости от темы презентации и желаемого эффекта.

<p>Примеры визуалов в разной стилистике</p>

Примеры визуалов в разной стилистике

Нередко мы создаем изображения из заготовок, сделанных совместно с нашими профессорами. Многие из них, как и руководители наших программ, быстро осваивают новые технологии вместе с нами.

ИИ позволяет создать не только обложки, перебивки и фоны слайдов, но и метафорические иллюстрации к тексту. Подобные иллюстрации помогают погрузить человека в нужную атмосферу - например, когда наши студенты разбирают кейс с пожаром на производстве, специально созданные для этой симуляции картинки передают слушателям нужное настроение.

Визуализация сценариев
Визуализация сценариев

Создание серий изображений в едином стиле для оформления программ

Новые инструменты делают возможным более сложное и «осязаемое» оформление программ. ИИ быстро создает 3D-объекты и экономит много времени, поскольку объемные изображения достаточно сложно рисовать вручную.

Пример: скульптура и барельеф
Пример: скульптура и барельеф

Еще пару месяцев назад новичкам, которые только начинали общаться с виртуальными агентами, не так просто было создать при помощи нейросети серию картинок в одном стиле. Сейчас это перестало быть проблемой, поскольку появились автоматические фильтры. Новые инструменты, которые автоматизируют ручную работу, появляются очень быстро, поэтому важно следить за новинками и пробовать разные сервисы.

Одна из целей, которые стоят перед нашими дизайнерами, – создание похожих друг на друга объектов
Одна из целей, которые стоят перед нашими дизайнерами, – создание похожих друг на друга объектов

ИИ иногда формирует такие интересные варианты, которые трудно создать в своем воображении.

Генерация сложных коллажей

Еще один пример использования ИИ – оформление спецпроектов коллажами для оформления съемочных студий.

Пример: многослойный коллаж из бумажных открыток
Пример: многослойный коллаж из бумажных открыток

Здесь продемонстрировано сложное материальное оформление: создавать подобные фоны вручную было бы более трудозатратно и долго. Придумывать креативные идеи для коллажей тоже достаточно сложно, поэтому можно сказать, что данная функция открывает новые возможности для производства уникальных визуальных материалов.

Достройка изображений и видео до нужных пропорций

Многие функции на основе ИИ появляются в давно существующих программах. Например, Generative Fill, встроенный в 2023 году в Adobe Photoshop, использует нейросеть Adobe Firefly для автоматического совмещения перспективы, освещения и стилистики картинки. С помощью этого инструмента можно удалять ненужные объекты или добавлять новые, расширять границы изображения, а также редактировать или создавать фоны к фотографиям. Теоретически с этими задачами может справиться любой дизайнер, работающий в Photoshop.

С помощью Generative Fill мы достраиваем вертикальные или квадратные снимки с телефона до размера слайда:

Пример достраивания фото до нужного соотношения сторон
Пример достраивания фото до нужного соотношения сторон

Внизу показаны исходники – самые обычные фотографии со смартфона, а вверху – расширенный при помощи нейросети результат.

Примерно так же с помощью ИИ можно расширять локацию видеосъемки.

Здесь ИИ преобразил пространство: одна из реальных локаций Кампуса СКОЛКОВО стала выглядеть немного иначе, появилась дорисованная лестница в небо. И подобных вариантов использования нейросети в зависимости от цели проекта может быть много.

Создание цифровых персонажей: генерация облика и голоса

Для производства видео мы пока обращаемся к ИИ не так часто, но потенциал у этого направления тоже большой. Один из примеров – это создание нейроспикеров.

Такой исторический персонаж делается всего за несколько секунд. Нейросеть создает для него не только облик, но и голос. Использовать персонажа можно для аудио или для видео с говорящей головой.

Простые видео из движущихся картинок

Техника создания таких видео довольно простая: по сути, нужно создать набор фотографий и задать им небольшое движение, после чего наложить звук и закадровый голос. Этот прием мы используем с той же целью, что и предыдущие, – для погружения в образовательные кейсы. «Разводной мост» – это знакомый многим пример нашего коллеги Пьера Касса. Картинки для него сгенерированы в нейросети MidJourney, а видеомонтаж сделан в DaVinci Resolve.

История построена на узнаваемых персонажах из творчества Гильермо дель Торо. Спецэффекты побуждают студентов видеть и ощущать этот кейс по-другому.

Еще один ролик с движущимися картинками, сделанными при помощи MidJourney, – образовательный кейс «Парадокс Абилина». Это одно из проявлений феномена группового мышления, так называемая коллективная ошибка. Явление заключается в том, что группа людей в результате обсуждения принимает неоптимальное решение, противоречащее возможному выбору любого из ее членов из-за их нежелания спорить и стремления сохранить гармонию в коллективе. Здесь мы, взяв за основу известных актеров, создали четверых персонажей в узнаваемом стиле художника Нормана Роквелла, который рисовал американскую провинцию. Одна из героинь – это состаренная Дайан Китон.

Над этим роликом работали два человека: менеджер/дизайнер и видеомонтажер. Без нейросети видео делали бы те же самые люди, но процесс занял бы намного больше времени. Раньше такую работу мы бы выполнили примерно за две недели, а сейчас справились с задачей за три дня.

Генерация трейлеров и других полноценных видеороликов

Теперь перейдем к примерам, где мы из картинок формируем уже движущиеся видео. Ниже продемонстрирован ролик про три идеи для бизнеса в Китае, сделанный для нашей программы MBA. Участники должны были погрузиться в эти кейсы, изучить их, составить прогнозы и сделать выводы.

Здесь разговор идет одновременно про три кейса. Это вводный ролик, который направлен на то, чтобы студенты заинтересовались и принимали участие. Видео получилось динамичным, похожим на кинотрейлер, оно сразу погружает слушателей в определенное настроение.

Здесь тоже имеет смысл оценить «как было» и «как стало»: раньше без помощи ИИ можно было бы снять и смонтировать подобное полутораминутное видео примерно за месяц. Это достаточно сложная задача: выбор и подготовка локаций, подбор актеров, сама съемка, цветокоррекция и так далее. Благодаря нейросетям у нашей команды из трех человек на выполнение этой задачи ушла одна неделя. Но нужно учитывать, что такие сроки возможны только при наличии специалистов, которые умеют работать одновременно с несколькими разными инструментами на основе ИИ.

Создание игры

В марте мы запустили масштабный проект – игру в космическом стиле. Для неесозданы десятки иллюстраций и видео. Это большая серьезная работа, результат которой уже смогли оценить участники одного из потоков программы MBA.

Как мы при помощи ИИ создаем визуалы для обучения студентов
Как мы при помощи ИИ создаем визуалы для обучения студентов

Нейросети будущего

Возможности ИИ однозначно будут расширяться и дальше. Компания OpenAI анонсировала выход SORA, мощного генератора видео длиной до минуты. Пока данной функцией может пользоваться только выбранная группа тестировщиков. На созданных примерах видно, как нейросеть додумывает пространство и движение картинки на основании имеющихся у нее данных об объектах и фоне. Вероятно, SORA даст новый толчок для генерации подобных высококачественных видео.

Ролик, демонстрирующий возможности SORA.

В OpenAI утверждают, что запрос для этого видео звучал так: «Несколько гигантских мамонтов идут по заснеженному лугу, их длинный мех слегка развевается на ветру. На фоне — заснеженные деревья и живописные горы вдали. Полуденный свет с расплывчатыми облаками и солнце создают теплое свечение, вид с низкой камеры потрясает, захватывая большое мохнатое млекопитающее в движении в высоком качестве.»

Также в интернете можно посмотреть и другие примеры от разработчиков SORA: сражающиеся в чашке кофе пиратские корабли, плывущие по воздуху между зданий киты, идущая по Токио стильная женщина, трейлер к несуществующему фильму и живописные пейзажи времен Золотой лихорадки в Северной Америке, как будто бы снятые с дрона.

Так или иначе пока вмешательство человека в процесс производства визуального контента довольно большое, но не исключено, что технологии позволят свести участие людей в этой работе к минимуму. Но это же, на мой взгляд, значит, что для режиссёров, сценаристов, дизайнеров найдутся другие задачи, они точно без работы не останутся.

3 комментария

интересный материал!

1
Ответить

Невероятно круто получается! Назовите, пожалуйста, все нейросети, в которых вы работаете?

1
Ответить

Здравствуйте, Ника! В основном это ChatGPT, Midjourney, DALL-E 3, D-ID, Adobe Firefly, OpenAI SORA 🙌🏼

1
Ответить