Как мы при помощи ИИ создаем визуалы для обучения студентов

Как при помощи нейросетей в «Школе Сколково» создается визуальный контент для образовательных программ, рассказывает Вячеслав Крискевич, наш директор по мультимедиа.

По статистике, визуальный контент воспринимается мозгом в 60 000 раз быстрее, чем текст. В среднем человек запоминает 65% увиденного, 20% прочитанного и 10% услышанного. Это явление называется эффект превосходства образа.

Чтобы обучение на программах было эффективнее, мы активно внедряем визуальный контент в образовательные процессы Школы. Новые технологии, позволяющие создавать иллюстрации и видео совместно с ИИ, помогают нам экономить время и дают большое пространство для развития и экспериментов.

Нейросети не только генерируют изображения и видео, но и помогают обрабатывать исходные материалы. При работе с оформлением презентаций, программ и спецпроектов, а также при создании видеороликов и игр мы используем разные возможности ИИ:

  • создание картинок и видео с нуля;
  • формирование серии изображений в едином стиле;
  • генерирование коллажей;
  • создание фонов для съемок;
  • анимация изображений;
  • создание нейроспикеров;
  • достройка изображений и видео до нужных пропорций;
  • добавление новых объектов на фотографию или видео и удаление «лишних»;
  • генерация голоса.

Формирование картинок с нуля для презентаций и спецпроектов

Самые простые примеры использования нейросетей для оформления образовательных проектов – это создание иллюстраций для презентаций. При производстве картинок наша дизайн-команда экспериментирует с разными нейросетями. Чтобы результат соответствовал ожиданиям, мы специально обучаем ее работе с разными инструментами, в том числе с Google Colab – площадкой для разработки и выполнения программного кода в облаке. Одна из задач, которые можно решить с помощью сервиса – создание и применение стилей.

Какие-то инструменты мы используем регулярно, другие – реже. С тех пор как генератор изображений DALL-E стал частью ChatGPT, некоторые запросы можно формулировать обычным языком, без применения промптов, которые нужно прописывать, например, в Midjourney. Теперь картинки в ChatGPT создаются через диалог дизайнера с нейросетью. Результаты получаются достаточно интересные, причем иногда этот виртуальный агент обрабатывает запрос намного точнее, чем Midjourney.

Результаты по запросу «знак вопроса металлический»: слева – в Midjourney, справа – в ChatGPT

Хотя сейчас Midjourney обрабатывает запросы лучше, чем раньше:

«Знак вопроса металлический» в новой версии Midjourney

Изображения, сделанные ИИ, помогают подчеркнуть тему презентации и задать направление разговора. Стилистика изображений отличается в зависимости от темы презентации и желаемого эффекта.

Примеры визуалов в разной стилистике

Нередко мы создаем изображения из заготовок, сделанных совместно с нашими профессорами. Многие из них, как и руководители наших программ, быстро осваивают новые технологии вместе с нами.

ИИ позволяет создать не только обложки, перебивки и фоны слайдов, но и метафорические иллюстрации к тексту. Подобные иллюстрации помогают погрузить человека в нужную атмосферу - например, когда наши студенты разбирают кейс с пожаром на производстве, специально созданные для этой симуляции картинки передают слушателям нужное настроение.

Визуализация сценариев

Создание серий изображений в едином стиле для оформления программ

Новые инструменты делают возможным более сложное и «осязаемое» оформление программ. ИИ быстро создает 3D-объекты и экономит много времени, поскольку объемные изображения достаточно сложно рисовать вручную.

Пример: скульптура и барельеф

Еще пару месяцев назад новичкам, которые только начинали общаться с виртуальными агентами, не так просто было создать при помощи нейросети серию картинок в одном стиле. Сейчас это перестало быть проблемой, поскольку появились автоматические фильтры. Новые инструменты, которые автоматизируют ручную работу, появляются очень быстро, поэтому важно следить за новинками и пробовать разные сервисы.

Одна из целей, которые стоят перед нашими дизайнерами, – создание похожих друг на друга объектов

ИИ иногда формирует такие интересные варианты, которые трудно создать в своем воображении.

Генерация сложных коллажей

Еще один пример использования ИИ – оформление спецпроектов коллажами для оформления съемочных студий.

Пример: многослойный коллаж из бумажных открыток

Здесь продемонстрировано сложное материальное оформление: создавать подобные фоны вручную было бы более трудозатратно и долго. Придумывать креативные идеи для коллажей тоже достаточно сложно, поэтому можно сказать, что данная функция открывает новые возможности для производства уникальных визуальных материалов.

Достройка изображений и видео до нужных пропорций

Многие функции на основе ИИ появляются в давно существующих программах. Например, Generative Fill, встроенный в 2023 году в Adobe Photoshop, использует нейросеть Adobe Firefly для автоматического совмещения перспективы, освещения и стилистики картинки. С помощью этого инструмента можно удалять ненужные объекты или добавлять новые, расширять границы изображения, а также редактировать или создавать фоны к фотографиям. Теоретически с этими задачами может справиться любой дизайнер, работающий в Photoshop.

С помощью Generative Fill мы достраиваем вертикальные или квадратные снимки с телефона до размера слайда:

Пример достраивания фото до нужного соотношения сторон

Внизу показаны исходники – самые обычные фотографии со смартфона, а вверху – расширенный при помощи нейросети результат.

Примерно так же с помощью ИИ можно расширять локацию видеосъемки.

Здесь ИИ преобразил пространство: одна из реальных локаций Кампуса СКОЛКОВО стала выглядеть немного иначе, появилась дорисованная лестница в небо. И подобных вариантов использования нейросети в зависимости от цели проекта может быть много.

Создание цифровых персонажей: генерация облика и голоса

Для производства видео мы пока обращаемся к ИИ не так часто, но потенциал у этого направления тоже большой. Один из примеров – это создание нейроспикеров.

Такой исторический персонаж делается всего за несколько секунд. Нейросеть создает для него не только облик, но и голос. Использовать персонажа можно для аудио или для видео с говорящей головой.

Простые видео из движущихся картинок

Техника создания таких видео довольно простая: по сути, нужно создать набор фотографий и задать им небольшое движение, после чего наложить звук и закадровый голос. Этот прием мы используем с той же целью, что и предыдущие, – для погружения в образовательные кейсы. «Разводной мост» – это знакомый многим пример нашего коллеги Пьера Касса. Картинки для него сгенерированы в нейросети MidJourney, а видеомонтаж сделан в DaVinci Resolve.

История построена на узнаваемых персонажах из творчества Гильермо дель Торо. Спецэффекты побуждают студентов видеть и ощущать этот кейс по-другому.

Еще один ролик с движущимися картинками, сделанными при помощи MidJourney, – образовательный кейс «Парадокс Абилина». Это одно из проявлений феномена группового мышления, так называемая коллективная ошибка. Явление заключается в том, что группа людей в результате обсуждения принимает неоптимальное решение, противоречащее возможному выбору любого из ее членов из-за их нежелания спорить и стремления сохранить гармонию в коллективе. Здесь мы, взяв за основу известных актеров, создали четверых персонажей в узнаваемом стиле художника Нормана Роквелла, который рисовал американскую провинцию. Одна из героинь – это состаренная Дайан Китон.

Над этим роликом работали два человека: менеджер/дизайнер и видеомонтажер. Без нейросети видео делали бы те же самые люди, но процесс занял бы намного больше времени. Раньше такую работу мы бы выполнили примерно за две недели, а сейчас справились с задачей за три дня.

Генерация трейлеров и других полноценных видеороликов

Теперь перейдем к примерам, где мы из картинок формируем уже движущиеся видео. Ниже продемонстрирован ролик про три идеи для бизнеса в Китае, сделанный для нашей программы MBA. Участники должны были погрузиться в эти кейсы, изучить их, составить прогнозы и сделать выводы.

Здесь разговор идет одновременно про три кейса. Это вводный ролик, который направлен на то, чтобы студенты заинтересовались и принимали участие. Видео получилось динамичным, похожим на кинотрейлер, оно сразу погружает слушателей в определенное настроение.

Здесь тоже имеет смысл оценить «как было» и «как стало»: раньше без помощи ИИ можно было бы снять и смонтировать подобное полутораминутное видео примерно за месяц. Это достаточно сложная задача: выбор и подготовка локаций, подбор актеров, сама съемка, цветокоррекция и так далее. Благодаря нейросетям у нашей команды из трех человек на выполнение этой задачи ушла одна неделя. Но нужно учитывать, что такие сроки возможны только при наличии специалистов, которые умеют работать одновременно с несколькими разными инструментами на основе ИИ.

Создание игры

В марте мы запустили масштабный проект – игру в космическом стиле. Для неесозданы десятки иллюстраций и видео. Это большая серьезная работа, результат которой уже смогли оценить участники одного из потоков программы MBA.

Нейросети будущего

Возможности ИИ однозначно будут расширяться и дальше. Компания OpenAI анонсировала выход SORA, мощного генератора видео длиной до минуты. Пока данной функцией может пользоваться только выбранная группа тестировщиков. На созданных примерах видно, как нейросеть додумывает пространство и движение картинки на основании имеющихся у нее данных об объектах и фоне. Вероятно, SORA даст новый толчок для генерации подобных высококачественных видео.

Ролик, демонстрирующий возможности SORA.

В OpenAI утверждают, что запрос для этого видео звучал так: «Несколько гигантских мамонтов идут по заснеженному лугу, их длинный мех слегка развевается на ветру. На фоне — заснеженные деревья и живописные горы вдали. Полуденный свет с расплывчатыми облаками и солнце создают теплое свечение, вид с низкой камеры потрясает, захватывая большое мохнатое млекопитающее в движении в высоком качестве.»

Также в интернете можно посмотреть и другие примеры от разработчиков SORA: сражающиеся в чашке кофе пиратские корабли, плывущие по воздуху между зданий киты, идущая по Токио стильная женщина, трейлер к несуществующему фильму и живописные пейзажи времен Золотой лихорадки в Северной Америке, как будто бы снятые с дрона.

Так или иначе пока вмешательство человека в процесс производства визуального контента довольно большое, но не исключено, что технологии позволят свести участие людей в этой работе к минимуму. Но это же, на мой взгляд, значит, что для режиссёров, сценаристов, дизайнеров найдутся другие задачи, они точно без работы не останутся.

0
3 комментария
Екатерина Андреевa

интересный материал!

Ответить
Развернуть ветку
Ника Тинькова

Невероятно круто получается! Назовите, пожалуйста, все нейросети, в которых вы работаете?

Ответить
Развернуть ветку
Школа управления Сколково
Автор

Здравствуйте, Ника! В основном это ChatGPT, Midjourney, DALL-E 3, D-ID, Adobe Firefly, OpenAI SORA 🙌🏼

Ответить
Развернуть ветку
0 комментариев
Раскрывать всегда