Преодоление детектора ошибок: как нейросети помогают расширить границы творчества
Творчество не знает границ, и современные технологии помогают нам расширять эти границы еще больше. В этой статье я хочу поделиться опытом создания интерактивно-звуковой постановки для детей от 5 до 9 лет. Команда проекта успешно объединила искусственный интеллект, тактильные интерфейсы и многоканальный звук, чтобы преодолеть ограничения нашего восприятия, стимулировать креативность и создать уникальный художественный опыт. Меня зовут Юрий Дидевич, я медиахудожник, автор и вдохновитель проекта «Добрая сказка».
История создания и команда проекта
Проект «Добрая сказка» родился на пересечении работы двух лабораторий в 2021 году:
- Лаборатория «Нейрокультура»: до 2022 года занималась разработкой интерактивных технологий для детей с ограниченными возможностями здоровья, направленных на их социокультурную адаптацию и развитие творческого потенциала.
- Лаборатория новых медиа Александринского театра: исследует современные технологии в театральном пространстве.
Объединив экспертизу обеих команд, мы создали интерактивную звуковую сказку с использованием нейросети и тактильного интерфейса. Проект стал экспериментом в области симбиотического творчества в театре, где искусственный интеллект выступает в роли соавтора, а зрители влияют на развитие сюжета. Состав нашей команды:
- GPT-2: нейросеть, выступающая в роли автора текста сказки.
- Алина Шклярская: драматург, адаптировавшая сгенерированный текст для постановки.
- Даниил Коронкевич: композитор, создавший музыкальное оформление.
- Валерий Белов: видеохудожник, отвечающий за визуальную часть.
- Анастасия Брюханова: организатор и куратор проекта.
Детектор ошибок: друг или враг творчества?
В 1968 году нейрофизиолог Наталья Бехтерева открыла феномендетектора ошибок— механизма в мозге, реагирующего на несоответствие событий привычным моделям. Он оптимизирует деятельность мозга, создавая стереотипы поведения и защищая нас от ошибок.Однако этот механизм может ограничивать творчество, сковывая возможности генерировать новые идеи. Бехтерева предполагала, что у творческих людей детектор ошибок функционирует иначе, позволяя им выходить за рамки стереотипов.Как же преодолеть эти ограничения и стимулировать креативность без вреда для здоровья?
Нейросети как инструмент преодоления ограничений
Мы обратились к искусственному интеллекту и нейросетям, способным генерировать оригинальные идеи, выходящие за рамки привычного мышления. НейросетьGPT-2стала нашим соавтором, создавая массив микроповествований — фрагментов текста, из которых складывается сюжет сказки.
Описание процесса fine-tuning
Сбор данных: Я собрал обширный корпус классических сказок русских и зарубежных авторов, включая произведения Пушкина, Перро, братьев Гримм и других. Это обеспечило разнообразие стилей и сюжетов для обучения модели.Подготовка данных: Тексты были очищены от лишних символов и ошибок, а также отформатированы для корректной подачи в модель. Для автоматизации этого процесса использовались скрипты наPython.Настройка модели:
- Выбор платформы: Я использовал библиотеку Hugging Face Transformers для работы с GPT-2.
- Параметры обучения: Настроил гиперпараметры модели, включая скорость обучения, размер батча и количество эпох, учитывая специфику русского языка и сказочного жанра.
- Аппаратное обеспечение: Обучение проводилось на внешнем графическом ускорителе NVIDIA RTX 2080 Ti.
Обучение:
- Используя фреймворк PyTorch, я запустил процесс обучения модели.
- Несмотря на мощность RTX 2080 Ti, обучение заняло несколько дней из-за объёма данных и сложности модели.
- Для ускорения процесса были применены оптимизации, такие как использование mixed precision training.
Проверка и корректировка:
- После каждой эпохи обучения генерировались тестовые тексты.
- Я оценивал их на связность, соответствие жанру и отсутствие логических ошибок.
- При необходимости вносил коррективы в параметры модели и повторял обучение.
Однако модель получилась не самой удачной, и в ее работе было много галлюцинаций — несоответствий и нелогичностей в сгенерированном тексте. Это придало определённый неповторимый стиль созданным текстам, добавив элемент сюрреализма и неожиданности. В контексте сказочного жанра это оказалось даже преимуществом, придавая истории особую атмосферу загадочности и волшебства. Используемые программные средства и особенности:
- Python 3.7: основной язык программирования для обработки данных и обучения модели.
- Hugging Face Transformers: библиотека для работы с моделями GPT-2.
- PyTorch: фреймворк для глубокого обучения.
- CUDA Toolkit и cuDNN: библиотеки для ускорения вычислений на GPU.
- Jupyter Notebook: для интерактивного кодирования и отладки.
- MAX/MSP и TouchDesigner: для обработки и визуализации сигналов.
- Ableton Live и Max for Live: для создания и управления звуковыми эффектами, а также взаимодействия между программами.
- C++ и Python: для разработки программ обработки сигналов и интеграции различных компонентов системы.
- Регулировка температуры и top-k sampling: для контроля разнообразия и качества генерируемого текста.
- Обработка естественного языка (NLP): применение токенизации, нормализации и других техник.
В результате мы получили модель, способную генерировать уникальные микроповествования с особым стилем, которые стали основой нашего проекта.
Научное обоснование
В 2018 году ученые из Гарварда под руководством Роджера Бити изучили нейронные основы креативности, выявив взаимодействие трёх нейронных сетей:
- Сеть пассивного режима работы мозга (DMN) — отвечает за воображение.
- Экзекутивная сеть — контролирует осознанность и оценку идей.
- Салиентная сеть — переключает внимание между сетями.
Взаимодействие с нейросетью GPT-2, особенно с её неожиданными и нестандартными генерациями, стимулирует эти процессы, помогая преодолеть ограничения детектора ошибок.Симбиотическое творчествообъединяет интуицию человека с нестандартным “мышлением” ИИ.
Взаимодействие с тактильным интерфейсом «Нейротафл»
Я разработал тактильно-кинестетический интерфейс«Нейротафл»(от «нейро» и древнескандинавского «тафл» — «стол»). Этот интерактивный стол регистрирует действия пользователя в реальном времени.Технические детали:
- Аппаратная часть: сенсоры касания и движения, микроконтроллеры.
- Программная часть:C++ и Python: для разработки программ обработки сигналов и интеграции устройств.MAX/MSP: визуальная среда для обработки аудио- и MIDI-сигналов.TouchDesigner: платформа для создания интерактивной визуализации.Ableton Live + Max for Live: для создания и управления звуковыми эффектами, а также взаимодействия между программами.
- Связь между компонентами:OSC (Open Sound Control): протокол для передачи информации между программами.MIDI: для передачи музыкальных данных и управления параметрами звука.
Зритель, взаимодействуя с «Нейротафлом», влияет на выбор фрагментов текста, не создавая его напрямую. Это подобно«брошенному в пруд камню», меняющему направление сюжета.
Многоканальный звук и эмоциональная связь
Многоканальный звук — ключевое художественное средство «Доброй сказки». Он создаёт иммерсивную атмосферу, важную для всех зрителей, особенно для слепых и слабовидящих детей.Технические аспекты:
- Оборудование:Четыре канала окружающего звука: создают эффект полного погружения.Мощные сабвуферы: обеспечивают глубокие низкие частоты, усиливая эмоциональное воздействие.Громкоговорители внутри стола и над ним: добавляют дополнительные звуковые слои и эффекты.
- Программное обеспечение:Ableton Live: цифровая аудиостанция для создания и воспроизведения музыки.Max for Live: интеграция Max/MSP с Ableton Live для расширения функциональности.Плагины и эффекты: для обработки звука в реальном времени.
- Интеграция:Синхронизация: взаимодействие звука с действиями на «Нейротафле» и текстом GPT-2 через протоколы OSC и MIDI.Обработка в реальном времени: изменение звуковых параметров в зависимости от действий зрителей.
Звук не просто иллюстрирует текст, а создаёт самостоятельный эмоциональный слой, стимулируя когнитивные способности и воображение.
Синергия технологий
Комбинация «Нейротафла», уникальных текстов GPT-2 с её галлюцинациями и многоканального звука создаёт неповторимый интерактивный опыт. Зритель становится соавтором, а технология помогает преодолеть внутренние ограничения, стимулируя творчество.
Заключение
Проект «Добрая сказка» демонстрирует, как нейросети и современные технологии расширяют границы творчества, преодолевая ограничения нашего восприятия. Несмотря на технические сложности и несовершенства модели, неожиданные результаты работы нейросети придали особый шарм и оригинальность нашему проекту.Творчество не знает границ, и технологии помогают нам расширять эти границы ещё больше. Давайте использовать потенциал нейросетей и инновационных интерфейсов, чтобы создавать новые формы искусства, вдохновлять друг друга и делать мир более открытым и инклюзивным для всех.
Литература
- Бехтерева, Н. П. (1994). Мозг и разум человека. Наука.
- Beaty, R. E., et al. (2018). Robust Prediction of Individual Creative Ability from Brain Functional Connectivity. Proceedings of the National Academy of Sciences, 115(5), 1087–1092.
- Hugging Face Transformers: https://huggingface.co/transformers/
- PyTorch: https://pytorch.org/
- CUDA Toolkit: https://developer.nvidia.com/cuda-toolkit/
- MAX/MSP: https://cycling74.com/products/max/
- TouchDesigner: https://derivative.ca/
- Ableton Live: https://www.ableton.com/
- Max for Live: https://www.ableton.com/en/live/max-for-live/
Я приглашаю всех, заинтересованных в развитии творчества и инноваций, исследовать возможности симбиотического творчества. Вместе мы можем создавать проекты, вдохновляющие и объединяющие людей по всему миру.
Юрий Дидевич, медиа-художник, исполнитель, режиссер 2024 (с)