Прогноз популярности фильмов и сериалов при помощи машинного обучения

Студия Inventale на основе данных IMDb решила выявить факторы успеха будущих проектов.

Снять культовый сериал непросто. Особенно в период пика популярности сериалов во всем мире — конкуренция остра как никогда, а на кону огромные бюджеты. Тем не менее, если подойти с научной точки зрения, сорвать куш вполне реально.

В нашей компании помимо разработки основного продукта есть отдельные проекты, где ребята занимаются реализацией нестандартных, на первый взгляд, задач. Вернее, вполне жизненными современными задачами через машинное обучение (МО и ИИ).

К примеру, однажды клиент, крупный медийный канал, производящий ТВ- и видеоматериалы и пользующийся нашим основным продуктом, поинтересовался, сможем ли мы предсказать популярность сериала на этапе его создания. При прогнозе продажи и распределения рекламы мы работаем с большими данными и учитываем много событий и корректировок, поэтому вопрос превратился в занятный квест.

Сейчас я попробую раскрыть технический рецепт коммерчески успешных сериалов. Взять временную оценку популярности того или иного жанра, сформировать оптимальный набор сеттингов, смешать со взвешенными коэффициентами по актёрам и сценариям для всех видов жанров на все времена, поперчить соцдем-коэффициентами восприятия актеров, сгенерировать оптимальное сочетание.

Добавить щепотку магии и сервировать хорошей подачей блогеров. А также не забыть учесть своевременную подачу к сезону сериалов с коррекцией на внешние события. Давайте разберем как отбирались «ингредиенты» для проверки, а именно, каким образом появлялись наборы признаков для проверки.

Для любого эксперимента нужны данные, желательно открытые. Оптимальным для нас вариантом стал датасет рейтингов IMDb, на основе которого мы выискивали интересные корреляции и обучали алгоритм предсказанию популярности нового сериала (машинное обучение на алгоритме Random Forest).

Немного технических подробностей

Для нашего исследования мы взяли непредобработанный семпл IMDb с Kaggle, а все исходные данные с сайта IMDb. Это дало нам больше данных для обучения нашего алгоритма. Все данные были сведены и предобработаны в один большой датасет размером 418 334 кинопроизведения (или 34 427 319 строк нормализованных данных) против 5000 на Kaggle.

Следующим этапом стало обучение различных комбинаций Random Аorest на стеке R и H2O. Оптимальным набором оказалась комбинация из 20 деревьев решений глубиной до десяти ветвей. Для модели определились 26 основных параметров, такие как актёры, сценаристы, режиссёры, жанры, рейтинги.

Прогноз популярности фильмов и сериалов при помощи машинного обучения

Ещё мы проанализировали:

  • жанры и сеттинги;
  • актёрский и режиссерский состав;
  • корреляция между годом выпуска и рейтингом фильма или сериала;
  • популярность жанра во времени;
  • рейтинги актёров, сценаристов, режиссёров в зависимости от жанра;
  • соцдем-восприятие.

Для того чтобы корректно оценивать эти параметры, мы провели аналитику датасета IMDB с дополнительной внешней информацией.

Жанр

Жанр — это самый первый признак, который хочется проверить. Для кинопроектов немаловажно учитывать еще и сеттинг, так как этот признак также влияет на популярность в современных сериалах и компьютерных играх. Примеры сеттингов: фэнтези, научная фантастика, киберпанк, стимпанк, дикий запад, зомби и так далее.

Сеттинги можно было бы отнести к поджанрам, но мы выделим их как обособленные жанры, поскольку у каждого сеттинга есть свой зритель. Например, у фэнтези — своя, как правило, немногочисленная аудитория. Исключение — сериал «Игра престолов», который привлёк к экранам людей, далёких от подобной тематики, и получил высокие рейтинги.

Например в описаниях к «Игре престолов» можно встретить следующий набор жанров и сеттингов:

Прогноз популярности фильмов и сериалов при помощи машинного обучения

На IMDb сериал отнесли к жанрам экшн, приключения и драма без учёта совмещённого набора сеттингов. Таком образом, часть информации в датасете из-за обобщения данных была утеряна. В нашем эксперименте мы приняли это допущение, но дополнение базы более разнообразными данными держали в списке доработок.

На диаграмме ниже представлены рейтинги и жанры отдельно для фильмов и сериалов.

Сериалы
Сериалы
Фильмы
Фильмы

Как видно, средний рейтинг сериалов выше, чем средний рейтинг полнометражных фильмов. За последнее время киностудии стали гораздо серьёзнее относятся к качеству этого типа контента. Также можно предположить, что интерес вызван более существенной монетизацией подобного контента.

Год выпуска и рейтинги

Проследим, как с 1980 года менялись рейтинги кинофильмов в целом.

Прогноз популярности фильмов и сериалов при помощи машинного обучения
Прогноз популярности фильмов и сериалов при помощи машинного обучения

При первом же взгляде на графики можно заметить, что средний кинорейтинг растёт. Вместе с тем на протяжении практически всего периода рассмотрения всё больше полнометражных картин получают низкие оценки, в то время как, по данным второй гистограммы, индустрия телесериалов смогла преодолеть кризис 2000-х и стабильно наращивать популярность среди зрителей.

Отдельный вопрос представляет соотношение рейтинга с коммерческим успехом. Долгое время ставку делали на полнометражные фильмы, а сериалы не рассматривались как полноценные творческие и финансово выгодные проекты.

Но в любой истории происходит переломный момент. Поворот в индустрии совершил Lost (8,4 балла на IMBd, 2004–2010 годы), который стал культовым и продемонстрировал, что сериал тоже может быть выгодным проектом. В эпохе «после Lost» сериалы не знают прежнего недостатка в зрителях и финансировании.

Однако не все сериалы одинаково успешны. Многие проекты были высоко оценены за режиссуру, актёрское мастерство или спецэффекты, но оказались закрыты из-за слабой коммерческой выгоды. Например, сериал «Светлячок» 2002–2003 годов (оценка на IMDb — девять баллов) не нашёл своего продолжения. В то же время существуют долгоиграющие сериалы, чьё качество меняется год от года, но зрительская симпатия и обсуждения поддерживают общую популярность.

Поэтому в рамках нашей задачи мы будем учитывать как качество контента (рейтинг IMDb), так и коммерческий успех по обсуждению кинофильма (число комментариев).

IMDb
IMDb

Популярность жанра во времени

В процессе исследования мы обнаружили, что в отдельные периоды времени выделялись лидирующие по популярности жанры. Так, в 1990-е в каждом доме смотрели комедии. На смену им пришли триллеры и мелодрамы, затем — ужасы и детективы. В тренд вошли мюзиклы.

После выхода «Аватара» появился целый ряд работ с 3D-визуализацией. Как и в любых модных веяниях, можно увидеть периодичность популярности во времени. Как пример — комедии в знакомых изображениях:

Сводка IMDb
Сводка IMDb

Можно заметить, что выход на экраны сериалов, считающихся культовыми, совпал по времени с поворотами в предпочтениях публики. Из чего мы делаем вывод, что попадание в свежие тренды откликается высокими рейтингами и многочисленными откликами.

Сериалы
Сериалы
Фильмы
Фильмы

Новые жанры вместе с вниманием аудитории открывают дополнительные финансовые возможности. Появляются новые лица, со скамейки запасных возвращаются известные имена.

За большинством актёров в глазах зрителей закрепляются определённые амплуа, которые влияют на их жанровое «меню» и личные рейтинги. Актёр, высоко оценённый в комедии, не всегда будет хорошо воспринят в драме или в фэнтезийных сюжетах.

Однако этот же актер своей харизмой и ассоциативным рядом может создать особое настроение в кинопроекте своего жанра. К примеру, Энтони Хопкинс — признанная легенда драмы и триллера.

Прогноз популярности фильмов и сериалов при помощи машинного обучения

В качестве другого примера рассмотрим комедийного актера Адама Сэндлера. Популярность и рейтинги Адама Сэндлера по жанрам и времени:

В сериалах
В сериалах
В кинофильмах
В кинофильмах

Существует также дополнительная финансовая выгода в привлечении новичков своей профессии и временно невостребованных известных актеров. Тем не менее на пике популярности какого-либо тренда бюджеты проекта значительно выше. Раздутые гонорары незаменимых героев могут даже губительно влиять на продолжительность кинопроекта.

Соцдем-восприятие

Рейтинги и обсуждения отображают оценку кинопроекта публикой и общее медийное присутствие. Количественные значения могут рассказать о многом, но смысловой анализ комментариев даёт куда больше полезной информации.

Корректнее рассматривать характеристики актёров по ассоциативным рядам, тому, к каким жанрам и сеттингам их чаще приписывают. Нелишней представляется оценка количества положительных и отрицательных отзывов как об актерах, так и о сценаристах и режиссерах.

Запуск сериала

Вспомните, как вы выбирали последний сериал для просмотра. Возможно, на вас повлияли статьи или реклама, рейтинги и топы, рекомендация друга или блогера-обзорщика. Тренды современности таковы, что зритель любит блоги, личный опыт и обзоры. Хорошо и вовремя освещённый сериал получает бонусные очки на старте.

Стоит учесть и разницу в подходах каналов. Например HBO, FX, BBC борются за эфирное время, в то время как Netflix работает с подписками.

Бывает, случаются внешние события, которые предсказать крайне сложно. Например, забастовка Гильдии сценаристов США в конце 2007 года. В тот год происшествие отразилось на продолжительности и сроках многих сериалов.

Тем не менее есть внешние факторы, которые нужно учитывать постоянно:

  1. Сезонность. Лето — не время для запуска новых сериалов. Лето — пора блокбастеров.
  2. Конкуренция крупных проектов и сериалов между каналами.
  3. Конкуренция с большими запланированными событиями. Никто не будет смотреть новый сериал во время Суперкубка или Чемпионата мира по футболу.

Этими нехитрыми маркетинговыми приемами уже активно пользуются крупные каналы. К науке, машинному обучению всё чаще прибегают в разных сферах. Ранее Netflix уже проделал такую штуку с перезапуском сериала «Карточный домик» с Кевином Спейси.

Впрочем, неизвестно, смогли ли они создать алгоритм, или это было разовое исследование. Пока факты о существовании комплексной программы по подбору всех составляющих кинопродукта и прогнозированию неизвестны.

И всё-таки сериалы — это искусство, а не точная математическая модель. Здесь сотни и тысячи взаимосвязей, пресловутая «химия». Нельзя на основе грубой статистики взять наиболее популярный жанр, наиболее популярного актера в этом жанре, удачливого режиссера, смешать и надеяться получить шедевр.

И всё же. Алгоритмы машинного обучения способны оценить все возможные комбинации и предположить вероятность их успешного сочетания, равно как и влияние каждого маленького успеха или неудачи на общий итог.

Прогноз вместо следования за модой

Вопрос угадывания сеттинга, который «взлетит», едва ли не ключевой в успехе культового сериала. Успех «Игры престолов» вдохновил десятки шоу в жанре средневековой или альтернативной истории или «тёмного фэнтези». Точно так же, как раньше стимулировали соответствующую тематику «Клан Сопрано», «Друзья» или «Баффи».

Однозначного рецепта, позволяющего угадать следующий хит, не существует. Но по сопутствующим факторам всё же можно сделать те или иные догадки: популярность тематики книг, широкоформатных фильмов, компьютерных игр и прочих социокультурных источников хотя бы опосредованно позволяют оценить общий запрос публики.

Оно живое! Живое!

Нам удалось создать алгоритм, с помощью которого можно предугадать популярность нового кинопроекта. Back-test мы провели на более чем 80 тысячах кинопроектов. Распределение ошибки нашего прогноза — на графике ниже:

<p>По оси X — величина ошибки от реального рейтинга IMDb, по оси Y — количество сериалов и фильмов</p>

По оси X — величина ошибки от реального рейтинга IMDb, по оси Y — количество сериалов и фильмов

Рассмотрим частный случай сериал «Теория большого взрыва». Наш алгоритм предсказывает коммерческий успех сериала на основании исторических данных. Можно смело сказать, что, планируя запуск «Теории большого взрыва» в 2007 году с прогнозом нашего алгоритма, создатели были бы увереннее в популярности и востребованности проекта.

Относительно цикличной динамики популярности отдельных жанров, «Теория большого взрыва» — наглядный пример. Бывалые сценаристы ситкомов Чак Лорри и Билл Прэди подоспели к очередному подъёму интереса к комедиям и открыли молодые таланты.

Сериал превзошел все ожидания, и съёмки продолжались до недавнего времени. К 2018 году съёмочный бюджет и гонорары актеров возросли настолько, что стали одной из причин закрытия сериала. Это также соответствует нашим выводам о взлёте популярности и финансовой выгоде на начальном этапе и больших финансовых затратах на гребне интереса.

IMDb
IMDb

По статистике, 22% всех кинобюджетов формирует 78% всего популярного контента. Сложность создания коммерчески успешного сериала упирается не столько в деньги, сколько в умение своевременно попасть в цель с нужной комбинацией актеров.

Уже сейчас построенная модель позволяет предсказывать рейтинг с вероятностью более 85% и разбросом не более 10% .

Наш алгоритм не является идеальным, и многое нуждается в доработке, данные стоит обогатить, но уже на этом этапе можно говорить о реальной возможности применения системного подхода для прогнозирования успешности проектов. Даже в сфере кино.

Если вы хотите запустить съёмку культового проекта, тогда пора считать цифры!

77
2 комментария

неужели МО использовали для чего-то полезного!?)

Для полного метра это уже давно сделано; странно, что в статье об этом не написано.