Как мы научили искусственный интеллект выбирать полезный контент в Tik Tok и YouTube?

У меня есть приятель, который увлекается искусственным интеллектом и всем, что с ним связано. Ну как увлекается – недавно он защитил диплом на эту тему в своем университете. У этого новоиспеченного специалиста уже давно чешутся руки и извилины в голове, чтобы применить свои знания в каком-нибудь проекте. Он постоянно спрашивает меня: «Есть что-нибудь для меня?». А я его все время кормлю обещаниями, но до реальных дел все не доходит – ну никак не могу я прикрутить ИИ к своим стартапам.

Недавно я и моя команда запустили новый стартап – социальная сеть для саморазвития Improver. Суть там простая – авторы (тренера, коучи, блогеры) выкладывают короткие видеоролики длинной до пяти минут с интересным и полезным контентом, а другие смотрят эти ролики и получают новые знания, навыки и информацию.

Почти как Тик Ток, только с полезным контентом и уникальным функционалом.

На стадии создания MVP мы столкнулись с проблемой курицы и яйца. MVP был уже готов, а вот контента, чтобы наполнить сервис не было. Мой партнер по проекту придумал, как решить эту проблему – он предложил сделать MVP на первое время в виде агрегатора контента из Тик Ток и Ютуб. Мне эта идея очень понравилась, и когда мы начали обсуждать, как мы будем это реализовывать, я вспомнил про своего приятеля. Я написал ему в Телеге «Давай созвонимся. Есть работенка для тебя.»

По телефону я объяснил ему, зачем нам нужен искусственный интеллект. В Тик Ток и Ютуб очень много роликов. Наша задача отобрать из них лишь те, что несут полезную информацию, которую можно использовать для саморазвития. Приятель сказал, что нет никаких проблем. Он напишет нейронную сеть, а потом мы ее обучим, как сортировать контент в Тик Ток и Ютуб. Искусственный интеллект будет выбирать аккаунты, анализировать их контент и отбирать нужные видеоролики. Все казалось очень простым и понятным. Но на практике оказалось несколько сложнее.

Проблема была в том, что есть очень много различных тем, которые будут полезны для саморазвития, но при этом еще больше контента, который вообще не несет никакой полезной информации. С другой стороны, любая тема может быть в той или иной степени полезна.

Как научить машину отделять один контент от другого и понимать, что можно использовать для саморазвития, а что нельзя?

Самый простой путь – просто перечислить темы и ключевые слова, которые нам подходят. С информацией о том, как быстро накачать кубики на животе или как научиться делать ботов для Телеграмм все понятно – это подойдет для саморазвития. А можно ли считать полезной информацию о том, как номер паспорта влияет на твою судьбу? Для кого-то эта информация тоже будет полезной. А что делать с контентом, который делают, так называемые, инфоцыгане?

В общем, нам пришлось в итоге разбить весь контент на определенные темы и ключевые слова по которым ИИ определял пригодность контента для нашего сервиса.

В процессе обучения мы скормили ИИ несколько тысяч роликов и составили для него специальный дополнительный алгоритм-подсказку, который по определенным параметрам позволял ему дать дополнительную оценку «полезности» того или иного ролика.

Например, такой «подсказкой» был тот факт, что если в аккаунте уже есть ролик, который можно считать «полезным», то высока вероятность того, что и остальные ролики из этого аккаунта тоже будут «полезными». Были также «подсказки», которые помогали ИИ избегать роликов или частей роликов, в которые была интегрирована реклама. В итоге, мы собрали базу из нескольких миллионов «полезных» роликов, но пока загрузили в Improver лишь ее малую часть, так как приходится согласовывать «перекачку» роликов с авторами контента.

На сколько правильно ИИ научился выбирать контент можно узнать, опробовав MVP нашего проекта по ссылке ниже. Буду рад, если напишите в комментариях обратную связь по контенту Improver.

improover.ru

improver