Как провалить ИИ-стартап

Это могла бы быть модная статья про то, как корпорации убивают стартапы, но суровая правда в том, что если вы нашли своих юзеров, раскрученные конкуренты спрашивают про оценку компании до релиза, на закрытой бете вам пишет Blizzard (Mkt cap $72B) и вообще идет активный такой движ, это всё ни разу не гарантия хоть чего-нибудь и все факапы только ваши. Многие люди пишут про успехи и дают интервью, мы в целом как люди вообще склонны учиться на ошибках выживших, у которых получилось. Я — не исключение, но кроме ошибок выживших мы можем учиться и на ошибках тех, кто не долетел.

Я расскажу про свой опыт неудавшейся компании с продуктом на нейронках и чему мы научились. Будет наша история, а так же про машинное обучение и экономику, погнали.

12 лет я работаю в разработке цифровых решений для креативных индустрий: 8 лет в рекламе и маркетинге, последние 4 года в игровой индустрии. Примерно в это же время ударился в машинное обучение, подучил питон и математику. Года полтора назад начал ковырять захват движений человека на видео с помощью нейронок. С одной стороны сейчас огромная часть всего профессионального контента, который мы потребляем, производится кропотливым трудом сотен тысяч моделеров, аниматоров, специалистов по персонажам и спецэффектам. Месяцы и иногда годы людей тратятся на то, чтобы практически вручную получить нужные художнику/разработчику/режиссёру идеальные 5 секунд видео или одно выразительное движение игрока в компьютерной игре. При таком экономически крайне неэффективном, фактически ручном труде любые решения, которые помогают контент-мейкерам делать свою работу быстрее или дешевле с сохранением контроля над артистичностью, обречены на успех. Короче, адский труд.

Индустрия производства проф контента растет по 15-20% в год, неудивительно, с ростом потребления и персонализации доставки развлечений. Профессиональный контент создавать приходят десятки тысяч людей, им нужны удобные средства. Соответственно все 3д пакеты/движки делают огромные усилия по снижению барьеров входа. EpicGames вон перед IPO вообще скупают компании как не в себя, чтобы в игровом движке UnrealEngine появилась кнопка «сделать красиво».

С другой стороны машинное обучение в целом прошло большой путь от академии до первого внедрения в экономику. Надо делать такие решения, которые позволяют создавать профессиональный контент дешевле/быстрее с помощью технологий машинного обучения. По состоянию на год назад кроме прочего технологии компьютерного зрения на нейронках научились неплохо получать на вход картинку-кадр и находить там координаты суставов скелета в трехмерном пространстве. Короче, ты ей видос, она тебе движение скелета в 3D. Поискал, в общем вроде никто нормально не делает такой продукт. Надо делать. Хм, а ведь вроде сходится, подумал я: контента будет больше и больше, у всех есть свое тело и камеры, в нейронки умеет очень мало людей, надо сделать такой продукт и нашел ко-фаундера, который умеет в нейронки. И не просто в нейронки, а прям в компьютерное зрение с цитируемыми научными работами на лучших мировых конференциях по компуктер вижену. И вообще приятный глубокий человек. И что самое главное — так же сходит с ума по возможностям машинного обучения для креативных индустрий. Бинго!

Начали работать, че-то вроде собрали, вывели даже в 3д софт, сделали лендинг, демо видос, нашли отличных ребят из 80lv (калифорнийское медиа про производство игр и 3д), поболтали с ними про машинное обучение, показали их аудитории видос и пригласили людей к пилотный проектам. За первые 3 суток после публикации демо видоса мы получили несколько сотен заявок на пилоты от никому неизвестных художников и признанных по всему миру профессионалов-одиночек до сотрудников компаний, работающих над следующими Звездными Войнами (Luсasfilm) и Стажами Галактики (Marvel). Короче, кажется, попали в точку! Лайтовая такая версия продакт маркет фита. Думали раунд поднимать, но откинули идею из-за самоуверенности. Конечно, у модного стартапа должно быть модное название — CPTR.tech

демо видео продукта до релиза

Начали делать пилоты, смотреть что удобно, что неудобно пользователям. Первые пользователи были готовы терпеть все неудобства, ручное взаимодействие с нами, ошибки в детекции, но они настолько нуждались в решении, что даже сами напоминали о том, что мы им что-то обещали прислать. Достаточно быстро мы уткнулись в проблему: когда пользователи получали результат нашего софта и натягивали модели персонажей у себя в 3д софте на то, что выдает наш софт, то происходило странное. Моделька натягивается, но при движении скелета, многие плоскости 3д модельки раскорячивает. Начали смотреть, изучать. Оказалось, для того, чтобы это было действительно полезно, нужны не только координаты костей, которые выдавало наше решение, но и так называемые вращения костей вокруг своих осей. Иначе модельку раскорячивает при движении и все решение становится неюзабельным. Нам показалось, что это сильно сужает юзабельность и мы решили это пофиксить до релиза. Я до сих пор не уверен, была ли это одна из главных ошибок.

И вот тут мы и пошли в великий и могучий ИИ-РЕСЁЧ. Попробовали собрать нейронную сетку, которая выучит эти самые вращения из 3д кипойнтов. Че-то не завелось. Попробовали сделать сетку, которая выучит и кипойнты и вращения из 2д точек. Попробовали параметрические модели, которые строят шейп человека в каждом кадре, и из них там как-то вытаскивать вращения. Ну че-то вроде да, но тоже вопросы по качеству и особенно скорости. Пошли даже в генерацию синтетических данных на основе другой нейронки, чтобы обучить свою нейронку.

Так прошло 3 месяца. Задача не давалась. Кофаундер начал потихоньку сходить с ума от вращения многомерных матриц и количества экспериментов. Заявки на коллабы копились. Пилоты шли. Журналисты писали. Мы все больше узнавали нового и полезного. Например, в индустрии нет единого стандарта скелета из-за различных особенностей софта и уникальных рабочих задач. Или вот, например, получение форма туловища из видео мало кого волнует ввиду неприменимости для кастомных моделей персонажей, на которых построен весь профессиональный контент. Большинству пользователей, очевидно, нужно натягивать на скелет свои кастомные модели персонажей, а не видеть форму актера. Или вот реалтайм решение нужно мидлам и корпорациям, потому что они привыкли к такому уровню на дорогих традиционных решениях. А вот инди девелоперы рады хоть чему-то.

Но пора уже хоть что-то упаковывать и зарелизить публично. Мысль была такая: вроде че-то работает, все хвалят качество и вроде даже не закатывают глаза про деньги, так вот пока мы там вращения доделываем, сервис-то надо сделать. Интерфейс спроектировать и запилить, бэкенд настроить, бизнес-модель проработать, биллинг подключить, каналы прикинуть, маркетинг потыкать. Позвал своего приятеля, одного из лучших бэкенд разработчиков, с которым мне доводилось работать. Так нас стало трое. Приятель сделал неимоверно крутую работу за 1.5 месяца. Продакшен код, масштабирование, тесты, инфраструктуру, мониторинг. Можно релизить, все круто. А туловище с поворотами не выходит. Ну ладно, подумал я, возьмем для старта еще более сложную в индустрии производства графики задачу — захват рук. Ты ей видео с руками, она тебе движение скелета рук в 3д. Благо руки у нас завелись с вращениями костей. А потом в бэкенде и маркетинге поменяем на туловище с вращениями.

И тут пришло шикарное: мы получили поддержку на $100К от Nvidia и AWS. А офис EpicGames прислал емейл, мол, ребята, видели вас, как у вас дела, когда релиз. Позвонили ребята из хардварного стартапа по продаже костюмов захвата (оценка раунда 2 года назад $50М, сейчас около $300M).

Вместе со всем этим натыкаемся в какой-то момент на свежую библиотеку MediaPipe от Google (в реальности от ребят из купленной Гуглом белорусской компании AIMatter). Библиотека эта позволяет сторонним разработчикам приложений делать разные задачки, где комп зрение как-то работает с человеком (сегментация волос, трекинг глаз и тп). Кроме прочего библиотека дает 3д кипойнты туловища из видео. Посмотрели, потыкали. Че-то ну такое себе. Поговорили с авторами. Влад и команда там хорошо понимают свои текущие проблемы (например, баланс качества и скорости; вращений костей у них нет и другие). Но вот сюрприз-сюрприз (на самом деле, нет) — дают они это бесплатно, чтобы сторонние разработчики мобильных (или десктопных или веб) приложений делали свои сервисы. Чувствуете, да?

Ну в общем выпустили мы решение для рук. Сделали все по уму, ждем когда же там туловище подъедет с вращениями костей. Стали тыкать решением с руками в рынок, а рынок такой «ну ок, посмотрим при случае». Виар ребята вежливо сказали «круто, конечно, но у нас оно есть в окулусе». Анимационные ребята сказали «да мы вроде норм как-то сами». Траффик при этом идет, триал есть, а дешборд в биллинге клюшку не показывает.

Промах. На самом деле заявок на пилоты с руками было в разы меньше, но в эйфории первой реакции на тело я это пропустил. А вращения на туловище нормально не идут, хоть ты тресни, все перепробовали, не получается и все.

Партнер придумал как без нейронок аналитически получать кватернионы вращения костей. Там с оговорками на качество входящего видео, но собрал за 2-3 недели, вроде че-то работает. Начали переупаковывать и одновременно крутить в голове всю эту историю про гугловский mediapipe.

Первая реакция — качество захвата фиговое + скорость там еще не всегда хорошая + они не про создателей контента. Откинули. А потом видим движ у них там какой-то на гитхабе, стали смотреть пристальнее. Во-первых, это стороннее решение от корп, которое дает новые возможности сторонним разработчикам. Грубо говоря, это решение позволяет людям с отсутствием экспертизы в нейронках создавать приложения на нейронках. Не знаешь нейронки? Ничего страшного, мы обучили модельки за тебя и сделали простые апишки для основных языков и платформ. Во-вторых, это решение на клиенте. Не надо слать ничего в облако. Все работает на компе пользователя. Понимаете, да?

Тут, до меня, наконец-то дошло и это было как гром среди ясного неба. Сочетаем два фактора: низкий барьер входа и решение на клиенте. Получаем, что чз полгода-год-полтора для каждого из пяти основных 3д пакетов и игровых движков есть по 5 плагинов (бесплатных или за 5$ разовой покупки) или скорее всего это встроенная фича внутри 3д пакета/движка. А конкурировать с десятком бесплатных решений на проф рынке или фичей основного софта – это до свидания. Можно, конечно, упарываться в качество или найти там внутри доп проблемы и отстраиваться от конкурентов доп удобством, но в целом first mover advantage для CPTR.tech закончился. Всё, финиш. Конец мечтам про SaaS по подписке. Прощай, домик на море.

Теперь попробуем откатиться и обобщить эту историю, чтобы сделать какие-то системные выводы.

Почти все трушные ИИ продукты в мире основаны на ресече, который финансируется вузами и корпорациями. Ресеч ввиду своей природы показывается публично. Этот вот ресеч как раз часто и лежит в основе многих софт решений и всех этих заголовков вида «ИИ убъет {подставь_профессию}». Считай вот прям на гитхабе лежит код, который можно брать и запускать. С оговорками про воспроизводимость метрик и проблемы с лицензиями, но лежит. Инженерный гэп от ресеча до продукта, конечно, огромный, но преодолимый.

В ресече все упарываются в метрики качества на выборочных, часто не рабочих (то, что называется in the wild) данных. Основные отличия между такими ресечами лежат в двух плоскостях:

данные для обучения
архитектура нейронной сетки, отражающая те ли иные требования (в теории так, но по факту отражающая просто моду на ту или иную архитектуру в соседних статьях)

Теперь с другой стороны. Основная проблема (возможность для стартапов) во многих бизнес доменах лежит либо в скорости, либо в стоимости, либо в качестве текущего способа решения задачи в экономике реального мира. Ну типа руками гвозди делать дорого, давайте сделаем машинку, которая делает гвозди намного дешевле, быстрее и лучше. Без души, конечно, делает, за то очень быстро/качественно/дешево.

Так вот. Решается эта проблема скорости/стоимости/качества не скоростью работы сетки (1 тысячная секунды или 1 секунда на входные данные) и даже не в вычислительной стоимости, напрямую влияющей на кошелек компании. Чаще всего решение лежит в метриках качества работы нейронки, которые и позволяют гвозди выпускать с достаточным для рынка качеством. При прочих равных (помним, что идеи архитектур сеток публичны) метрики качества зависят от данных, на которых сетки под конкретную задачу учатся. Таким образом лучшее решение с какой-то точки во времени основано на лучших данных. А хорошие данные, очевидно, получить очень дорого и сложно.

Теперь смотрим в рынок. У кого есть мощности для создания и получения хороших данных? Правильно, у технологических корпораций. А что делают корпорации? Они стремительно упаковывают свой ресеч на своих или синтетических данных в продукты не для конечной аудитории пользователей в индустриях, а для сторонних разработчиков, чтобы те в свою очередь создавали больше приложений для конечных пользователей существующих (GooglePlay, Apple AppStore) и что важнее новых экосистем (Oculus Quest Store и др). Тот же реалтайм трекинг рук и туловища — это чистой воды история для следующей платформы — очки доп/микс реальности. Посмотрите, что делает и куда движется Снэп или Эппл с AR.

Плюс стоит не забывать про то, что ресеч тоже не стоит на месте и вот буквально в вашей области скорее всего каждый месяц появляется новая работа, которая делает все то же, что и прошлая, но намного лучше или быстрее. Иногда метрики качества и вычислительной стоимости заметно прогрессируют и такая работа считается прорывом. Чз полгода такая работа становится де-факто стандартом в ресече вашей области.

Там еще бывают прям фундаментальные прорывы, связанные с новыми архитектурами сеток, но последний раз такое было 4 года назад, с приходом так называемых трансформеров.

Итого имеем:

очень высокая скорость ресеча по ИИ
корпорации, делающие решения для сторонних разрботчиков
низкое качество публичных данных, высокая стоимость генерации непубличных данных

Вывод — скорость появления нового рисеча или уже готовых библиотек для разработчиков, которые запаверят следующее поколение решений в вашей области, уже сейчас скорее всего выше, чем скорость построения устойчивого быстрорастущего продукта с заделом от конкурентов. Будучи стартапом ты не можешь конкурировать с мировым ресеч сообществом. Поэтому строить SaaS бизнес, расчитывая в моменте на качество / скорость решения бизнес задачи, обусловленное качеством нейронки, примерно не имеет смысла.

Мощное заявление, в чем основной прикол? Ведь всегда было так — все технологические решения сменяли друг друга (автомобили потеснили лошадей, фреймворки сменили чистый html и тп), но раньше на смену уходили годы или десятилетия, сейчас внутри ИИ это происходит за полгода-год. Поэтому ИИ продукты в виде SaaS очень рискованно строить: наресечил, вроде норм, архитектуру сервиса на этом построил, люди, облако там туда сюда крутится, бизнес модель вроде сходится, даже траффик бесплатный есть. Раз и через три месяца вышла новая ресеч бумажка или либа, которая за счет реалтаймовости или высокого качества метрик просто убъет тебя. Относительно медленно, ты же уже успел набрать клиентов, но убьет.

Теперь правильный вопрос. Какой же стартап и какой продукт на нейронках стоит делать? До данных какого домена никогда не дотянется корпорация? Давайте вот на секунду подумаем. Правильно, в идеальном мире нет такого домена.

Что же тогда делать? Мы же говорим про годы работы людей, не про пару месяцев фриланса. Делать стоит такой продукт, который либо паверится очень редкими данными, либо тот, который помогает людям, которые каждый день работают с машинным обучением. Помните про лопаты и золотую лихорадку?

Если вы не хотите или не умеете в лопаты и/или хотите первое и у вас есть уникальные данные, достаточно репрезентативные для всего рынка, стройте свое решение прямо сейчас или старайтесь продать эти данные как можно скорее. С высокой вероятностью чз 1.5-3 года они будут никому не нужны, потому что ресеч корпораций и ВУЗов улетит вперед очень быстро.

Короче. Выводы:

Традиционное, но все же важное. Не надо было упарываться в идеальный продукт. Надо было выпускать кривой косой, но как можно скорее публично. Во-первых, мы проверили бы, попали ли мы в боль на рынке и не потратили кучу времени возможно впустую. Продакт маркет фит действительно никогда не пропустишь. Если попал в боль (конвертятся ли люди в то, чтобы попробовать и платят), то дальше вопрос достаточно ли решение хорошо эту боль решает. Если не попал в боль или если решение недостаточно хорошо, то будет качественный фидбек или его отсутствие, что тоже сигнал и там уже можно работать. Но самое важное – скорость, действительно единственное преимущество.
Надо было брать деньги. На вере в идею и свои запуститься кое-как можно, но дальше надо есть и путешествовать, у всех семьи и близкие, а запасы никогда не резиновые. Не делать ИИ ресеч в ИИ стартапе означает, что не было бы шанса на собственные технологии, а это лишает конкурентных преимуществ и сильно понижает стоимость. К тому же важный фактор — внешние деньги дают обязательства. А это драйвит вперед часто сильнее, чем собственные средства.
Если есть сигналы, что корпорация делает что-то в смежной области — НЕ стоит недооценивать корпорацию. Может, напрямую они не делают то же самое, но эффект они точно окажут. Просто хотя бы за счет того, что их слышно и видно лучше. Стоит потратить время и разобраться в том, что именно они делают и что намного важнее — куда и почему идут. Чтобы не бежать туда же и не биться 1 на 1. Это проигрыш. Без вариантов. Если корпорация уже начала копать в ту же сторону, делать что-то в этой области уже поздно. Можем сыграть на опережение и не играть в лоб? Для начала стоит собрать такие данные, которые не сможет собрать крупная тек компания. Знаю, неочевидно, но рано или поздно с ИИ продуктом в это упираешься. Лучше рано
И последнее. Стоит хотя бы примерно оценить рынок. Вот прям с бумажкой. С количеством людей и компаний в рынке, средний чек и вот это всё. Быстро понятно, делаешь ли традиционный бизнес, стартап с перспективами или под аквихаер.

Дает ли все прочитанное шанс построить отличную компанию? А стартап, который растет по выручке или юзерам х3 в год и имеет перед собой огроменный рынок? А продукт внутри компании полезный и нужный? Честный ответ: это зависит от того, учитесь ли вы на ошибках тех, кто не долетел. Мы научились на своих и идем дальше.

63 комментария

Solt Drum

16.07.2021

Неудачный опыт - тоже опыт. Спасибо, было интересно почитать.

Ответить

Georgi Lis

17.07.2021

Неудачный опыт - это единственный учитель. Из удач и успеха выводы сложно сделать, потому что банально может повезло.

Аккаунт удален

Комментарий недоступен

Slava Smirnov

Автор

Научились

Paul ttt

Может я не до конца понял все что рассказано, но создалось впечатление, что вы испугавшись будущей конкуренции ("через полгода-год-полтора для каждого из пяти основных 3д пакетов и игровых движков есть по 5 плагинов") сами сдались, хотя у вас были запросы от покупателей. Почему все таки не стали продолжать? Деньги решили в начале не поднимать, но теперь когда есть рабочий прототип (с вращениями) почему решили не поднимать деньги и продолжать - испугались как будто бы?

18.07.2021

Не интересно ни технологически, ни бизнесово, там ниже в комментах есть чуть более развернуто почему. Опоздали примерно на год полтора.

Дмитрий Воробьёв

MSQRD тоже делали в нейронки. Но они не стали продавать свой фреймфорк ни как SaaS ни как коробочное решение.
А запилили в гараже аппу с масками, чтобы показать как это работает наглядно и постараться завируситься. И только после всеобщего хайпа их заметил и затем купил ФБ.
А так технология ради технологии без реального showcase в надежде найти бета-тестеров за их же счет.
На мой взгляд надо было начинать с собственной игры, фильма или чего угодно на базе этой технологии. Тогда вы и сами понимали бы на что она способна. А после этого, вероятно, был бы и другой разговор.

Цук позвонил

Нельзя так просто взять и запуститься

Как быть?

Что-то пошло не так

Думали, стартап. Оказалось, опыт