Deep sign — универсальная технология распознавания жестов

Переводит звук в жестовый язык и наоборот.

Как ни странно прозвучит, но такой глобальный подход к распознаванию движений родился из одной маленькой, на первый взгляд, задачи.

Участвуя в одном из минских стартап-мероприятий, ребята из нашей команды познакомились с интересными соперниками, которые зацепили не только своими идеями и достижениями, но и тем, что осуществляли общение и защиту проекта вопреки серьёзным ограничениям по слуху. Поражало то, как буквально на пальцах и с помощью переписки в мессенджерах им приходилось доносить информацию до окружающих.

«Как в эпоху цифровой революции и технического прогресса нет такого очевидного решения, как автоматизированный сурдопереводчик?» — спросили мы себя и приступили к работе.

Так начался путь от частной человеческой проблемы к обширному проекту на стыке медицины, образования и социальной сферы.

Затем следовало долгое погружение в предметную область: консультации с узкими специалистами, определение актуальности продукта в рамках тематических заседаний с представителями ЮНИСЕФ и Института инклюзивного образования, воркшопы по изучению жестового языка, осознание его семантики и специфики, обзор рынка.

Одновременно формировалась команда. Для нас было важно объединить эмоционально вовлечённых людей, способных совершенствовать свои навыки, не боящихся сложностей и (пусть это выглядит банально) верящих в победу. Судя по всему, нам это удалось. За время существования проекта мы не узнали, что такое текучка кадров, а результатов было достигнуто гораздо больше, чем планировалось.

Сегодня — это сплочённый коллектив мотивированных профессионалов, разработчиков и архитекторов программного обеспечения, специалистов по компьютерному зрению, машинному обучению, глубокому изучению, 2D- и 3D-дизайнеров и аниматоров, бизнес- и узкоспециальных консультантов, создающих собственные технологические решения в сегменте «дополненная и виртуальная реальности для мобильных платформ».

Перечень задач расширялся по мере углубления в отрасль. Очевидной оказалась потребность в распознавании жестов рук (hand gestures), движений тела и позы (body movements & pose), движений пальцев (finger gestures), контекстном анализе. Разработка велась параллельно в двух направлениях: голос — текст — жест — текст — голос, что обеспечивало полноценный двунаправленный перевод от глухого человека к слышащему и обратно и качественно отличало наш продукт от предлагаемых решений на современном рынке.

В виду высокой сложности интерпретации жестов в свободном общении апробацию и запуск продукта было решено вести по принципу наращивания семантических полей в узких тематических рамках («Приём у врача», «Консультация в банке», «Консультация в страховой компании» и так далее). Это позволило нам на начальном этапе контролировать дерево диалогов и предупреждать контекстные ошибки перевода.

Пилотная версия «На приёме у терапевта» была разработана в течение девяти месяцев. За это время был собран DataSet жестов, согласован с медиками скрипт диалогов, разработаны дизайн интерфейсов, модель переводчика, анимация жестов и алгоритмы их распознавания.

На презентации в ходе стартап-конференции Emerge в Минске (победа в блоке Data и AI) и при первичном тестировании на носителях жестового языка прототип получил высокую оценку. Это стало настоящей наградой, вдохновляющей на дальнейшие свершения.

Но ещё большую энергию мы получили от осознания того, что в итоге был создан не только уникальный продукт, способный адаптироваться под любой рынок (на алгоритм ложится жестовый язык любой лингвистической группы) и имеющий высокую социальную значимость, но и технология решающая, по нашему убеждению, самую сложную из возможных задач по распознаванию движений.

Если кратко, то в процессе создания продукта был выведен ряд технологических решений и алгоритмов, базирующихся на наиболее эффективных современных подходах и моделях компьютерного зрения и глубокого обучения, сконцентрированных вокруг камеры мобильного устройства (или любой веб-камеры) как основного «перцептивного центра».

Инфраструктура устройств видеосъёмки и их программная экосистема, по нашему мнению, достигли того уровня развития, при котором они готовы принять на борт достаточно ресурсоёмкие с позиции вычислительной сложности и наукоёмкие решения, такие как Deep Sign.

Если же говорить о самой технологии, то Deep Sign — это нейросетевое решение, которое построено на собственной архитектуре, включающее себя три основных блока: feature extractor, action detector и action recogniser. Также было использована методология one-shot learning (обучение по минимальному датасету), что позволило быстро получить результаты.

Конечные метрики технологии в обычной RGB-камере:

87% точность распознавания;
30 кадров в секунду (fps);
1500 объём датасета;
13 распознаваемых жеста.

Ещё мы использовали transfer learning, что на выходе позволяет использовать технологию в разные предметные области, только меняя датасет.

Значимые каналы продвижения как продукта, так и технологии мы видим в международных выставках, конференциях, семинарах (в подтверждение этих слов — призовое место уже на первой в нашей практике конференции EMERGE 2018 — мы стали победителями в направлении Data и Ai и получили интересные предложения от инвесторов и бизнес-ангелов).

Кроме того, прямые контакты с частными и государственными клиниками, международными обществами глухих открывают для нас варианты прямых продаж и заказов под конкретный круг задач и дальнейшее сервисное обслуживание. Не исключена возможность участия в грантовых программах.

Таким образом, варианты развития укладываются в несколько моделей: b2b, b2g, SaaS.

К моменту развития продукта до состояния свободного стихийного переводчика мы хотим упаковать его в бесплатное приложение для конечного пользователя.

Ещё в начале пути было очевидно, что детекция и распознавание движений востребованы во многих сферах, но особенно актуальны они в медицине, образовании, безопасности. Сегодня мы смотрим в этих направлениях и ведём R&D, но это уже совсем другая история, о которой, возможно, будет наша следующая статья.

P.S. Статья подготовлена Антониной Судиловской, Product Manager ARRM.io.

Этот блок временно не поддерживается

#стартапы

8 комментариев

Anastasia Antonova

28.05.2018

Друзья, а пункт целевая аудитория? Кто эти люди?

Ответить

Алексей Тарасов

29.05.2018

Никто. На самих глухонемых за перевод денег не заработать, поэтому разработчики ориентированы на бизнес - "варианты развития укладываются в несколько моделей: b2b, b2g, SaaS". Поэтому же и сконцентрировались на темах «Консультация в банке», «Консультация в страховой компании».

stivstivsti

а больной не может набрать эти сообщения в чате мобильного?

Antonina Sudilovskaya

Добрый день! Безусловно может. Но, к сожалению, такая коммуникация не всегда оказывается продуктивной. Актуальность медицинского сектора была сформулирована именно носителями жестового языка, так как
1) не всегда доступна мед. лексика,
2) врач может не допустить на прием неслышащего человека без сурдопереводчика.

Deep sign — универсальная технология распознавания жестов

Запуск

Команда

Продукт

Дополнительные возможности

Продвижение

Монетизация

Планы