Лого vc.ru

Инструмент для преобразования речи в текст RealSpeaker

Инструмент для преобразования речи в текст RealSpeaker

Сегодня за «Трибуной» — инструмент для перевода речи в текст RealSpeaker, который позволяет заменить клавиатуру на звукозаписывающее устройство и камеру. Передаём им микрофон.

Поделиться

Всем привет! Меня зовут Виктор Осетров, я руководитель проекта «РеалСпикер». Мне 25 лет. Моей компании «РеалСпикер Лаб» 23 января исполнилось 2 года. Проектом я занимаюсь уже более 5 лет (это была моя научная работа в университете) — увлекался лингвистикой и распознаванием видео, писал статьи, ездил на научные конференции в городе Йошкар-Ола (Марий Эл).

После окончания университета переехал в казанский IT-парк и создал фирму. За время работы через проект прошло около 15 человек и примерно 9 млн руб финансирования. Собирал с миру по нитке:

  • Семья, друзья; 
  • Брал научные гранты от Сколково (3,8 млн руб.);
  • АИР РТ (0,5 млн руб);
  • НАИРИТ при поддержке РАН (0,3 млн руб);
  • Зворыкинская премия (0,5 млн руб.);
  • Призовые Web Ready (0,3 млн руб);
  • РВК (0,1 млн руб.);
  • LG (0,1 млн руб.);
  • Фонд Бортника (0,4 млн руб.);
  • Microsoft ($50k);
  • Собственные инвестиции;
  • Инвесторы Startobaza;
  • Два бизнес-ангела. 

Последние полгода живем за счет собственных продаж ПО «РеалСпикер». Бизнес-модель — «Успей попробовать и купи».

На текущий момент есть бета-версия 1.5 приложения «РеалСпикер» для Windows 7 и 8, благодаря которой можно: 

  • Печатать текст любой длины голосом и видео, не прикасаясь к клавиатуре;
  • Вводить данные в любой текстовый редактор или сайт («ВКонтакте», Word, Evernote, почта, Facebook — в любое окно); 
  • Использовать голосовые команды для ввода, редактирования и отправки сообщений.

И пока еще альфа-версия для Android.

Лично сам веду видео-блоги, все аккуратно фиксирую на Spark, где показываю, как можно использовать РеалСпикер в хозяйстве.

Планы: 

  • Начать продажи на англоязычном рынке 
  • Для этого попасть в англоязычный акселератор летом 
  • Доделать интерфейс, админ панель, систему защиты 
  • Доработать серверную часть, чтобы иметь возможность загружать аудио-видео файлы 
  • Доработать версию на Андроид и выкатить Мак версию 1 млн. пользователей за этот год 
  • Привлечь раунд "А"

Наш подарок для вас — ключи RealSpeaker Pro (12 месяцев): 

  • d6b55483-7f1a-46aa-ab5b-a18c85639d78 
  • d18b8393-5b3c-497f-bdd9-038397e58798 
  • f0ebaeeb-b85b-4760-ac08-8b2d168a2fcd

Возвращаем микрофон читателям. 

Хотите получить в руки микрофон и рассказать о своем стартапе? Добро пожаловать за трибуну.

Статьи по теме
Анонс рубрики: «Стартапы»17 марта 2014, 12:15
Мобильный журнал для тренировок Strong23 апреля 2014, 19:02
Популярные статьи
Показать еще
Комментарии отсортированы
как обычно по времени по популярности

Не справляется даже с запятыми, вместо точки "ю", вместо запятой "б", не распознаёт команды управления, как бы четко ты их не произносил. Интерфейс крайне сырой, вернул меня к софту 2000-х годов.

Чудится мне, что это обычная обертка вокруг google speech api, с "инновационным" поиском лица на картинке с вебки. Хорошо хоть не антивирус Попова.

Буду рад, если ошибаюсь.

Ну, например, TCP-пакеты с голосом идут на 173.194.71.105 (www.google.com).

0

Приветствую, не отрицаем. Так что никакого секрета в этом нет.

0

Только для русского языка собственную базу уже почти собрали - 850 тысяч слов. Будем рады уйти от зависимости.

0

Т.е. аннотированную базу аудио и видео длительностью 160 часов?

0

Базу данных по запросам. Варианты, весы.
Идея такая = через нас проходит информация по речи от систем распознавания речи до пользователя. Пользователь в случае не правильного ответа редактирует слово или выражение. Эта информация сохраняется у нас. По мере постоянного редактирования каких-то слов и выражений, мы на основе накопившихся правок исправляем варианты где много ошибок на свои.
Стоит идея реализации веб 2.0 сервиса по принципу Википедии с открытой базой данных, которую может редактировать любой желающий.
Зачем это нужно сделать?
Гугл - заточен на популярные поисковые запросы и не подходит для распознавания естественной речи в силу своей природы. Поэтому необходимо перерабатывать такую информацию, которая поступает от движка распознавания речи. Это первый шаг.

Второй шаг - это научиться понимать контекст, смысл сказанного. И на основе - этой информации осуществлять дальнейшее до распознавания на уровне определение контекста. Сейчас такой инструмент делает ABBYY Compreno.

0

Ну и как, покупают у вас?

0

На жизнь хватает. Из 100%, кто заходит на сайт 25% скачивают приложение. Из условных 100, кто скачал приложение 4% становится покупателем (1 сразу же, еще 3 в течение месяца). Средний чек $40. Пока ни горы небесные, но есть положительная динамика. Большая надежда на англоязычные рынки, где мы можно сказать еще не представлены.

0

Ну, за рубежом и софт от Nuance есть давно, да и общая требовательность повыше будет...

0

Да, в США почти в каждом книжном магазине продают. Мы тут перевели исследование по рынку распознавания речи с трендами 2012 - 2016 гг. = думаю тебе будет интересно = www.slideshare.net/VictorOsetrov/2012-22967611

0

Поддерживается ли режим экспрессивного письма с матами?)

P.S. Интересный проект, желаю удачи. Буду ждать версии под iOS

Мат заблокировали звездочками. Все однокоренные слова ушли в бан. Если найдете мат - дайте знать. Добавим в бан лист.

0

А почему мат заблокирован? Это ваша личная политика или чьё-то требование?

0

Личная политика. К нам дети со школ часто для тестирования приходили. И всякий раз приходилось краснеть во время делегаций. Поэтому убрали все матерные слова и однокоренные к ним = какие знаем.

0

Программа истрерпретирует нажатие клавиш. Просто в данный момент раскладка у Вас английская. И поэтому вместо команды "Точка" - "ю", а вместо "запятая" - "б". Переключается просто на Вин 7 - Пуск, Панель управления, Язык, Русский, Основной. На Вин 8. Параметры, Панель управления, Часы Регион Язык, Язык, Русский (поставить на первое место).

Что касается баз данных, то мы и не скрываем, что по видео анализу используем EmguCV, а по аудио Dragon, Google, Sphinx - и то что есть открытое.

Основная ценность - ввод данных в любое окно, и синхронизация двух потоков аудио и видео. На мой взгляд, нет смысл заново изобретать велосипед в распознавании речи. Более важно научиться понимать контекст. Поскольку на основе понимания специфики текста можно осуществлять дальнейшее распознавания. Например, за счет правильного улавливания слова ключ из контекста можно выяснить о каком ключе идет речь о "водном" или "железном" - таким направлением мы занимаемся сейчас. Плюс верификация речи из общего потока. Например есть 3 голоса: мальчик, девочка, музыка. Программе распознавания речи все равно кого распознавать. За счет сравнивания двух потоков аудио и видео - можно выяснить кто главный и отфильтровать голоса или шумы не главных.

Уже умеете шумы фильтровать? Я тут че-та решил как раз этим заняться.

0

Есть достижения. Давай добавляйся - потолкуем vk.com/realspeaker

0

Машину просто так продаешь или не хватает на стартап?

0

На стартап всегда не хватает. Но машину продаю не только из этого. Скоро объявлю в моем блоге - spark.ru/startup/realspeaker

0

Ёмоё. Даже не смог попробовать. Вылезло окошко с жуткими тормозами, хотя компьютер мощный. Очень резко вылезла табличка что пробный период истёк. Не понятно куда что вводить.

0

Егор, мне не жалко. Вот ключ Вам = 56effa03-c2b2-454b-940e-7030c2dfbd24 Если, что пишите в личку - www.facebook.com/victor.osetrov или сюда vk.com/realspeaker

0

Извиняюсь, сработал ассоциативный ряд.

0

Какое-то странное решение, обертка над гугл апи? а куда тогда 9млн рублей проели? То есть чтобы голос хорошо распознавался нужно обязательно видео? Если да, то это тогда совсем не круто %(

Как-то странно вы себя позиционируете, скажи нет клавиатуре. Очень слабо. Слишком расплывчато и не конкретно. На десктопе кстати, печатать быстрее чем говорить.

Я бы вообще забил на десктоп и все силы бросил на развитие в мобильной среде. Именно там это может быть полезно каждому. Инвалидам, детям, например.

Кому очень нужно распознавание речи на ходу?

Блогерам, писателям, чтобы писать можно было и на смартфонах. На смартфоне длинные тексты набивать не очень удобно, голосом для большинства будет быстрее

Журналистам, я думаю, была бы очень полезна ваша разработка, особенно в ходе интервью. Можно для них сделать специальные приложения для ios и android. И продавать. Но хорошие, потому что то, что у вас сейчас для андроида, стыдно людям серьезным показывать) Выглядит как любительская поделка.

Телефонная тех поддержка? записывать текст операторов. В банках? камеры наблюдения?

Может сможет помочь студентам, записывать лекции? Но если обязательно нужно видео, то не факт что преподаватель разрешит себя на камеру снимать. Но можно попробовать)

Советую вам подумать где можно применять эту технологию и для каждой такой категории людей сделать отдельное приложение, решающее проблемы их сферы. Вначале, например, приложение для журналистов.

А вы рассматривали идею приложения для Google Glass? там возможно получится очень круто, видео там легко снимать. Клавиатуры там вообще нет, записывать разговоры людей и шпионить самое то :) Спецслужбы заинтересуются)

Нет у них никакой обертки - у них собственная технологая распознования. Причем в России уже 3 компании у которые есть такая сосбтвенная технология.

Сам создатель выше пишет, что у них обертка на гугль.

0

Не скрываем, что используем открытые технологии. Нет смысла изобретать заново велосипед, когда для аудио есть открытые библиотеки, а для видео OpenCV.
Есть уверенность, что ничего не закроют. Мир становится открытым и глобальным. Для систем распознавания речи - открытость это очень важно.
Да и если закроют, все равно с этой темы не слезу. Есть еще CMU Sphinx, Julius и другой Опен Сорс.

0

Поставил бабушке кстати, потом напишу ее отзыв :)

0

Хорошо, если ключ - надо. Напишите - сразу скину: vk.com/realspeaker

0

Я так и не понял куда вы потратили 5 лет и 9 мультов денег - обертка для гугл апи пишется за пару часов, PS интерфейс у вашей обертки просто ппц какой стремный.
PPS со сколково, рвк и ко. все понятно, но как могли мелкомягкие так лохонутся?

0

Ошибается тот, кто ничего не делает. Не зря же Вы даже не удосужились представиться. Также и я в ходе работы делаю и делал множество ошибок.
Например, сначала мы делали анализатор движения губ LipsTracker как средство уточнения. Простой алгоритм: губы человека движутся - значит человек говорит = распознаем. Губы человека не движутся - значит человек молчит = не распознаем. В то время распознавателя непрерывной речи не было и это было прорывом. Провели протоколы испытания - точность распознавания реально улучшилось. Но реалии не дали шанса такому алгоритму. Поскольку есть несколько обстоятельств и дьявол кроется в деталях:
1. Внешняя среда - видекартинка страдает из артефактов;
2. Человек - быть прикованным к камере неестественно, большинство людей когда разговаривают жестикулируют руками и головой
3. Устройство - требуется качественная камера и аппаратура
4. Расстояние от камеры до человека следует соблюдать - такое общение не естественно и нарушается главный посыл программы - эффект свободы.
Поэтому мы пересмотрели концепцию и на первое место поставили аудио, а видео - это средство улучшения. Сейчас работаем над новым направлением и как мне кажется оно правильное. Ошибаться я буду и еще не раз, но с пути не собираюсь сходить.

делали анализатор движения губ LipsTracker как средство уточнения =>
Поскольку есть несколько обстоятельств и дьявол кроется в деталях =>
Поэтому мы пересмотрели концепцию и на первое место поставили аудио, а видео - это средство улучшения

эээ?

0

Чуть выше ответил на концепцию. Если у Вас будут замечания и предложения, буду рад услышать!

0

эта штука работает знак вопроса я не помощью голоса что происходит знак вопроса

0

Поставьте галочку в вкладке ПРО - голосовые команды. Если нужен ключ - пишите - я к Вашим услугам!

0

Так попробуйте сделать похожий продукт за два часа, а не завидуйте, что кому-то дали, а кому-то нет, как будто школьники после выпускного.

Явно же не на машину деньги ушли

Виктор, Привет землякам! :) Здорово все таки, что в Йошкар-Оле не все так плохо с айти и есть такие кампании и стартапы.

По сути же хочется сказать, что Alex Belousov прав. Вам нужен грамотный маркетолог, нужна сегментация продукта и его грамотное позиционирование продукта.

Можем пообщаться, расскажу свои мысли :)

0

Самый большой риск проекта: отсутствие собственной технологии. Т.е. если вдруг гугль введет отчисления или закроет ядро для РФ, то проект рухнет.
Следовательно, нужно уходить на рынок англоязычных стран, перевозить компанию и пр.
А вот по тратам, кстати, вопросов нет никаких - даже уважаю Вас за то, что такими малыми суммами столько сделали. Молодцы.

Для русской речи ещё есть яндекс API или взлом Siri. Да и опен-сорс потихоньку приближается к "зубрам", а стоимость разработки голосового движка с новыми технологиями резко снижается.

0

Что-то я всё в одну кучу смешал :) Хотел сказать, "а для английской есть взлом Siri". Да и почему может гугл запретить API, если этот же API используется везде и является конкурентным преимуществом гугла? Тогда уже зависит от объёмов всё.

0

Технологии используются одни и те же. Разработчики речевых технологий переходят из одной компании в другую по кругу. Решает тот - у кого база больше. Цена падает - однозначно.

0

Классная программа. Давно слежу за вами. Хотнлось бы про версию попробовать

0

Я её так и не попробовал, установил, она что-то лагала, потом запустилась. В итоге говорил, говорил, ничего не писала, оказалось, что она английский язык понимала, потом в итоге через 3-5 минут написали, что истёк пробный период и больше она не пишет. Как-то пробный период очень маленький

0

Виктор Осетров! А подарочные ключи не работают! gennadii21@rambler.ru

0

Возможность комментирования статьи доступна только в первые две недели после публикации.

Сейчас обсуждают
Sergey Nikitin

Я Ваши претензии отвергаю, поскольку в данной статье говорится о дизайне (!) книг, но все же уточню: АСТ — ведущее российское издание, так что если Вы действительно предполагаете, что они издают лишь старые тексты в новых обложках, в чем, впрочем, нет ничего скверного, поскольку классика есть классика, то Вы ошибаетесь, потому что они также издают как впервые переведенные на русский язык произведения наших современников, так и впервые переведенную классику либо классику в новом переводе, и немного справки: в АСТ входят 14 редакций и, как они заверяют, «АСТ обладает крупнейшим авторским портфелем — более 5 000 имен» и «выпускает более 40 миллионов экземпляров книг в год», так что Ваши утверждения несколько несостоятельны.

Лучший дизайн книг 2016 года
0
Valentin Kirillov
GameSpire ltd.

"Например, в гостиной моей квартиры проходят деловые встречи, когда меня нет дома.", а в спальне публичный дом. Спасибо, дальше не читал)

«Добро пожаловать в 2030 год»: член датского парламента о счастливой жизни без приватности и личных вещей
0
Aleksey Dev

в 37 лет делать свистелки - перделки, мне кажется это провал.

Куда пойти учиться программисту: советы опытного тимлида, преподавателя и новичка
0
Nickita Prochorov

Идея здравая. Всё зависит от твоей ЦА. Скинуть на развитие от 10 до 100 р автору - в чём проблема то? Блогеры в онлайне могут по 100 000 -за час собирать. И кто? - дети. Главное трудиться не для нищебродов и любителей халявы.

Холдинг «Е-генератор» запустил сервис для добровольной оплаты контента «Микроподписки»
0
Nickita Prochorov

Ценные знания ДОЛЖНЫ быть БЕСПЛАТНО? Что за ерунда?

Холдинг «Е-генератор» запустил сервис для добровольной оплаты контента «Микроподписки»
0
Показать еще