Как я потратил $600 тысяч и пять лет, чтобы сделать свой переводчик

Ещё со школы мне хотелось сделать свой проект и заработать много денег. Закончив вуз, я ездил в столицу, где устраивался работать программистом, а потом накапливал деньги и увольнялся, чтобы создавать собственные проекты.

Несколько раз я уезжал домой, в родной город, чтобы сэкономить деньги на жизнь. Там я создавал образовательные и туристические сайты, программу для бухгалтерии, игры для мобильных телефонов. Но из-за отсутствия опыта ведения бизнеса это не приносило дохода, и вскоре проекты закрывались. Приходилось снова ехать в Минск — работать и снова копить. Так прошло шесть лет.

Когда у меня в очередной раз закончились деньги, наступил кризис. Я не смог найти работу, ситуация стала критической. Пришло время посмотреть на все вещи трезвым взглядом. Нужно было честно признаться себе, что я не знаю, какие ниши выбрать для бизнеса. Создавать проекты, которые просто нравятся, — путь в никуда.

Единственное, что я умел делать, это мобильные приложения . Несколько лет работы в ИТ-компаниях позволили накопить определенный опыт, и было решено сделать много простых принципиально различных приложений (игры, музыка, рисование, ЗОЖ, изучение языков) и протестировать, в каких нишах будет небольшая конкуренция.

Были подготовлены шаблоны, которые позволяли быстро создавать простые приложения на различную тематику (2D-игры, GPS-трекеры, простые утилиты и так далее). В большинстве из них было несколько картинок, две кнопки и всего одна функция. Но этого было достаточно, чтобы проверить идею и то, насколько легко будет на ней заработать. Например, приложение для бега отслеживало скорость человека, пройденное расстояние, а также подсчитывало калории. На создание сотен простых приложений я потратил полтора года. Такая скорость стала возможной благодаря покупке графики на стоках, а также повторному использованию исходников.

Сначала приложения были бесплатными. Потом я добавил рекламу и встроенные покупки, подобрал ключевые слова и яркие иконки. Приложения начали скачивать. Когда доход достиг $30 тысяч в месяц, я решил рассказать товарищу, который работал в большой продуктовой компании, что на тестовых приложениях я смог достичь такой цифры, и предложил создавать их вместе. Он ответил, что у них всего одно приложение — игра с доходом в $60 тысяч и 25 тысяч пользователей в месяц, против $30 тысяч выручки и 200 тысяч пользователей у меня.

Это полностью изменило мои взгляды. Выяснилось, что лучше создать одно качественное приложение, чем сто некачественных. Я понимал, что на качественных можно заработать в десятки раз больше, но я был один в маленьком городе без опыта и команды дизайнеров и маркетологов. Мне требовалось платить за аренду квартиры и зарабатывать на жизнь.

Тестовые приложения нужны были просто для проверки рыночных ниш и рекламных стратегий, чтобы научиться, какие приложения и как именно создавать. Просто сложилось, что некоторые из них начали приносить неплохой доход. Сейчас тема простых приложений давно умерла, и там больших денег уже не заработать.

Некоторые приложения сильно отличались по прибыли — это были переводчики, приложения для грузоперевозок, музыкальные программы (которые симулируют игру на пианино, барабанах или, например, гитарные аккорды, плееры), а также простые логические игры.

Вскоре я заметил, что буквально за месяц переводчики скачали более 1 млн раз. Языков в мире сотни, и люди ищут переводы каждый на свой язык.

Ниша оказалась перспективной, тем более сама тема переводов мне нравилась. Позже было создано около 40 простых переводчиков, где использовался перевод, который предоставлял Google API. Его стоимость была по $20 за 1 млн переведенных символов. Постепенно появились улучшенные версии приложений, где я добавил рекламу, встроенные покупки, функцию перевода голоса.

Заработав денег, я переехал в Минск и купил жилье. На то время у меня было 50−70 приложений для перевода и 5 млн скачиваний. Но с ростом пользователей увеличивался расход на платный Google Translate API. Прибыльность бизнеса серьезно снизилась. Платящие пользователи переводили блоки от 1 тыс символов за раз, что заставило ввести лимиты на запрос. Когда они упирались в лимит на перевод, писали плохие отзывы и возвращали деньги.

Настал момент, когда 70% выручки уходило на расходы. При больших объемах перевода этот бизнес оказался не такой перспективный. Чтобы окупить расходы, в приложения нужно было добавлять много рекламы, а это всегда отпугивает пользователей. Требовалось сделать свое API для перевода, а это скорее всего будет не дешево.

Я пробовал просить совета и инвестиций у стартапов и ИТ-сообщества, но поддержки не встретил. Большинство людей не понимали, зачем работать на рынке, где уже есть лидер — Google-переводчик. Помимо Google было еще несколько компаний, которые предоставлял API для перевода. Я был готов заплатить $30 тысяч за их лицензии технологий перевода на 40 языков. Это позволило бы мне переводить неограниченное количество раз за фиксированную цену и обслуживать любое количество пользователей на своих серверах. Но мне в ответ называли сумму в несколько раз выше. Это было слишком дорого.

Было решено попробовать сделать свою технологию для перевода. Я пробовал привлечь друзей для разработки, но к тому времени у большинства из них уже были семьи, маленькие дети и кредиты. Все хотели стабильности и жизни в свое удовольствие на хорошую ЗП, а не идти в стартап. Также они не понимали, зачем создавать переводчик, если есть Google с крутым навороченным приложением для перевода и API.

У меня не было опыта публичных выступлений, харизмы и крутого прототипа приложений, чтобы заинтересовать людей. Аналитика по заработку $300 тысяч на тестовых приложениях для перевода никого не удивляла. Я обратился к знакомому, который владеет аутсорс-компанией в Минске. В конце 2016 года он выделил для меня команду. Я рассчитывал, что решу задачу за полгода на базе open-source проектов, чтобы не зависеть по API от Google.

Первые попытки

Работа началась. В 2016 году мы нашли несколько opensource проектов — Apertium, Joshua и Moses. Это был статистический машинный перевод, подходящий для несложных текстов. Эти проекты поддерживали от 3 до 40 человек, и чтобы получить ответ на вопрос по ним, требовалось много времени. После того как разобрались и все-таки запустили их на тесты, стало ясно, что нужны мощные сервера и качественные датасеты, которые стоят дорого.

Технически все не сводилось к схеме «скачать датасет и натренировать». Оказалось, что есть миллион нюансов, о которых мы даже не подозревали. Перепробовали еще несколько ресурсов, но хороших результатов не добились. А Google и Microsoft свои наработки не раскрывают. Тем не менее, работа продолжалась, периодически подключались фрилансеры.

В марте 2017 года мы наткнулись на проект под названием Оpen NMT. Это совместная разработка компании Systran, одного из лидеров на рынке машинного перевода, и университета Гарварда. Проект только стартовал и предлагал перевод уже на базе новой технологии — нейронных сетей. Современные технологии машинного перевода принадлежат большим компаниям, они закрыты. Мелкие игроки, понимая, как сложно внедриться в этот мир, таких попыток не предпринимают. Это тормозит развитие рынка. Качество перевода среди лидеров не сильно отличалось друг от друга долгое время. Очевидно, что и крупные компании столкнулись с дефицитом энтузиастов, научных работ, стартапов и opensource проектов, чтобы брать новые идеи и нанимать людей.

Поэтому Systran сделала принципиально новый маневр: выложила свои наработки в opensource, чтобы такие энтузиасты, как я, могли включиться в эту работу. Они создали форум, где их специалисты стали бесплатно помогать новичкам. И это принесло хорошую отдачу: начали появляться стартапы, научные работы по переводу, так как каждый мог взять основу и на базе нее проводить свои эксперименты.

Systran стал во главе этого сообщества. Потом подключились другие компании. В то время ещё не было повсеместного нейронного перевода, а Оpen NMT предлагал наработки в этой области, выигрывая по качеству у статистического машинного перевода. Я и другие ребята по всему миру могли взять эти технологии и спросить совета у специалистов. Они охотно делились опытом, и это позволило мне понять, в каком направлении двигаться.

Сначала я удивлялся: как же так, зачем Systran растит себе конкурентов? Но со временем понял правила игры, когда все больше компаний начали выкладывать свои наработки по обработке естественного языка в opensource.

Даже если у всех есть вычислительные мощности, чтобы обрабатывать большие датасеты, то вопрос с поиском специалистов по NLP (обработка естественного языка) на рынке стоит остро. В 2017 году эта тема была намного менее развита, чем обработка изображений и видео. Меньше датасетов, научных работ, специалистов, фреймворков и прочего. Людей, способных из научных работ по NLP построить бизнес и закрыть какую-либо из локальных ниш, еще меньше. И компаниям верхнего эшелона типа Google, и игрокам поменьше типа Systran нужно получить конкурентное преимущество относительно игроков из своей категории.

Как они решают этот вопрос?

На первый взгляд это кажется странным, но чтобы конкурировать между собой, они решают вводить на рынок новых игроков (конкурентов), а чтобы они там появлялись, нужно раскачать его. Порог входа до сих пор высок, а запрос на технологии обработки речи очень растет (голосовые ассистенты, чат-боты, переводы, распознавание и анализ речи, и т.д.) Нужного количества стартапов, которые можно купить для усиления своих позиции, до сих пор нет. В открытом доступе публикуются научные работы от команд Google, Facebook, Alibaba. От них же в opensource выкладываются их фреймворки и датасеты. Создаются форумы с ответами на вопросы.

Крупные компании заинтересованы, чтобы такие стартапы, как наш, развивались, захватывали новые ниши и показывали максимальный рост. Они с радостью готовы покупать NLP стартапы для усиления своих больших компаний. Ведь даже если у тебя на руках все датасеты, алгоритмы и тебе подсказывают, это ещё не значит, что ты сделаешь качественный переводчик или другой стартап в области NLP. А даже если и сделаешь, то далеко не факт, что откусишь большой кусок рынка. Поэтому нужно помочь, и если у кого-то получится, купить или объединиться.

Переводчик DeepL

В сентябре 2017 года, анализируя конкурентов, я узнал про DeepL. Они в это время только запустились и предоставляли перевод всего на 7 языков. DeepL позиционировался как инструмент для профессиональных переводчиков, помогающий тратить меньше времени на корректуру после машинного перевода. Даже небольшое изменение в качестве перевода позволяет сэкономить много денег для компаний, занимающихся переводами. Они постоянно отслеживают API для машинного перевода от разных поставщиков используя трекеры. Качество на множестве языковых пар у всех разное и нет единого лидера.

Если какой-то сервис предложит на 1% лучше качество конкурента на одном из языков, то у него на следующий день будет сразу большой кусок рынка.

Чтобы продемонстрировать качество перевода, DeepL решил устроить тесты на некоторых языках. Оценка качества проводилась методом слепого тестирования, когда профессиональные переводчики выбирают лучший перевод из Google, Microsoft, DeepL, Facebook. По результатам победил DeepL, жюри оценило его перевод как наиболее «литературный».

Как так получилось?

Основатели DeepL владеют стартапом Linguee — крупнейшей базой ссылок на переведенные тексты. Скорее всего, у них гигантское количество датасетов, собранных парсерами, и чтобы натренировать их, нужна большая вычислительная мощность. В 2017 году у них вышла статья о том, что они собрали в Исландии суперкомпьютер в 5 петаФлопс (на тот момент он был 23-м по производительности в мире). Натренировать большую качественную модель было лишь делом времени. В том момент казалось, что даже если мы купим качественные датасеты, то все равно никогда не сможем конкурировать с ними, не имея такого супер-компьютера.

Но все изменилось в марте 2018 года. Nvidia выпускает компьютер DGX-2 размером с тумбочку и производительностью в 2 петаФлопса (FP16), который сейчас можно взять в лизинг от $5000 в месяц.

Имея такой компьютер, можно тренировать свои модели с гигантскими датасетами быстро, а также держать большую нагрузку по API. Это кардинально меняет расклад сил всего рынка стартапов машинного обучения и позволяет небольшим компаниям конкурировать с гигантами в области работы с большими данными. Это было лучшее предложение на рынке в соотношении «цена-производительность». Я начал искать информацию о статистике DeepL. У Google за 2018 год было 500 миллионов пользователей ежемесячно. У DeepL — 50 миллионов (статья от 12 декабря 2018).

Получается, что в конце 2018 года 10% от ежемесячной аудитории Google пользовались DeepL, причем они нигде особо не рекламировались. Чуть более чем за год они захватили 10% рынка, использую сарафанное радио. Я задумался. Если DeepL командой в 20 человек победил Google, имея в 2017 году машину в 5 petaFlops, а сейчас можно дешево арендовать машину в 2 petaFlops и купить качественные датасеты, насколько будет сложно добиться качества Google?

Улучшаем качество перевода

Весь 2018 год я потратил на решение проблемы качественного перевода на основных европейских языках. Думал, что ещё полгода — и всё получится. Я был очень ограничен в ресурсах, задачами по Data Science занималось всего 2 человека. Нужно было двигаться быстро. Казалось, что решение проблемы в чем-то простом. Но светлый момент всё не наступал, я не был доволен качеством перевода. Было потрачено уже около $450 тысяч, заработанных на старых переводчиках, и требовалось принимать решение, как быть дальше.

Запуская этот проект в одиночку и без инвестиций, я понял, сколько управленческих ошибок совершил. Но решение принято — идти до конца!

Мы взяли новый токенизатор, сделали препоцессинг текста, по-другому стали фильтровать и размечать данные, иначе обрабатывать текст после перевода, чтобы исправлять ошибки. Сработало правило 10 тысяч часов: было много шажков к цели, и в определённый момент я понял, что качество перевода уже достаточно для того чтобы использовать его в API для собственных приложений. Каждое изменение добавляло 2-4% качества, которых не хватало для критической массы и при которой люди продолжают пользоваться продуктом, не уходя к конкурентам.

Потом мы начали подключать различные инструменты, которые позволяли и дальше улучшать качество перевода: определитель именованных сущностей, транслитерацию, тематические словари, систему исправления ошибок в словах. За 5 месяцев этой работы качество переводов на некоторых языках стало значительно лучше и люди начали меньше жаловаться. Это был переломный момент. Ты уже можешь продать программу, и из-за того что у тебя есть свое API для перевода, можно сильно сократить расходы. Можно наращивать продажи или количество пользователей, ведь расходы будут только на сервера.

Для обучения нейронной сети нужен был хороший компьютер. Но мы экономили. Сначала мы арендовали 20 обычных компьютеров (с одной GTX 1080) и одновременно запускали на них 20 простых тестов через Lingvanex Control Panel. На каждый тест уходило по неделе, это было долго. Чтобы добиться лучшего качества, нужно было запускать с другими параметрами, которые требовали больше ресурсов. Требовалось облако и больше видеокарт на одной машине.

Мы решили взять в аренду облачный сервис Аmazon 8 GPU V100 x 4. Он быстрый, но очень дорогой. Запустили на ночь тест, а утром — счёт на $1200. В то время было очень мало вариантов аренды мощных GPU-серверов, кроме него. Пришлось отказаться от этой идеи и искать варианты дешевле. Может, попробовать собрать свой? Обзвон компаний заканчивался тем, что мы сами должны были прислать детальную конфигурацию, а они его соберут. Что лучше с точки зрения «производительность / цена» для наших задач, никто не мог ответить. Попытались заказать в Москве — наткнулись на какую-то подозрительную фирму. Сайт был качественный, отдел продаж — в теме. Но банковский перевод они не принимали, и единственным вариантом оплаты был скинуть деньги на карту их бухгалтеру.

Стали совещаться с командой и решили, что можно самостоятельно собрать компьютер с ценой до 10 тысяч долларов, который будет решать наши задачи и окупится за месяц. Комплектующие буквально скребли по сусекам: звонили в Москву, что-то заказывали в Китае, что-то в Амстердаме. Через месяц все было готово. В начале 2019 у себя дома я наконец-таки собрал этот компьютер и начал проводить много тестов, не беспокоясь, что нужно платить за аренду.

На испанском языке я начал замечать, что перевод близок к переводу Google по метрике BLEU. Но я не понимал этот язык и на ночь поставил тренироваться модель англо-русского переводчика, чтобы понять, в какой точке нахожусь. Компьютер всю ночь гудел и жарил, спать было невозможно. Нужно было следить, чтобы не было ошибок в консоли, так как периодически все зависало. Утром я запустил тест на перевод 100 предложений с длинами от 1 до 100 слов и увидел, что получился хороший перевод, в том числе на длинных строках. Эта ночь изменила всё. Я увидел свет в конце тоннеля, что все же можно когда-нибудь добиться хорошего качества перевода.

Мобильные приложения

Заработав деньги на iOS переводчике с одной кнопкой и одной функцией, я решил улучшить его качество, а также сделать версию для Android, Mac OS, Windows Desktop. Надеялся, что когда у меня будет свое API, я закончу разработку приложений и зайду на другие рынки. За то время, когда я решал задачу своего API, конкуренты ушли намного вперед. Нужны были какие-то функции, ради которых будут скачивать именно мой переводчик.

Первое, что я решил сделать, это голосовой перевод для мобильных приложений без доступа в интернет. Это было личной проблемой. Например, Вы едете в Германию, скачиваете только немецкий пакет на телефон (400 мб) и получаете перевод с английского на немецкий и обратно. На самом деле, проблема интернета в зарубежных странах стоит остро. Wifi либо нет, либо он запаролен или просто медленный, в итоге им невозможно пользоваться. Хотя качественных приложений переводчиков, которые работают только через интернет, используя API Google, даже в 2017 году были тысячи.

Я нашел ребят в Испании с хорошим опытом в области проектов по машинному переводу. Около 3 месяцев мы сообща вели исследования в области уменьшения размера модели нейронки для перевода, чтобы добиться в 150 мб на пару и потом запускать на мобильных телефонах. Размер нужно было уменьшать таким образом, чтобы в определенный размер словаря (к примеру, 30 тыс слов) вложить как можно больше вариантов по переводу слов разных длин и тематик. Позже результат наших исследований был выложен в открытый доступ и представлен на Европейской ассоциации машинного перевода в г. Аликанте (Испания) в мае 2018 года, а один из членов команды защитил по ней PhD.

Помимо перевода текста, голоса и картинок, было решено добавить перевод телефонных звонков с транскрипцией, которой не было у конкурентов. Был расчет на то, что люди часто звонят в поддержку или по вопросам бизнеса в разные страны, причем на мобильный или стационарный телефон. Тому, кому адресуется звонок, не нужно устанавливать приложение. Эта функция потребовала много времени и затрат, поэтому позже было решено вынести ее в отдельное от основного приложение. Так появился переводчик телефонных звонков.

У приложений для перевода была одна проблема — ими пользуются не каждый день. Не так много в жизни ситуаций, когда нужно переводить ежедневно. А вот если изучаешь язык, использование переводчика становится частым. Для изучения языков мы создали функцию карточек, когда слова добавляются в закладки на сайте через расширение для браузера или в субтитрах к фильму, а потом происходит закрепление знаний с помощью мобильного приложения чат-бота или приложения для умной колонки, которая будет проверять выбранные слова.

Все приложения Lingvanex связаны между собой единым аккаунтом, поэтому можно начать переводить на мобильном приложении и продолжить на компьютере. Также добавили голосовые чаты с переводом. Это будет полезно для туристических групп, когда гид может говорить на своем языке, а каждый из посетителей будет слушать в переводе. И в конце — перевод больших файлов на телефоне или компьютере.

Рынок перевода

Создавая API для своих приложений и вложив кучу денег, нужно понимать объем и перспективы рынка машинного перевода. В 2017 году был прогноз, что рынок к 2023 году станет $1,5 млрд, хотя объем рынка всех переводов будет $70 млрд (на 2023 год).

Почему такая разбежка — около 50 раз?

Допустим, лучший машинный переводчик сейчас переводит хорошо 80% текста. Остальные 20% нужно редактировать человеку. Самое большие расходы в переводе — это корректура, то есть зарплаты людей. Увеличение качества перевода даже на 1% (до 81% в нашем примере) может образно на 1% сократить расходы на корректуру текста. 1% от разницы между рынком всех переводов за вычетом машинного будет (70 — 1,5 = $68,5 млрд) или 4685 млн уже. Цифры и расчет выше даны приблизительно, чтобы передать суть. То есть улучшение качества даже на 1% позволяет значительно сэкономить большим компаниям на услугах перевода.

По мере развития качества машинного перевода все большая его часть будет заменять рынок ручного перевода и экономить на расходах по зарплате. Не обязательно стараться охватить все языки, можно выбрать популярную пару (англо-испанский) и одно из направлений (медицина, металлургия, нефтехимия и др.). 100% качества — идеальный перевод машиной по всем тематикам — недостижим в ближайшее время. А каждый следующий процент улучшения качества будет даваться труднее. Тем не менее, это не мешает рынку машинного перевода занять значительную часть общего всего рынка к 2023 году (по аналогии как DeepL незаметно отхватил 10% рынка Google), так как большие компании каждый день тестируют API различных переводчиков. И улучшение качества одного из них на процент (для какого-нибудь языка) позволит им экономить много миллионов $. Стратегия больших компаний по созданию своих наработкок opensouce начала приносить свои плоды. Стало больше стартапов, научных работ и людей в индустрии, что позволило раскачать рынок и добиваться все лучшего качества перевода, повышая прогноз по рынку машинного перевода.

Каждый год проводятся соревнования по задачам NLP, где корпорации, стартапы и университеты соревнуются у кого будет лучше перевод на определенных языковых парах. Анализируя список победителей, появляется уверенность, что небольшими ресурсами можно добиться отличного результата.

Чем мы лучше Google

За несколько лет проект вырос во много раз. Появились приложения не только для мобильных платформ, но и для компьютеров, носимых устройств, мессенджеров, браузеров, голосовых ассистентов. Помимо перевода текста был создан перевод голоса, картинок, файлов, сайтов и телефонных звонков.

Вначале я планировал делать свое API для перевода, чтобы использовать только для своих приложений. Но потом решил предложить его всем желающим. Конкуренты ушли вперед, и нужно было не отставать. До этого времени я управлял всем в одиночку как индивидуальный предприниматель, наняв людей на аутсорсе. Но сложность продукта и количество задач начали быстро расти, и стало очевидно, что нужно делегировать функции и быстро нанимать людей в собственную команду в своем офисе. Я позвонил другу, он уволился с работы и принял решение открыть в марте 2019 года компанию Lingvanex.

До этого момента я создавал проект, нигде не рекламируясь, и когда решил собрать свою команду, столкнулся с проблемой поиска. Никто не верил, что это вообще можно сделать, и не понимал зачем. Пришлось собеседовать многих людей и каждому по 3 часа рассказывать о тысячах неочевидных деталей.

Когда вышла первая статья о проекте, стало проще. Мне всегда задавали один вопрос:

«Чем вы лучше Google?»

В данный момент наша цель — добиться качества перевода Google общей тематики на основных европейских и азиатских языках и после этого предоставлять решения для:

  1. Перевода текста и сайтов через наше API втрое дешевле конкурентов, предоставляя отличный сервис поддержки и простую интеграцию. Например, стоимость перевода Google $20 за миллион символов, что получается очень дорого при значительных объемах.
  2. Качественного тематического перевода документов по определенным тематикам (медицина, металлургия, юриспруденция и так далее) по API, в том числе c интеграцией в инструменты для профессиональных переводчиков (типа SDL Trados).
  3. Интеграция в бизнес-процессы предприятий для запуска моделей перевода на их серверах по нашей лицензии. Это позволяет сохранить приватность данных, не зависеть от объема переведенного текста и оптимизировать перевод под специфику конкретной компании. Можно сделать качество перевода лучше конкурентов на определенные языковые пары или темы. Можно и на все. Это вопрос ресурсов компании.

При достаточных инвестициях с этим проблем нет. Что и как делать — известно, просто нужны рабочие руки и деньги. На самом деле рынок NLP растет очень быстро по мере того, как совершенствуется распознавание, анализ речи, машинный перевод, и может принести хорошую прибыль для небольшой команды.

Весь хайп тут начнется через 2-3 года, когда сегодняшняя раскрутка рынка большими компаниями принесет свои плоды. Начнется череда сделок по слиянию / поглощению. Главное в этот момент — иметь хороший продукт с аудиторией, который можно продать.

Результат

За все время тестовые приложения принесли более 1 миллиона долларов, из которых большая часть потрачена на то, чтобы сделать свой переводчик. Сейчас очевидно, что все можно было сделать гораздо дешевле и лучше.

Было сделано много управленческих ошибок, но это опыт, а тогда советоваться было не с кем. В статье описана очень маленькая часть этой истории и иногда может быть непонятно, почему принимались те или иные решения. Задавайте вопросы в комментариях.

Ссылки на новые программы, которые разрабатывались в течении 3 лет и в которые были вложены деньги. Если кто хочет увидеть старые тестовые приложения, про которые шла речь в начале статьи (где были заработаны деньги и 35 млн скачек) — пишите в личку.

На данный момент мы не добились качества перевода Google, но я не вижу никаких проблем это сделать если в команде будет хотя бы несколько специалистов по Natural Language Processing. Сейчас лучше всего наш переводчик работает с английского языка на немецкий, испанский, французский. По ссылке можно найти демонстрацию перевода.

Если есть идеи совместных партнерств и предложений — пишите в личку, добавляйте в Facebook, LinkedIn.

0
151 комментарий
Написать комментарий...
Алексей Ширин

Вот с одной стороны конечно, уважение вызывает ваше упорство, а с другой - вся история пронизана желанием получить что-то "нахаляву" и нежеланием сотрудничать с другими сервисами и делиться прибылью. Даже любопытно, что такой путь тоже привел к успеху, судя по всему, в мобильных приложениях конкуренция действительно низкая.
TL:DR: жадность (обычно) приводит к бедности

Ответить
Развернуть ветку
Alexei Rudak
Автор

Из статьи может сложиться впечатление, что эти деньги мне посыпались с неба и это произошло очень быстро.

В тот момент я был один с женой на съемной квартире. Отец умер и надо было помогать матери. Я в маленьком городе, где работы нет и надо просто купить еды и заплатить за аренду жилья. Тогда не думаешь о том, с какими сервисами сотрудничать и какие приложения делать.

Этот путь был очень долгим и сложным. Я начинал пробовать делать бизнес с 19 лет и 8 лет ни к чему не привели. Вообще ни к чему. Потом стало понемного получаться. Сейчас мне 34.

Я написал этот комментарий не ради сочуствия и сама статья про другое. Она про то, что если долго работать в одном из направлений, то рано или поздно все начнет получаться. У всех получается. Главное - не опускать руки.

У меня никогда не было "халявы"  , богатых родителей, связей итд. Из-за этого постоянно хотелось выбраться из всего этого болота. Я знаю цену деньгам с самого детства.

Ответить
Развернуть ветку
25 комментариев
Sergei Zharov

За открытия для меня https://www.deepl.com/translator Огромное спасибо!

Ответить
Развернуть ветку
Николай Демидов

У Гугла обычно лучше.

Ответить
Развернуть ветку
2 комментария
Тарас Погребняк

А могли бы купить заводик ЖБИ и продавать кольца. Я вот сам работал на заводе, потом построил свой, потом квартиру в центре Уфы купил и ку5 для жены. 

Ответить
Развернуть ветку
Дмитрий Прозоров

Откуда этот мем пошел?

Ответить
Развернуть ветку
4 комментария
Vlad Novak

как там Крузак поживает?

Ответить
Развернуть ветку
1 комментарий
Валерий Бабин

Будто бы перечитал всю «Силиконовую долину». Мощно. Прожить это все было, наверное, еще интересней) Вы молодец

Ответить
Развернуть ветку
Ware Wow

интересно, но страшно и тяжело.

Ответить
Развернуть ветку
iMAX

Так много текста и так много вопросов... Алексей предоставил мне ссылку на аккаунт с тестовыми приложениями, но ни сотен приложений, ни миллионов скачиваний, я там не увидел даже близко, хотя меня предупредили что это один из аккаунтов. 

Зачем в новые приложения (в конце статьи) вставлять рекламу, на самом старте тоже не понятно.

Общее впечатление - ищут того кто в это вложится, и спустит своё бабло, ради этого всё и затевалось. 

Ответить
Развернуть ветку
Alexei Rudak
Автор

Я понимаю ваш пессимизм, позвоните мне на скайп и я вам все покажу. Потом вы напишите тут сразу всем, что все описанное в статье - правда. Чтобы больше ни у кого и никогда не возникало таких вопросов. Мой скайп "alrudak". Я жду ))

Ответить
Развернуть ветку
15 комментариев
Sasha Nikitina

Алексей, Вы-большой молодец, и Вашему упорству можно только позавидовать. Не обращайте внимания на этих диванных критиков, которые в своей жизни пальцем не пошевелили и готовы пахать на дядю. Удачи Вам и успехов, у Вас все получится.

Ответить
Развернуть ветку
Love.ru

Да ты ниндзя!

Ответить
Развернуть ветку
Alexei Rudak
Автор

Спасибо :)

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Сергей Шмаков

Спасибо за историю!

Есть несколько вопросов у меня:
- Стало ли приложение или в целом сервис приносить ощутимо больше, так как вначале была цель "сделать качественно одно, чтобы приносило больше"? 
- как на протяжении долгого времени убеждали себя в том, что надо продолжать? или всегда были какие-то маленькие движения вперед, которые четко давали понять "надо продолжать" ?

Ответить
Развернуть ветку
Alexei Rudak
Автор

- Старых приложений по переводу было 40 штук и в целом сейчас они приносят больше. Но через пару месяцев все изменится наоборот. Мы еще не делали рекламной компании. Сейчас нужно починить ошибки и протестировать на небольшой аудитории.
- Когда потратил $400 тыс, я не смог все закрыть не добившись результата. Было жалко потерять такие деньги вникуда. А через пол-года начало понемногу получаться. Но меня в течении последних 3 лет сильно "ломало" все это бросить. Было очень трудно, в том числе до сих пор.

Ответить
Развернуть ветку
3 комментария
Иван Соболевский

Очень круто, вы молодец. Желаю вам успехов! 
А завистники и вечные параноики пусть идут подальше. 

Пробовали попасть в американский акселератор? Например, в YCombinator.

Ответить
Развернуть ветку
Alexei Rudak
Автор

Думал на этим. В следующий набор буду подавать заявку.

Ответить
Развернуть ветку
2 комментария
тима махотлов

5 лет и $600 тыс. не хватило для победы над гуглом, поэтому ищете партнеров)))

Ответить
Развернуть ветку
Alexei Rudak
Автор

Я начинал в одиночку в маленьком городе. Сделал много ошибок. Из-за этого потратил много денег впустую. Сейчас все могло быть по-другому, если бы имел сегодняшний опыт )

Ответить
Развернуть ветку
3 комментария
Карл

а я просто за 7-8 лет потратил 600, или около того, тысяч $ на машины.

Ответить
Развернуть ветку
Ваня С

Зарегистрировались чтобы это написать?)

Ответить
Развернуть ветку
3 комментария
Eugene Danilov

Алексей, вы это и сами знаете, но я все же скажу: вы очень крутой. Уважение.

Ответить
Развернуть ветку
Serge Sokolov

Ввел в переводчик interloper и на русский  не перевелось. 

Ответить
Развернуть ветку
Alexei Rudak
Автор

Это редкое жаргонное слово. Мы еще такое не обрабатываем, но все впереди :)

Ответить
Развернуть ветку
7 комментариев
Magomed Che

Спасибо за статью, интересный опыт.

>Сейчас тема простых приложений давно умерла, и там больших денег уже не заработать.

Опишите пожалуйста причины, почему?

И если старые приложения не приносят доход, то на какие средства существует команда сейчас?  

Ответить
Развернуть ветку
Alexei Rudak
Автор

Причина была в том, что несколько лет назад в Appstore можно было делать длинные названия приложений типа "Arcade and Logic Game for Kids (Boy and Girls) with Animals (cats, dogs, pandas)"

В этом названии все слова - это ключевики, по которых люди ищут ваше приложение. И все люди которые ищут pandas, logic games, arcade games итд будут находить ваше приложение и потом скачивать его.

Сейчас в Apple Appstore название должно быть не более 30 слов и вы максимум сможете вставить только 2 ключевых слова вместо 20 как раньше.

Этим способом много кто пользовался и собирали миллионы скачек. Сейчас это не работает.

Команда существует на доход от старых и новых приложений

Ответить
Развернуть ветку
Pavel Loginov

Автор, не жалеете, что тупо не прокутили эти 600 тыш?

Ответить
Развернуть ветку
Alexei Rudak
Автор

Уже нет времени жалеть, надо доделывать :) Но у меня очень много раз возникало желание все это закрыть.

Ответить
Развернуть ветку
Sergey Ponkin
Когда доход достиг 30 тыс $ / месяц
я был один в маленьком городе без опыта и команды дизайнеров и маркетологов. Мне требовалось платить за аренду квартиры и зарабатывать на жизнь

интересно, сколько месяцев можно снимать в Минске квартиру на 30к$
а еще интересно, сколько дизайнеров и маркетологов можно нанять в Минске на 30к$

в общем очень странная история...

Ответить
Развернуть ветку
Alexei Rudak
Автор

Я нанял команду из 7 senior -developer на аутсорсе и работал с ними около 3 лет, которые делали мне приложения + backend + часть по Data Science. На больше не хватило денег.

Квартира была куплена до этого.

Ответить
Развернуть ветку
Е. T.

2017-й, загородный дом, в 15-и мин. езды от г.Минск - 600 USD, месяц. Дом хороший, натурально, всё в комплекте.

Ответить
Развернуть ветку
Dmitriy Matveev

Здравствуйте, Алексей. Очень интересная статья. Какие системы машинного перевода самые лучшие на сегодня? Как с вами можно связаться?

Ответить
Развернуть ветку
Alexei Rudak
Автор

Пока могу посоветовать DeepL, на европейские языки он лучше всех. Пишите мне в Facebook или LinkedIn

Ответить
Развернуть ветку
Треугольный Илья

Мобильный разработчик на максималках прям😳 Спасибо за статью!

Ответить
Развернуть ветку
Bakhtiyor М. Khuja

На одном дыхании. Можно снимать сериал 👍🏻 
Успехов!

Ответить
Развернуть ветку
Степан Лежнин

История про то как один человек пытается победить Гугл, безусловно, достойна экранизации!

Ответить
Развернуть ветку
Pavel Doronin

Алексей, отличная история. Читал о вас в прошлом году на dev.by и ещё тогда восторгался вашим упорством. То, что вы делаете, очень круто.
У вас на сайте много b2c-продуктов, но есть и доступ к API для сторонних приложений. Насколько большую долю у вас занимает b2b-сторона бизнеса? Есть ли вообще спрос?

И собираете ли вы фидбек от пользователей для улучшения качества движка? Например, даёте им исправить текст перед копированием в буфер и трекаете правки. Или прямо в лоб кнопочкой «Предложить перевод получше»? В общем, используете ли пользовательскую базу для улучшения датасетов, прокачки препроцессинга и всего такого?

Какие языковые пары у вас сейчас самые востребованные?

Ответить
Развернуть ветку
Василий Петров

Статья обалденная, упорство и труд, как говорится. 

Честно говоря, трудно поверить, что кто-то качает менее качественные (с точки зрения перевода) приложения, и не качает Google Translate. Я так понимаю, основная фича была именно в том, что в какой-то момент пришло понимает как получать "органику" в этих ios приложениях? Использовалось ли еще что-то кроме длинных описаний, например мотивированный трафик?

Ответить
Развернуть ветку
Александр Балалеев

Сначала хотел развести токсичность, но история действительно интересная. Вы большой молодец.

Ответить
Развернуть ветку
Anton Ilabanau

статья и история крутая, но это не похоже на стартап нифига.
больше похоже на типичный биз начала 2000-х, когда спамили адсенс, впаривали порнуху, фарму, дорвеи, вот это все.
просто с налетом стартапного смузи :)

Ответить
Развернуть ветку
Александр Голичев

Интереснейшая статья!
Идущий осилит дорогу!

Ежедневно приходится переводить приличное количество текста с различных языков. Могу сказать с уверенностью, что конкурентов у Deeple даже близко нет. По одной простой причине, или скорее функции, которая есть у Deeple, но нет ни у гугла, яндекса, бинга и т.д. Это подстановка другого варианта перевода. Не уверен, что правильно описывают этот функционал, скрин возможно лучше передаст, что я имею ввиду.
Я совсем не специалист в машинном обучении. Но почему-то мне кажется, что именно благодаря этой функции Deeple выдаёт вменяемый переводы. Т.к. при необходимости пользователь сам правит текст в сервисе с помощью функции подстановки более корректного перевода с точки зрения пользователя. Наверняка этот опыт каким-то образом анализируется и в дальнейшем используется. На мой взгляд, получается что 10% от пользователей гуглпереводчика занимаются обучением нейросети deeple делать более качественные переводы. Но это не точно)))

P.S. Раз уж пошёл разговор о машинном переводе, вдруг кто-то поделится ссылками другими машинными переводчикам, сервисами, программами, словарями и т.д. В общем, интересны все сервисы такого рода.

Ответить
Развернуть ветку
Maxim Troshin

Вы писали про 50-70 приложений для перевода. Это приложения для конкретных ниш? Просто кажется, что невозможно придумать столько разных переводчиков.
И как вы достигли 5 миллионов установок? Как то рекламили их?

Ответить
Развернуть ветку
Alexei Rudak
Автор

Это были однотипные приложения для перевода под каждый конкретный язык (Переводчик на немецкий, французкий, испанский, русский итд)

Я достиг их с помощью ключевых слов в названии приложений (Appstore Search Optimisation) и ярких иконок с флагами. У них была большая конверсия в просмотр приложения, а потом в установку. Также несколько лет назад названия приложений в Apple Appstore были длинные, куда можно было вставлять ключевые слова. Сейчас они короткие и эта техника не работает.

Ответить
Развернуть ветку
2 комментария
Алексей Ковальчук

Статья понравилась, автору Уважение! Упорство это очень хорошее качество!

Ответить
Развернуть ветку
Дмитрий Шепталин

Но гугл ведь ужасный перевод делает.
В этом плане яндекс более продвинут. Покрайней мере для русского языка.

Ответить
Развернуть ветку
Alexei Rudak
Автор

У разных переводчиков на разных языках разное качество. Google просто самый известный и у него больше всех разных языков. Перевод на русский лучше у Yandex

Ответить
Развернуть ветку
3 комментария
Павел Волк

На хабре вроде про 1 миллион рассказывал 

Ответить
Развернуть ветку
Alexei Rudak
Автор

Заработал миллион на приложениях, из них 600 тыс потратил на разработку переводчика

Ответить
Развернуть ветку
Filipp Dev

В AppGallery добавьте

Ответить
Развернуть ветку
Alexei Rudak
Автор

Спасибо, как раз в процессе добавления

Ответить
Развернуть ветку
Pavel Obischenko

Спасибо за статью. 

Какое-то время назад тоже пришлось позаниматься машинным переводом. Цель была сделать оффлайн перевод для iOS. Основная проблема была - найти качественный датасет. Т.к. для обучения использовал параллельные субтитры, а они далеко не всегда один в один соответствуют друг другу.
Так же накладывала ограничение на структуру сетки конвертация в CoreML, т.к. там есть ограничения, не всякий слой можно было безболезненно сконвертировать. В целом, сетка переводила не плохо, даже с учетом грязного датасета. Но явно не дотягивала до необходимого качаества) Хотя, в целом, опыт получил интересный)

Ответить
Развернуть ветку
Alexei Rudak
Автор

Я тоже использовал субтитры для тренировки, но их надо сильно фильтровать. И это задача не из легких. Самые лучшие датасеты, на мой взгляд - это заседания Европарламента.

Ответить
Развернуть ветку
2 комментария
iMAX
Пришлось собеседовать многих людей и каждому по 3 часа рассказывать о тысячах неочевидных деталей.

т.е. до этого как-то получалось найти людей, даже какого-то мудрого испанца, а тут такая неожиданность

В общем в статье много странностей, лень все выписывать. Но буду рад если я ошибаюсь. Удачи.

Ответить
Развернуть ветку
Alexei Rudak
Автор

В статье написано, что люди, которые делали приложения были на аутсорсе. Проблема была собрать свою команду программистов, так как никто не верил в идею.

Ответить
Развернуть ветку
Alex Kasakow

Молодец, мне нравится. Как раз искал переводчик для сайта.

Ответить
Развернуть ветку
Pavel Pekanov

Не лонгрид, а ЛОНГРИДИЩЕ!

Ответить
Развернуть ветку
Сергей Михалёв

Офигительно.

Ответить
Развернуть ветку
Al

Начал читать и сразу понял, что речь идёт про мой любимый Deep! Спасибо, пользуюсь очень часто. Переводит шикарно. Носители иногда спрашивают откуда так хорошо знаю их язык.:))

Ответить
Развернуть ветку
Slava Kirova

Прочитала как сюжет к голливудскому фильму. 
Ваш вера и упорство вызывают уважение. Успехов! 

Ответить
Развернуть ветку
Влад Алексеев

У тебя получится! Держись! 
Когда Гугл купит вас за один гугл долларов, что будешь дальше делать?

Ответить
Развернуть ветку
Dmitry Bushkov

Давно тут не было таких статей. Спасибо! 

1. Когда вы выбирали направление для роста, как вы оценивали перспективы развития рынка? Или просто пошли туда, где было больше скачиваний?

2. Вы говорите, что сделали много ошибок, и можно было все сделать дешевле и быстрее. Можете рассказать об ошибках и как бы вы сегодня делали?

Ответить
Развернуть ветку
Ray Jey

Интересно. Поздравляю вас с промежуточным успехом. Скачаю приложение и напишу отзыв!)

Ответить
Развернуть ветку
Олег Чеботарев

Ого, как я удачно зашел! Я тут, хаха, тоже делаю переводчик и кажется иду по вашим стопам. 
https://vc.ru/tribuna/108086-memose-neskuchnoe-prilozhenie-dlya-izucheniya-yazyka
Буду очень признателен, если посмотрите и поделитесь мнением.

Ответить
Развернуть ветку
Alexei Rudak
Автор

Посмотрел. В наших проектах много общего, так мы пришли к тем же выводам, что и вы. А также много других конкурентов ))

Но рынок большой, места всем хватит )

Ответить
Развернуть ветку
Сергей Молчановский

Вы пишете: "Раньше я делал простые приложения с 1 функцией и на них имел до $10.000 в мес. А теперь это перестало работать". Как по-вашему, что теперь актуально, и на чем можно заработать?

Ответить
Развернуть ветку
Alexei Rudak
Автор

Если бы я сегодня начинал бизнес на мобильных приложениях - то делал бы гипер-казуальные игры.

Ответить
Развернуть ветку
salirse
> когда доход достиг $30 тысяч в месяц (...) я был один в маленьком городе, мне требовалось платить за аренду квартиры и зарабатывать на жизнь

сцуко? серьёзно? что это вообще было?

Ответить
Развернуть ветку
Alexei Rudak
Автор

Вы неправильно поняли. 30 тыс $ это было после 2 лет работы, когда надо было платить за съемную квартиру. Это было после описанных событий. При этом доходе, уже была куплена квартира.

Ответить
Развернуть ветку
salirse

как можно неправильно понять фразу "доход достиг $30 тысяч в месяц"? 
искренне желаю автору научиться выражать свои мысли письменно 
могу даже помочь за скромные $2 тысячи в месяц )

Ответить
Развернуть ветку
Олег Бондаренко

Пользуюсь приложением Qtransalate, жаль вас там нет. Янедкс выигрывает по качеству с русского на английский, иногда google смысл полностью искажает.

Ответить
Развернуть ветку
Serghei Dmitriev

До конца дочитать обильное откровение не удалось, но и этого достаточно для вывода, что автор в числе своих многочисленных коллег по сути жертва пропаганды во времена оны о необходимости въезда в пресловутое ПОСТиндустриальное общество(потребления).
   И вот теперь мы въёхали в это самое обЧество и возникли неожиданные проМблемы.
 Со своей стороны предлагаю оргганизовать производство реальных вещей и девайсов, на готорых изделиях которого красовался  бы бэджик "Сделано в интернете"
    Для этого нужна команда интузиастов, которая вылавливала бы из Сети новейшие Si El, доводила их до ума и оперативно пускала в серию.
     ...А также необходимо создать англо-русский и русско-английский словарь похожих (и по звучанию) слов. Сорри, ИМХО —-  некто С. Дмитриев
         
     

Ответить
Развернуть ветку
Артём Макаренков

вы точно поняли, о чём говорите? :) с ув.

Ответить
Развернуть ветку
Vladimir Studinsky

Прочитав пост и посмотрев ваши источники напрашивается вывод что вы не изучили литературу о том как зарабатывать на open source и как он вообще работает. Как я понял, вы используете открытые технологии и тут возникает вопрос - чем вы полезны OSSoftware сообществу? На гитхабе вас нет, на вашей странице одна проприертащина, нет программ для Linux или FreeBSD.  Хотелось бы ошибаться.

Ответить
Развернуть ветку
Alexei Rudak
Автор

Посмотрите этот линк, это портирование offline перевода для Desktop. Я выложил это в opensorce, хотя потратил на это свои деньги. Моего профиля на gitlab нет, я не кодил это сам.
https://github.com/hunter-packages/onmt

Хотя первые версии переводчиков  были написаны полностью мной, потом я уже почти не кодил, а нанял команду и уже руководил, занимался только бизнесом.

Есть еще другие линки, портирование нейронного перевода под разные платформы + научная работа как сделать компактные модели для них. Там я принимал непосредственное участие

(https://rua.ua.es/dspace/bitstream/10045/76108/1/EAMT2018-Proceedings_33.pdf?fbclid=IwAR1BxipmZMR8Rt0d32gcJ7BaFt1Tf1UEm9LkJCYytBJLgdtx3ujAPFCwE80)

 Просто надо искать, это было 2 года назад и уже не помню где что лежит. Посмотрите там же, в hunter-packages по "MTPLZ" или "OpenNMT"

Ответить
Развернуть ветку
Ильдаp Хафизoв

чёт сильно много негатива к автору
пусть это будет дополнительным стимулом! удачи!

Ответить
Развернуть ветку
Салим Мухин

Терпение будет вознагражденно,, молодец

Ответить
Развернуть ветку
Аистер

Слишком много букав

Ответить
Развернуть ветку
148 комментариев
Раскрывать всегда