Потратил $1 млн, чтобы сделать свой переводчик. Продолжение истории

Начало этой истории тут
Как я потратил $600 тысяч и пять лет, чтобы сделать свой переводчик

Ещё со школы мне хотелось сделать свой проект и заработать много денег. Закончив вуз, я ездил в столицу, где устраивался работать программистом, а потом накапливал деньги и увольнялся, чтобы создавать собственные проекты.

Я занимаюсь переводчиками с 2012 года, и эта тема выбрана не случайно. Еще тогда было замечено, насколько сильно переводы могут влиять на показатели бизнеса. В нашем случае поддержка всего 15 языков вместо одного позволила увеличить количество скачиваний мобильных приложений до 35 миллионов без затрат на рекламу. Никакие другие действия не давали такой пользы с учетом потраченного времени и денег. И это стало основной причиной того, почему я выбрал это направление.

После первой статьи мне написало несколько сотен человек. Надеюсь, ответил всем. В основном были вопросы, как заработать на мобильных приложениях, как уйти из найма в свой бизнес и т.д. Через год несколько человек сказали, что их жизнь очень изменилась в лучшую сторону. Значит, советы помогли и время было потрачено c пользой.

Если выделить самый главный совет, то он будет следующий:

Перед тем как создавать свой большой проект (бизнес), найдите фирму или людей, у которых можно набраться опыта в интересующей вас сфере. Соглашайтесь на меньшую ЗП или вообще бесплатно. Главное - быстро получить нужный вам опыт. Нужны реальные ситуации с реальными людьми, проблемами и задачами. По книгам и курсам - не научиться. В идеале получить опыт сразу нескольких направлений (разработка, маркетинг, управление). Для этого подойдут небольшие продуктовые компании до 10-15 человек. Только смотрите, чтобы там были профессионалы с разной специализацией.

Найти успешную фирму, где у вас будет возможность работать вплотную вместе с опытным руководителем, смотреть, как принимаются решения и задавать интересующие вас вопросы, - нелегко. Скорее всего, потребуется сменить несколько мест и потратить пару лет. Главное - быстро уходить, если видите, что не растете как специалист.

Учитесь на чужих ошибках. Учиться на своих - очень долго. В какой-то момент просто не хватит мотивации. Поэтому подбирайте место работы очень тщательно.

Самый главный вывод, который я понял за 15 лет в IT, что основа любого успешного дела — люди. Не идея, не рынок, не технология, а именно команда. Все равно, какая на рынке конкуренция. Хорошая команда сделает проект любой сложности. Даже если ошибется вначале, то в конце вырулит к цели.

Своей главной проблемой считаю, что я стал «публичным» очень поздно. Следовало на старте писать статьи о проекте и выступать на меприятиях, давать интервью. Не нужно было отдавать разработку на аутсорс и фрилансеров, а сразу собирать свою команду профессионалов. Чтобы набрать таких людей, очень важен личный пример. Опытные люди хотят работать с такими же.Статьи о проекте работают очень круто для поиска нужных людей. Через вакансии и рекрутеров я бы никогда их не нашел. Правильно поставленные процессы и команда даже из 10 экспертов могут творить чудеса.

А теперь - продолжение истории.....

Начало 2020 года.

В начале 2020 года мы сильно продвинулись в качестве перевода. Если ранее на каждую языковую пару в датасете было в среднем по 7 миллионов строк, то теперь стали использовать датасеты по 30 миллионов предложений.

Ранее для исправления ошибок в переводе в наши приложения была добавлена функция “Предложить правильный перевод”. Через год мы ее отключили из-за того, что люди начали туда спамить и предлагать на исправление полный бред. Проанализировав тысячи записей, я увидел, что мало чего оказалось полезным. Также был сделан кеш. Хорошо работает на 1 и 2 словных фразах и позволяет экономить где-то 30% от всех запросов.

У нас в аренде было 20 dedicated серверов с одной видеокартой GTX 1080 в каждом. А дома для теста стоял собранный ПК с 2 x RTX 2080 Ti, который использовался для тестов и был в среднем в 3 раза быстрей чем сервер с GTX 1080.

С увеличением датасетов мы увеличили кол-во слоев, RNN и других параметров нейронной сети. Нужно было добиться определенного критерия качества перевода, по которому пользователи не будут уходит к конкурентам.

И тут возникла одна проблема. По нашим расчетам, с текущими параметрами на тренировку 200 языковых пар потребуется 28 лет. Даже учитывая все сервера, которые у нас были, это никуда не годилось. Видеокарты GTX 1080 были очень медленные для наших задач, а брать дорогие V100 не позволяли финансы.

В прошлой статье я говорил про планы на сервер DGX-2 от Nvidia c 2 petaflops (FP16) для тренировок. Я не смог взять DGX-2 в аренду из-за того, что фирма, на которую будет договор лизинга, должна быть только в США, а у меня фирма на Кипре и поэтому не получилось.

В течение года мы участвовали в разных стартап-конкурсах в надежде выиграть бесплатные кредиты от спонсоров. И однажды к нам повернулась удача. Через пару месяцев мы выиграли AWS Startup Challenge и получили 100 000 бесплатных кредитов, которых можно было потратить на тренировки моделей. Вместо серверов с 1 x GTX 1080 мы стали брать 8 x Nvidia V100, C 28 лет время тренировки сократилось до 2 месяцев, за которые мы и перетренировали наши модели с лучшим качеством. Сейчас, чтобы развернуть все 100 языков, используется 9 серверов с одной видеокартой Nvidia T4 в каждом. Это позволяет нам поддерживать 500 000 пользователей в месяц c хорошим уровнем качества.

Параллельно я смотрел, что делают конкуренты, и следил за рынком. Начало появляться еще больше проектов в области машинного перевода типа перевода конференций в реальном времени, перевода видео-роликов и подкастов. Компании, которые долго специализировались на переводе только человеком, стали вкладывать в проекты перевода алгоритмами. Основой послужил экономический эффект от локализации.

Постоянное улучшение качества машинного перевода позволило во много раз сократить затраты на перевод человеком, ведь в переводах основной расход - это зарплата людей, которые владеют иностранными языками. Чем лучше переводит компьютер, тем меньше времени человеку нужно исправлять за ним ошибки. Развитие технологий уже сейчас позволило в некоторых случаях полностью заменить человеческий перевод машинным.

1 сентября 2020 года ведущий мировой научный журнал Nature опубликовал сообщение о том, что машинный перевод уже достиг качества человеческого в англо-чешских новостях.

Несмотря на огромный спрос на переводы, использование человеского труда для этой задачи все еще стоит дорого и занимает много времени. Перевод одного слова человеком стоит в среднем 5 - 8 центов. Чем дешевле цена перевода человеком, тем больше компании готовы вкладывать в локализацию. Используя все более качественный машинный перевод и CAT инструменты, с каждым годом цена перевода слова падает, а скорость поставки локализованных решений растет. Все это рано или поздно приведет к взрывному росту рынка переводов. На картинке ниже я схематично показал эту идею.

Выход на рынок B2B

По статистике, каждый год более 1 миллиарда человек ищут в интернете решения, связанные с переводами. Каждый день увеличивается количество данных на разных языках, а доля английского языка в интернете сейчас сократилась до 25%.

До 2020 года наш фокус был на мобильные приложения для перевода. В последнее время Appstore Search Optimisation (ASO) для мобильных приложений (на котором удалось собрать 40 миллионов скачиваний и заработать первый миллион $) стал работать очень плохо. Подбор ключевиков в Apple Appstore без закупки платных установок стал не эффективен. А привлечение пользователей через закупку трафика стало очень дорогим.

В конце 2020 годы мы решили попробовать рынок B2B. Расчет был на то, что любому международному бизнесу нужна функция перевода в том или ином виде. Это может быть перевод документов, сайта, многоязыковая поддержка клиентов, анализ конкурентов и другое.

Из тысячи вопросов, которые мне задали за последние пять лет, примерно 950 из них были “Чем вы лучше Google”. Я пробовал давать разные ответы, но сейчас стараюсь отвечать коротко - приватность данных, функциональность, цена, качество сервиса поддержки.

Если вы студент или турист и вам нужно перевести небольшую статью для личных целей, то можно использовать бесплатные сервисы типа Google или Microsoft. Но если вы компания, то переводить письма клиентов, накладные, справки и прочие внутренние документы через бесплатные онлайн-сервисы может быть небезопасно, так как такие компании собирают ваши данные, чтобы потом продать их рекламодателям. Кроме того, переводы больших объемов текста через Google API будут стоить очень дорого.

Для таких случае мы сделали возможность устанавливать переводчик в корпоративную сеть и переводить текст и файлы без доступа в интернет. Причем все происходит очень быстро и с сохранением форматирования. Во всех решениях доступны все языки, что есть у Google, даже больше.

Первым продуктом стал локальный сервер перевода. Он позволяет переводить текcт, HTML (сайты), файлы на 120 языков без ограничений. Мы потратили достаточно времени на оптимизацию скорости. Теперь 1 миллиард символов текста можно перевести за сутки на одной видеокарте Nvidia GTX 1080. Также, в отличие от Cloud API (Google, Microsoft итд), все ваши данные остаются у вас, ведь все работает без интернета.

Как раз именно приватность стала основой для нашей первой B2B интеграции с браузером Vivaldi.

Сервер перевода работает под Ubuntu и поставляется как докер образ. После запуска становиться доступно REST API, которое можно интегрировать в ваш проект.

Например, чтобы развернуть 15 языков, нужно видеокарта с 16GB видеопамяти, приблизительно 1GB памяти на каждый язык, 4 ядра CPU, 16 GB оперативки и 100 GB HDD.

Видеокарта Nvidia RTX 8000 с 48GB может загрузить в районе 60 языков. Можно взять 4 видеокарты на 1 сервер. Каждая видеокарта будет обрабатывать свой набор языков. Главное - количество видеопамяти. Перевод может работать и на CPU, только скорость будет в 10 раз медленнее.

Функция перевода web-страниц была добавлена не только в десктоп, но и в мобильную версию браузера.

После браузера Vivaldi мы интегрировали сервер в медицинскую библиотеку. Клиент хотел сэкономить на HDD и не хранить переведенные страницы в БД. Поэтому переводы веб-страниц происходят динамически по мере того как пользователь ходит по сайту.

У меня были мысли использовать сервер, чтобы создавать клоны сайтов типа Stackoverflow, Quora и другие зарубежные проекты на разные языки, и потом зарабатывать на рекламе. Но как-то не дошли руки. Хотя периодически вижу клоны зарубежных сайтов, сделанных таким образом.

Третим проектом, где стал использоваться сервер, стал большой e-commerce сайт в азиатском регионе. Нужен был автоматический перевод описаний товаров на 87 языков. Потом продали сервер агенству по лидогенерации, аналитике, плагину для перевода вебсайтов, заводу электроники и другим. Вообще, сервер будет полезен везде, где много контента и международная аудитория.

Постепенно наш фокус сместился на решениях для бизнеса вместо мобильных приложений.

За несколько лет у нас часто спрашивали про функцию транскрипции речи (конвертации голоса в текст). Поэтому в сервер для перевода была добавлено распознавание речи на 20 языков. То есть, сервер может переводить текст, файлы, HTML и делать транскрипцию голоса в текста.

Сейчас сервер переводов - это наш флагманский продукт. В него вложили очень много времени и сил. Цена сервера составляет от 2000 евро в год (в зависимости от количества языков и функций). Доступна бесплатная демо-версия сервера на 1 неделю.

Больше информации ПРО СЕРВЕР ЗДЕСЬ

После сервера мы сделали SDK на iOS, Android, Windows и Mac OS. Это позволяет подключить функцию офлайн перевода для мобильных и декстоп приложений как статическую библиотеку. Для этого сделали отдельные компактные модели языков (до 100 мб). Доступны те же 120 языков. Подойдет для приватных мессенджеров, браузеров, юридических и медицинских и других программ, где нужна защита данных.

Также стали предлагать Cloud API для перевода. Стоимость составляет от $3 за миллион символов, при том же количестве языков и сопоставимом качестве, что у Google. Цена зависит от объема. По умолчанию цена 5$ за миллион символов, что в 4 раза дешевле Google. Можем дать бесплатно до 20 млн символов для перевода для теста.

Ранее наши десктоп приложения под Windows и Mac переводили файлы только онлайн, теперь у нас появились отдельные сборки на несколько языков, которые работают полностью без интернета.

Напоследок

Сейчас в нашей команде 18 человек, и я доволен тем, что несмотря на все трудности, мы нашли эффективную бизнес-модель, которую сейчас и развиваем.

Всегда работает правило 10 тысяч часов. Если занимаешься любой деятельностью длительное время, то в данной сфере ты становишся профессионалом и у тебя начинает получаться. Главное — помнить про это и не опустить руки заранее. А лучше устроиться в компанию со сходным проектом и просто перенять положительный опыт. Так намного быстрее.

Ссылка на все B2B проекты, описанные в статье

По всем вопросам пишите на [email protected]

0
28 комментариев
Написать комментарий...
Ivan Off
Третим проектом, где стал использоваться сервер, стал большой e-commerce сайт в азиатском регионе. Нужен был автоматический перевод описаний товаров на 87 языков.

Это оно?

Ответить
Развернуть ветку
Alexei Rudak
Автор

Другой магазин. Но Aliexpress точно нужен другой переводчик )))

Ответить
Развернуть ветку
Aleksandr Makarov

Разрываю отверстие профессионально. Обращайтесь.

Ответить
Развернуть ветку
Босько Людмила

очень похоже

Ответить
Развернуть ветку
Николай Петров

Зато приватно

Ответить
Развернуть ветку
Rabbit Rabbin

Напишите потом, окупились хоть, нет.

Ответить
Развернуть ветку
Igor Batkovich

Я знаю как окупить все видеокарточки за 10 месяцев :-)

Ответить
Развернуть ветку
Oleg Oleg

Если компьютер сможет делать перевод на уровне живого человека, то стоит его сразу выключить. Потому что он обрел разум.

Ответить
Развернуть ветку
Champ

Если конвейер сможет выполнять задачи быстрее, чем человек - его надо выключить. Потому что он обрел разум.

Если робот-пылесос убирает дом быстрее, чем женщина с тряпкой - его надо выключить.

И далее по списку) Логика 👍🏼

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Oleg Oleg

Вы не ощущаете разницу между конвейером и способностью переводить иностранный текст?
Кстати, конвейер сам по себе ничего не выполняет, он просто передвигает предметы, стоящие на нём.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Oleg Oleg

Похоже у вас есть опыт:)

Ответить
Развернуть ветку
Саша Антипов

Особенно по грамматике, компьютеру тут без 50 гр. не разобраться.

Ответить
Развернуть ветку
Jonathan Lynn

Для простых задач уже делает, нейронки хороши натренированы. Для сложных комплексных текстов это невозможно физически, т.к. нет такой базы переводов, что бы на них натренировать нейронку.

Ответить
Развернуть ветку
Oleg Oleg

Похоже, роботы минусуют. Вообще уже не парятся спалиться.

Ответить
Развернуть ветку
Антон Лапухин

Потрясающая история :) Прочитал на одном дыхании первую и вторую статью.

Круто, что получилось прийти к стабильной бизнес-модели. Желаю успехов в будущем.

Пишите ещё!

Ответить
Развернуть ветку
Alex

У меня получилось прочитать только на двух дыханиях

Ответить
Развернуть ветку
Denis Bystruev
основа любого успешного дела — люди. Не идея, не рынок, не технология, а именно команда

Отличный вывод. Именно поэтому не работает тупое копирование идей — у одной команды реализация успешна, у другой — нет. Нужно покупать людей.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Александр Кузнецов

брать дорогие V100 не позволяли финансы.

Пишет человек в статье с названием "как я потратил миллион долларов"

Ну да, ну да..

Ответить
Развернуть ветку
Alexei Rudak
Автор

Этот миллион был потрачен в течении 7 лет. 1000000 / 12 мес * 7 = 11900 $ дол / мес (в среднем)

1 сервер с 8 x V100 стоит 10 тыс долларов в месяц.

А еще фирма, 100 разных серверов, ЗП для команды, использование разных сервисов и куча других расходов.

Ответить
Развернуть ветку
Алик Антипов

Мне кажется что в погоне за количеством вы явно проиграли в качестве. Все решения должны быть простыми и элегантными.
Переводы, дело прошлого. Заставить железку понимать смысл, разделять участников диалогов, осознавать время и место действия,уметь выражать в своих ответах эмоции, вот это задачка((

Ответить
Развернуть ветку
Alexei Rudak
Автор

Не все сразу. Всегда можно делать много разных интересных вещей, если есть деньги. Сейчас у нас стоит задача выйти на самоокупаемость.

Ответить
Развернуть ветку
Mikhail Che

здорово, недавно тормознул один небольшой проект из-за стоимости гугл апи, буду иметь вас ввиду)

Ответить
Развернуть ветку
Yura Kononov

Я так и не увидел, где его в Гугл маркете скачать можно? Или для ПК
Дополнение. Нашёл в Гугле. У твоего приложения Lingvonex оценка 3 балла.
Чёт мало

Ответить
Развернуть ветку
Alexei Rudak
Автор

Вот ссылка на Google Play

https://play.google.com/store/apps/details?id=com.nordicwise.translator&hl=ru&gl=US

Сейчас средняя оценка 4.3

Но как я и писал в статье, сейчас фокус у нас B2B. Приложения перестали развивать, так как они не приносят достаточно прибыли.

Вот тут ссылки на все приложения

https://lingvanex.com/products/

Ответить
Развернуть ветку
Анатолий Евладов

Доброго дня! Зарегистрировался специально что бы комментарий оставить)
Вообще - очень интересно, очень хочется попробовать, но хотелось бы понять что именно входит в эти 2 000 евро сервера.. я правильно понимаю что "сервер" это софт который придется поставить на настоящий сервер (VPS/VDS/Dedicated) на котором имеется видеокарта? Есть где-то сравнения скорости работы на сервере с видеокартой например 1080/2080/Ti/без карты(2.4Ггц/3.2Ггц)? Например на 50 000 символов в запросе?

P.S. Небольшой момент - компания которая профессионально занимается переводами - неужели нельзя сайт сделать на разных языках?)
P.P.S. Поддержка на английском только?)
P.P.P.S. С учетом текущей ситуации работаете ли вы с российскими компаниями/разработчиками?

Ответить
Развернуть ветку
Alexei Rudak
Автор

Добрый день,
1) Можете поставить софт на сервер где нет видеокарты, просто будет работать медленней, где-то раз в 10. То есть 5 тыс символов в секунду переводить относительно карты RTX 3090. Сервер можно поставить на ваш ПК или дешевый облачный сервер за 30 USD / месяц.
2) Поддержка на русском языке тоже есть.
3) Мы работаем с российскими компаниями и любыми другими.
4) В 2000 евро входит функции перевода текста, HTML и файлов.

Напишите на [email protected]

Созвонимся с вами и обсудим все вопросы.

Ответить
Развернуть ветку
25 комментариев
Раскрывать всегда