Как я потратил $600 тысяч и пять лет, чтобы сделать свой переводчик

Ещё со школы мне хотелось сделать свой проект и заработать много денег. Закончив вуз, я ездил в столицу, где устраивался работать программистом, а потом накапливал деньги и увольнялся, чтобы создавать собственные проекты.

184184

Спасибо за статью. 

Какое-то время назад тоже пришлось позаниматься машинным переводом. Цель была сделать оффлайн перевод для iOS. Основная проблема была - найти качественный датасет. Т.к. для обучения использовал параллельные субтитры, а они далеко не всегда один в один соответствуют друг другу.
Так же накладывала ограничение на структуру сетки конвертация в CoreML, т.к. там есть ограничения, не всякий слой можно было безболезненно сконвертировать. В целом, сетка переводила не плохо, даже с учетом грязного датасета. Но явно не дотягивала до необходимого качаества) Хотя, в целом, опыт получил интересный)

Я тоже использовал субтитры для тренировки, но их надо сильно фильтровать. И это задача не из легких. Самые лучшие датасеты, на мой взгляд - это заседания Европарламента.