Мы решили задачу омографов и ударений в русском языке
Трудный поход длиной в три года
Мы опубликовали библиотеку silero-stress для расстановки ударений в обычных словах и омографах:
- Расставляет ударения, решает омографы, ставит букву ё;- "Знает" порядка 4М русских слов и словоформ и порядка 2K омографов;
- Простановка ударения в обычном 1 слове занимает где-то 0.5 ms, а в предложении на 400 символов с 2 омографами - порядка 30 ms;
- Общий размер библиотеки составляет порядка 50 мегабайт (архив весит порядка 30 мегабайт), что является сжатием словарей и всех датасетов примерно в 400 раз;
- Опубликована под популярной и простой лицензией (MIT);
- Не содержит раздутого кода, лишних библиотек, гигабайтов академических артефактов;
- Зависит только от стандартной библиотеки питона и работает на всех последних версиях PyTorch.
Ставим ⬆ habr.com/ru/articles/955130/
Ставим ⭐ https://github.com/snakers4/silero-stress
Начать дискуссию