Мы решили задачу омографов и ударений в русском языке

Трудный поход длиной в три года
Трудный поход длиной в три года

Мы опубликовали библиотеку silero-stress для расстановки ударений в обычных словах и омографах:

  • Расставляет ударения, решает омографы, ставит букву ё;- "Знает" порядка 4М русских слов и словоформ и порядка 2K омографов;
  • Простановка ударения в обычном 1 слове занимает где-то 0.5 ms, а в предложении на 400 символов с 2 омографами - порядка 30 ms;
  • Общий размер библиотеки составляет порядка 50 мегабайт (архив весит порядка 30 мегабайт), что является сжатием словарей и всех датасетов примерно в 400 раз;
  • Опубликована под популярной и простой лицензией (MIT);
  • Не содержит раздутого кода, лишних библиотек, гигабайтов академических артефактов;
  • Зависит только от стандартной библиотеки питона и работает на всех последних версиях PyTorch.
Начать дискуссию