Нейросеть для автоматической расстановки знаков препинания и исправления опечаток

Нейросеть для автоматической расстановки знаков препинания и исправления опечаток

Приветствую всех. Меня зовут Александр, я автор проекта «Акулы нейронных сетей». Сегодня хочу рассказать вам об одном из сервисов сайта — «Мистере корректоре». Это нейросеть, которая автоматически расставляет знаки препинания и исправляет орфографические ошибки в тексте.

Примеры работы

«Мистер корректор» может расставлять запятые, точки, дефисы, тире и другие знаки препинания, а также исправлять строчное написание букв. Например, пользователь вводит такой текст:

вопрос о том зачем нужна грамотность обсуждается широко и пристрастно казалось бы сегодня когда даже компьютерная программа способна выправить не только орфографию но и смысл от среднестатистического россиянина не требуется знания бесчисленных и порой бессмысленных тонкостей родного правописания

Нейросеть исправляет его следующим образом:

Вопрос о том, зачем нужна грамотность, обсуждается широко и пристрастно. Казалось бы, сегодня, когда даже компьютерная программа способна выправить не только орфографию, но и смысл, от среднестатистического россиянина не требуется знания бесчисленных и порой бессмысленных тонкостей родного правописания.

А вот пример исправления орфографических ошибок и опечаток. Исходный текст выглядел так:

закии прпенания илементы пиисъмеости выпалняющее вспамагательные фуукц например р раздление и выдление мысловх отрезкав текстааа притлажений слофывсочетний слов чистей слова укозаниэ на граматические и лагичиские отнашения межжду словами на камунекативныый тип притложения его емоцеональную акраску законнченось

Исправленный:

Знаки препинания — элементы письменности, выполняющие вспомогательные функции. Например, разделение и выделение смысловых отрезков текста, выделение предложений, словосочетаний, слов и частей слова. Указание на грамматические и логические отношения между словами, на коммуникативный тип предложения, его эмоциональную окраску, законченность.

Процесс создания

Необходимость в таком инструменте у меня возникла во время расшифровки большого количества аудиофайлов. Транскрибацию я делал через нейросеть, которая выдавала сырой текст без знаков препинания, ещё и со множеством ошибок. Чтобы облегчить процесс редактуры, я решил обучить свою нейронку.

В качестве обучающих данных послужили тексты, в который вероятность встретить пунктуационные и орфографические ошибки минимальна: художественная и научная литература, новости, википедия. Всего датасет включал более 2 млн строк.

За основу нейросети была взята seq2seq модель MBart. Несмотря на то, что изначально она разрабатывалась для машинного перевода, модель, на мой взгляд, показывает хорошие результаты для любой задачи «текст в текст».

Как воспользоваться нейросетью?

«Мистер корректор» доступен абсолютно бесплатно. Однако есть лимиты: 5 текстов в час, длина — не более 1000 символов с пробелами. По запросу — доступ к API и увеличение лимитов.

Конечно, профессионального корректора в лице человека эта программа вряд ли заменит, однако мне она сэкономила уйму времени и сил. Надеюсь, этот инструмент пригодится и вам!

7575
64 комментария

Попробовала. Почти хорошо справляется с пунктуационными и орфографическими ошибками, но пропускает такие, как "не в коем случае", "на встречу опасности", "партизанов".
Меняет кое-что в тексте ) Например, пропущенное тире заменено на "является", "преведённый" — на "представленный".

профессионального корректора в лице человека эта программа вряд ли заменитВ этом варианте не заменит, но вместе с Вордом может помочь нерадивым авторам избежать хотя бы половины ошибок.

7

Какие конкретно реализации и оупенсорс продукты использованы, кто автор оригинального корпуса для обучения?

1

Перепиши текст, исправь грамматические ошибки, расставь знаки препинания, разбей текст на абзацы:

chatGPT

12

Данные для датасета собраны мной) Вот основные ссылки на csv-файлы, вдруг кому-то пригодится:
https://drive.google.com/file/d/1DemSoZcNaQKbTCbr0aJY1bGydCYe1s0G/view?usp=sharing
https://drive.google.com/file/d/1udXk090AeL5cuUUYNWzkw518H1upJdBp/view?usp=sharing
https://drive.google.com/file/d/1rLNxVTOnTzzpG0Su5jilFTEjgo-c7Sk6/view?usp=sharing
P.S. Не думаю, что процесс написания парсера и обычный файнтюнинг модели настолько сложны, чтобы была необходимость что-то у кого-то тайно заимствовать)

Ещё никогда я не чувствовал себя таким тупым, как после прочтения комментариев о моделях под этим постом.

Спасибо ребята ❤️

4

Хочешь, напишу коммент, после которого почувствуешь себя тупым бесконечно? Но это не за спасибо, будет стоить денех.

есть классный сервис - Орфограммка, который не только расставляет знаки препинания и исправляет ошибки, но и каждый раз показывает правило русского языка, которое соответствует исправлению. При постоянном использовании правила запоминаются и вы начнете писать грамотнее.

4