{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","hash":"257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

Нейросеть для автоматической расстановки знаков препинания и исправления опечаток

Приветствую всех. Меня зовут Александр, я автор проекта «Акулы нейронных сетей». Сегодня хочу рассказать вам об одном из сервисов сайта — «Мистере корректоре». Это нейросеть, которая автоматически расставляет знаки препинания и исправляет орфографические ошибки в тексте.

Примеры работы

«Мистер корректор» может расставлять запятые, точки, дефисы, тире и другие знаки препинания, а также исправлять строчное написание букв. Например, пользователь вводит такой текст:

вопрос о том зачем нужна грамотность обсуждается широко и пристрастно казалось бы сегодня когда даже компьютерная программа способна выправить не только орфографию но и смысл от среднестатистического россиянина не требуется знания бесчисленных и порой бессмысленных тонкостей родного правописания

Нейросеть исправляет его следующим образом:

Вопрос о том, зачем нужна грамотность, обсуждается широко и пристрастно. Казалось бы, сегодня, когда даже компьютерная программа способна выправить не только орфографию, но и смысл, от среднестатистического россиянина не требуется знания бесчисленных и порой бессмысленных тонкостей родного правописания.

А вот пример исправления орфографических ошибок и опечаток. Исходный текст выглядел так:

закии прпенания илементы пиисъмеости выпалняющее вспамагательные фуукц например р раздление и выдление мысловх отрезкав текстааа притлажений слофывсочетний слов чистей слова укозаниэ на граматические и лагичиские отнашения межжду словами на камунекативныый тип притложения его емоцеональную акраску законнченось

Исправленный:

Знаки препинания — элементы письменности, выполняющие вспомогательные функции. Например, разделение и выделение смысловых отрезков текста, выделение предложений, словосочетаний, слов и частей слова. Указание на грамматические и логические отношения между словами, на коммуникативный тип предложения, его эмоциональную окраску, законченность.

Процесс создания

Необходимость в таком инструменте у меня возникла во время расшифровки большого количества аудиофайлов. Транскрибацию я делал через нейросеть, которая выдавала сырой текст без знаков препинания, ещё и со множеством ошибок. Чтобы облегчить процесс редактуры, я решил обучить свою нейронку.

В качестве обучающих данных послужили тексты, в который вероятность встретить пунктуационные и орфографические ошибки минимальна: художественная и научная литература, новости, википедия. Всего датасет включал более 2 млн строк.

За основу нейросети была взята seq2seq модель MBart. Несмотря на то, что изначально она разрабатывалась для машинного перевода, модель, на мой взгляд, показывает хорошие результаты для любой задачи «текст в текст».

Как воспользоваться нейросетью?

«Мистер корректор» доступен абсолютно бесплатно. Однако есть лимиты: 5 текстов в час, длина — не более 1000 символов с пробелами. По запросу — доступ к API и увеличение лимитов.

Конечно, профессионального корректора в лице человека эта программа вряд ли заменит, однако мне она сэкономила уйму времени и сил. Надеюсь, этот инструмент пригодится и вам!

0
64 комментария
Написать комментарий...
О. Чайкина

Попробовала. Почти хорошо справляется с пунктуационными и орфографическими ошибками, но пропускает такие, как "не в коем случае", "на встречу опасности", "партизанов".
Меняет кое-что в тексте ) Например, пропущенное тире заменено на "является", "преведённый" — на "представленный".

профессионального корректора в лице человека эта программа вряд ли заменит

В этом варианте не заменит, но вместе с Вордом может помочь нерадивым авторам избежать хотя бы половины ошибок.

Ответить
Развернуть ветку
AlSh

Какие конкретно реализации и оупенсорс продукты использованы, кто автор оригинального корпуса для обучения?

Ответить
Развернуть ветку
Роман Рабочий

Перепиши текст, исправь грамматические ошибки, расставь знаки препинания, разбей текст на абзацы:

chatGPT

Ответить
Развернуть ветку
8 комментариев
Александр Ильин
Автор

Данные для датасета собраны мной) Вот основные ссылки на csv-файлы, вдруг кому-то пригодится:
https://drive.google.com/file/d/1DemSoZcNaQKbTCbr0aJY1bGydCYe1s0G/view?usp=sharing
https://drive.google.com/file/d/1udXk090AeL5cuUUYNWzkw518H1upJdBp/view?usp=sharing
https://drive.google.com/file/d/1rLNxVTOnTzzpG0Su5jilFTEjgo-c7Sk6/view?usp=sharing
P.S. Не думаю, что процесс написания парсера и обычный файнтюнинг модели настолько сложны, чтобы была необходимость что-то у кого-то тайно заимствовать)

Ответить
Развернуть ветку
Невероятный Блондин

Ещё никогда я не чувствовал себя таким тупым, как после прочтения комментариев о моделях под этим постом.

Спасибо ребята ❤️

Ответить
Развернуть ветку
Монохромный Ретропанк

Хочешь, напишу коммент, после которого почувствуешь себя тупым бесконечно? Но это не за спасибо, будет стоить денех.

Ответить
Развернуть ветку
6 комментариев
Yuri K

есть классный сервис - Орфограммка, который не только расставляет знаки препинания и исправляет ошибки, но и каждый раз показывает правило русского языка, которое соответствует исправлению. При постоянном использовании правила запоминаются и вы начнете писать грамотнее.

Ответить
Развернуть ветку
О. Чайкина

Но... там надо платить )

Ответить
Развернуть ветку
2 комментария
Абьюзы Оптом

Этому миру придет пиздец, когда в живых останется вот такая вот "человеко-масса", которой для соблюдения элементарных требований пунктуации нужна нейросеть.

Ответить
Развернуть ветку
Yuri K

Когда появятся полноценные импланты, отпадет необходимость в традиционном процессе обучения, знания будем получать в виде готовых баз данных, останется только моторику нарабатывать. Проснулся утром - все новости ты уже знаешь. А отключение рекламы во сне (как в Футураме) будет за абонентскую плату :-)
Я к тому, что "человеческая масса" еще впереди

Ответить
Развернуть ветку
2 комментария
Платон Щукин

OpenAi делает тоже самое почти на всех языках мира.

Ответить
Развернуть ветку
AlSh

Для персонального проекта без бюджета - оверкил. На самом деле если данный продукт и интересен, то в оупенсорсе, с возможностью использовать у себя без всяких денег.

Ответить
Развернуть ветку
1 комментарий
Ватник Наизнанку

ChatGPT справился с этой задачей с промптом "приведи текст в порядок"

Ответить
Развернуть ветку
Denis Chernov

Там небось тупо ChatGPT под капотом?

Ответить
Развернуть ветку
умный человек

Можно только от 100 символов? А если одну фразу нужно проверить?

Ответить
Развернуть ветку
О. Чайкина

Написано, что минимум — 50. Но да, нужно от 100.

А если одну фразу нужно проверить?
Ответить
Развернуть ветку
IWASVERYBAD

А в чем отличие от того же бесплатного бинга, если тут только 5 текстов в час, а результат такой же? Просветите.

Ответить
Развернуть ветку
AlSh

У автора задача - корректировать автоматические субтитры. Как вам бесплатный бинг без апи поможет? А если с апи - это уже OpenAI.

Забудем, что chatGPT существует, ОК? А то сейчас свидетели пришествия скайнета любую задачу сводят к использованию закрытого небесплатного продукта.

Ответить
Развернуть ветку
2 комментария
Milton Fridman

неплохо исправляет, кстати

Ответить
Развернуть ветку
Вадим Д.

Выглядит неплохо, благодарю 👍🏻

Вопросы:
- как с техническими терминами, сленгом дела обстоят?
- продолжается ли обучение?

Ответить
Развернуть ветку
Sergei Zotov

Круто. Но вообще это достаточно типичная задача "punctuation restoration". Моделей под это много опенсорсных, даже под русский язык:

* https://huggingface.co/kontur-ai/sbert_punc_case_ru
* https://github.com/sviperm/neuro-comma

Транскрибацию я делал через нейросеть, которая выдавала сырой текст без знаков препинания, ещё и со множеством ошибок.

Предположу, что это wav2letter (sova или любое другое)? Потому что большинство моделей все-таки имеет под капотом какой-то словарь. И даже наборы словосочетаний. В общем, не очень типичная проблема с ошибками

Ответить
Развернуть ветку
AlSh

mBART — a sequence-to-sequence *denoising* auto-encoder pre-trained on large-scale monolingual corpora in many languages using the BART objective

https://github.com/facebookresearch/fairseq/tree/main/examples/mbart
https://huggingface.co/docs/transformers/model_doc/mbart

Ответить
Развернуть ветку
5 комментариев
Alexander D

Это надо в опенорс с лицухой: немного платно начиная с определенной интенсивности использования.

Ответить
Развернуть ветку
AlSh

Вопрос, что там в лицензии форкнутого продукта.

Ответить
Развернуть ветку
Горшочек вари!

Мистер корректор ваше решение?
Казнить нельзя помиловать

Ответить
Развернуть ветку
О. Чайкина

Мистер корректор, ваше решение? Казнить нельзя, помиловать.
*
Спросила у него за вас.

Ответить
Развернуть ветку
4 комментария
Andre Andre

В сафари не работает
Крутится круг секунд 15 и ничего не появляется во втором текстовом поле

Ответить
Развернуть ветку
Alex Ayer

Просто диктую голосовухи приложению ChatGPT и получаю тот же результат. Без лимитов и на разных языках. Причем я даже не пишу запрос, он делает это прям в окне ввода

Ответить
Развернуть ветку
Rax034

Все круто и здорово.
Только "Мистер Корректор", наверное, логичнее и правильнее писать с заглавной буквы. Спросите у своего бота.

Ответить
Развернуть ветку
Михаил Фирсов

то чего не хватало, если еще будет хорошо работать то цены нет этой нейросети

Ответить
Развернуть ветку
Василий Алёхин

Были бы в мое время такие разработки, я может и отличником бы был

Ответить
Развернуть ветку
Уравновешенный Ганс

Вот это вот действительно годная нейросеть

Ответить
Развернуть ветку
Роман Костюк

Илья принял решение уйти и не снимается больше. Если вы хотите чтобы Илья вернулся тогда напишите под етим роликом много комментариев с хештегом #ИльяВернись.

Ответить
Развернуть ветку
Максим

Правила использования этого ресурса есть? Можете ли Вы ли разместить ссылку на них/сами правила в генераторе? Во избежание споров. Интересует распределение прав на сгенерированный Контент.

Ответить
Развернуть ветку
61 комментарий
Раскрывать всегда