Нейросеть для автоматической расстановки знаков препинания и исправления опечаток
Приветствую всех. Меня зовут Александр, я автор проекта «Акулы нейронных сетей». Сегодня хочу рассказать вам об одном из сервисов сайта — «Мистере корректоре». Это нейросеть, которая автоматически расставляет знаки препинания и исправляет орфографические ошибки в тексте.
Примеры работы
«Мистер корректор» может расставлять запятые, точки, дефисы, тире и другие знаки препинания, а также исправлять строчное написание букв. Например, пользователь вводит такой текст:
Нейросеть исправляет его следующим образом:
А вот пример исправления орфографических ошибок и опечаток. Исходный текст выглядел так:
Исправленный:
Процесс создания
Необходимость в таком инструменте у меня возникла во время расшифровки большого количества аудиофайлов. Транскрибацию я делал через нейросеть, которая выдавала сырой текст без знаков препинания, ещё и со множеством ошибок. Чтобы облегчить процесс редактуры, я решил обучить свою нейронку.
В качестве обучающих данных послужили тексты, в который вероятность встретить пунктуационные и орфографические ошибки минимальна: художественная и научная литература, новости, википедия. Всего датасет включал более 2 млн строк.
За основу нейросети была взята seq2seq модель MBart. Несмотря на то, что изначально она разрабатывалась для машинного перевода, модель, на мой взгляд, показывает хорошие результаты для любой задачи «текст в текст».
Как воспользоваться нейросетью?
«Мистер корректор» доступен абсолютно бесплатно. Однако есть лимиты: 5 текстов в час, длина — не более 1000 символов с пробелами. По запросу — доступ к API и увеличение лимитов.
Конечно, профессионального корректора в лице человека эта программа вряд ли заменит, однако мне она сэкономила уйму времени и сил. Надеюсь, этот инструмент пригодится и вам!
Попробовала. Почти хорошо справляется с пунктуационными и орфографическими ошибками, но пропускает такие, как "не в коем случае", "на встречу опасности", "партизанов".
профессионального корректора в лице человека эта программа вряд ли заменитМеняет кое-что в тексте ) Например, пропущенное тире заменено на "является", "преведённый" — на "представленный".
В этом варианте не заменит, но вместе с Вордом может помочь нерадивым авторам избежать хотя бы половины ошибок.
Какие конкретно реализации и оупенсорс продукты использованы, кто автор оригинального корпуса для обучения?
Перепиши текст, исправь грамматические ошибки, расставь знаки препинания, разбей текст на абзацы:
chatGPT
Данные для датасета собраны мной) Вот основные ссылки на csv-файлы, вдруг кому-то пригодится:
https://drive.google.com/file/d/1DemSoZcNaQKbTCbr0aJY1bGydCYe1s0G/view?usp=sharing
https://drive.google.com/file/d/1udXk090AeL5cuUUYNWzkw518H1upJdBp/view?usp=sharing
https://drive.google.com/file/d/1rLNxVTOnTzzpG0Su5jilFTEjgo-c7Sk6/view?usp=sharing
P.S. Не думаю, что процесс написания парсера и обычный файнтюнинг модели настолько сложны, чтобы была необходимость что-то у кого-то тайно заимствовать)
Ещё никогда я не чувствовал себя таким тупым, как после прочтения комментариев о моделях под этим постом.
Спасибо ребята ❤️
Хочешь, напишу коммент, после которого почувствуешь себя тупым бесконечно? Но это не за спасибо, будет стоить денех.
есть классный сервис - Орфограммка, который не только расставляет знаки препинания и исправляет ошибки, но и каждый раз показывает правило русского языка, которое соответствует исправлению. При постоянном использовании правила запоминаются и вы начнете писать грамотнее.
Но... там надо платить )
Этому миру придет пиздец, когда в живых останется вот такая вот "человеко-масса", которой для соблюдения элементарных требований пунктуации нужна нейросеть.
Когда появятся полноценные импланты, отпадет необходимость в традиционном процессе обучения, знания будем получать в виде готовых баз данных, останется только моторику нарабатывать. Проснулся утром - все новости ты уже знаешь. А отключение рекламы во сне (как в Футураме) будет за абонентскую плату :-)
Я к тому, что "человеческая масса" еще впереди
OpenAi делает тоже самое почти на всех языках мира.
Для персонального проекта без бюджета - оверкил. На самом деле если данный продукт и интересен, то в оупенсорсе, с возможностью использовать у себя без всяких денег.
ChatGPT справился с этой задачей с промптом "приведи текст в порядок"
Там небось тупо ChatGPT под капотом?
Можно только от 100 символов? А если одну фразу нужно проверить?
Написано, что минимум — 50. Но да, нужно от 100.
А если одну фразу нужно проверить?А в чем отличие от того же бесплатного бинга, если тут только 5 текстов в час, а результат такой же? Просветите.
У автора задача - корректировать автоматические субтитры. Как вам бесплатный бинг без апи поможет? А если с апи - это уже OpenAI.
Забудем, что chatGPT существует, ОК? А то сейчас свидетели пришествия скайнета любую задачу сводят к использованию закрытого небесплатного продукта.
неплохо исправляет, кстати
Выглядит неплохо, благодарю 👍🏻
Вопросы:
- как с техническими терминами, сленгом дела обстоят?
- продолжается ли обучение?
Круто. Но вообще это достаточно типичная задача "punctuation restoration". Моделей под это много опенсорсных, даже под русский язык:
* https://huggingface.co/kontur-ai/sbert_punc_case_ru
Транскрибацию я делал через нейросеть, которая выдавала сырой текст без знаков препинания, ещё и со множеством ошибок.* https://github.com/sviperm/neuro-comma
Предположу, что это wav2letter (sova или любое другое)? Потому что большинство моделей все-таки имеет под капотом какой-то словарь. И даже наборы словосочетаний. В общем, не очень типичная проблема с ошибками
mBART — a sequence-to-sequence *denoising* auto-encoder pre-trained on large-scale monolingual corpora in many languages using the BART objective
https://github.com/facebookresearch/fairseq/tree/main/examples/mbart
https://huggingface.co/docs/transformers/model_doc/mbart
Это надо в опенорс с лицухой: немного платно начиная с определенной интенсивности использования.
Вопрос, что там в лицензии форкнутого продукта.
Мистер корректор ваше решение?
Казнить нельзя помиловать
Мистер корректор, ваше решение? Казнить нельзя, помиловать.
*
Спросила у него за вас.
В сафари не работает
Крутится круг секунд 15 и ничего не появляется во втором текстовом поле
Просто диктую голосовухи приложению ChatGPT и получаю тот же результат. Без лимитов и на разных языках. Причем я даже не пишу запрос, он делает это прям в окне ввода
Все круто и здорово.
Только "Мистер Корректор", наверное, логичнее и правильнее писать с заглавной буквы. Спросите у своего бота.
то чего не хватало, если еще будет хорошо работать то цены нет этой нейросети
Были бы в мое время такие разработки, я может и отличником бы был
Вот это вот действительно годная нейросеть
Илья принял решение уйти и не снимается больше. Если вы хотите чтобы Илья вернулся тогда напишите под етим роликом много комментариев с хештегом #ИльяВернись.
Правила использования этого ресурса есть? Можете ли Вы ли разместить ссылку на них/сами правила в генераторе? Во избежание споров. Интересует распределение прав на сгенерированный Контент.