Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Решил пройтись по изданиям, которые периодически читаю, и проверить, как у них дела с орфографией. Ниже будет инструкция, с помощью которой можно проверить любой сайт на наличие орфографических ошибок, несколько графиков и файл со всеми собранными данными, списком ошибок и регулярным выражением, которым я пользовался.

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Inb4: «сначала сам научись писать»

Русский язык я учил ровно до седьмого класса средней школы — 18 лет назад. Я регулярно делаю некоторые из ошибок, которые нашёл на сайтах из списка. Этот текст перед публикацией вычитывала моя коллега Настя, за что ей большое спаcибо.

Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце материала. Я лично не нашёл таких случаев. То же относится к «мороженному», «рекламной компании» и так далее.

Примеры ошибок я собрал сам из источников, которые нагуглил за пять минут. Источники указаны в том же файле. Если что-то из моего списка не является ошибкой, my bad.

Как проводился анализ

1. Взял регулярное выражение: (?:[^a-zA-Zа-яА-Я0-9_]|^)(агенство|чтоли|net peak)(?:[^a-zA-Zа-яА-Я0-9_]|а-Я|$).

Работает для кириллицы и латиницы. Можно вписать любые слова и словосочетания, которые хотите найти на сайте.

2. Настроил парсер Netpeak Spider на поиск слов и словосочетаний из списка.

Этим же парсером я пользовался, анализируя изменения цен на цветы к 14 февраля и носки к 23 февраля.

Настройки парсинга
Настройки парсинга

3. Просканировал каждый сайт и получил список страниц, на которых были найдены ошибки.

Результаты парсинга
Результаты парсинга

Результаты

На каждом сайте сканирование было остановлено на отметке в 5000 страниц.

Ошибки, которые были найдены в комментариях, вынесены на отдельный график в конце.

Не стоит сравнивать внимательность редакторов, опираясь на этот анализ. Учитывайте, что 5000 страниц одного сайта могут на 30% состоять из служебных страниц, в то время как на другом сайте все 5000 будут гостевыми публикациями.

AIN

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Cossa

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

DOU

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

«Хабрахабр»

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Rusbase

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Roem

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

vc.ru

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Ошибки в комментариях

Можно выдохнуть, комментарии на vc.ru подгружаются с помощью JavaScript, так что до следующего обновления Netpeak Spider не получится их спарсить.

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Некоторые люди допускают ошибки в некоторых словах. Шок! Сенсация! Как обещал, файл со всеми ошибками, страницами, на которых они были найдены, списком слов, источниками и готовым регулярным выражением для проверки сайта.

4141
46 комментариев

Вобщем это как-будто рекламная компания от мороженного агенства

34

это и от перепутано местами

Это уже третья (четвёртая, пятая?) статья автора, где он массово анализирует какие-либо показатели на разных сайтах. Помню анализ цен на цветы, на суши и т.д.
Местами смешно, но, надо признать, достаточно любопытный формат статей получается.

Давайте вместе накидаем ему идей для будущих анализов! Раз уж Игорь любит всё анализировать, пусть делает анализы регулярными.
Например:
- упоминание всеми любимых слов типа Биткоин, ICO, и т.д. в комментариях на VC. В стиле "первое упоминание биткоина на VC было в далёком 2012 году, а самый пик обсуждения пришёлся на июнь 2017". Короче, график по месяцам и количеству таких комментариев.

- изменения цен на товары в зависимости от курса рубля (как раз сейчас удобный момент для анализа).

Какие ещё есть идеи?

14

Можно актуализировать статью о том, как найти тему для срача:
https://netpeak.net/ru/blog/kak-naiti-temu-dlya-sracha-na-primere-vc-ru/
Интересно, как за год поменялись тренды:)

6

забыли "Элон Маск"

4

Очевидно, что статья проплачена RB.ru!

4