Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Решил пройтись по изданиям, которые периодически читаю, и проверить, как у них дела с орфографией. Ниже будет инструкция, с помощью которой можно проверить любой сайт на наличие орфографических ошибок, несколько графиков и файл со всеми собранными данными, списком ошибок и регулярным выражением, которым я пользовался.

Inb4: «сначала сам научись писать»

Русский язык я учил ровно до седьмого класса средней школы — 18 лет назад. Я регулярно делаю некоторые из ошибок, которые нашёл на сайтах из списка. Этот текст перед публикацией вычитывала моя коллега Настя, за что ей большое спаcибо.

Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце материала. Я лично не нашёл таких случаев. То же относится к «мороженному», «рекламной компании» и так далее.

Примеры ошибок я собрал сам из источников, которые нагуглил за пять минут. Источники указаны в том же файле. Если что-то из моего списка не является ошибкой, my bad.

Как проводился анализ

1. Взял регулярное выражение: (?:[^a-zA-Zа-яА-Я0-9_]|^)(агенство|чтоли|net peak)(?:[^a-zA-Zа-яА-Я0-9_]|а-Я|$).

Работает для кириллицы и латиницы. Можно вписать любые слова и словосочетания, которые хотите найти на сайте.

2. Настроил парсер Netpeak Spider на поиск слов и словосочетаний из списка.

Этим же парсером я пользовался, анализируя изменения цен на цветы к 14 февраля и носки к 23 февраля.

Настройки парсинга

3. Просканировал каждый сайт и получил список страниц, на которых были найдены ошибки.

Результаты парсинга

Результаты

На каждом сайте сканирование было остановлено на отметке в 5000 страниц.

Ошибки, которые были найдены в комментариях, вынесены на отдельный график в конце.

Не стоит сравнивать внимательность редакторов, опираясь на этот анализ. Учитывайте, что 5000 страниц одного сайта могут на 30% состоять из служебных страниц, в то время как на другом сайте все 5000 будут гостевыми публикациями.

AIN

Cossa

DOU

«Хабрахабр»

Rusbase

Roem

vc.ru

Ошибки в комментариях

Можно выдохнуть, комментарии на vc.ru подгружаются с помощью JavaScript, так что до следующего обновления Netpeak Spider не получится их спарсить.

Некоторые люди допускают ошибки в некоторых словах. Шок! Сенсация! Как обещал, файл со всеми ошибками, страницами, на которых они были найдены, списком слов, источниками и готовым регулярным выражением для проверки сайта.

0
46 комментариев
Написать комментарий...
ivan krapivin

Вобщем это как-будто рекламная компания от мороженного агенства

Ответить
Развернуть ветку
Василий Водокачкин

это и от перепутано местами

Ответить
Развернуть ветку
Vladimir Polo

Это уже третья (четвёртая, пятая?) статья автора, где он массово анализирует какие-либо показатели на разных сайтах. Помню анализ цен на цветы, на суши и т.д.
Местами смешно, но, надо признать, достаточно любопытный формат статей получается.

Давайте вместе накидаем ему идей для будущих анализов! Раз уж Игорь любит всё анализировать, пусть делает анализы регулярными.
Например:
- упоминание всеми любимых слов типа Биткоин, ICO, и т.д. в комментариях на VC. В стиле "первое упоминание биткоина на VC было в далёком 2012 году, а самый пик обсуждения пришёлся на июнь 2017". Короче, график по месяцам и количеству таких комментариев.

- изменения цен на товары в зависимости от курса рубля (как раз сейчас удобный момент для анализа).

Какие ещё есть идеи?

Ответить
Развернуть ветку
Artem Melikian

Можно актуализировать статью о том, как найти тему для срача:
https://netpeak.net/ru/blog/kak-naiti-temu-dlya-sracha-na-primere-vc-ru/
Интересно, как за год поменялись тренды:)

Ответить
Развернуть ветку
Максим Федоров

табуляция или пробел
Yii2 или Laravel
PHP или Python
ООП или функциональщина
5 колонна или воры во власти
оповещать федеральные сайты об уязвимосте или сразу публиковать на Хабре
санкции — добро или зло
Айфон или Андроид
Макубк или жирный какой-то дорогой Леново
Windows или Linux
тачпад или мышь
нужен английский или нет
нужно тестовое задание или нет
платить налоги преступной власти или нет
бунт или бутылка
Телеграм или аська
США или Россия
Пенсионеры или олимпийские чемпионы
Пенсионеры или ракеты
Пенсионеры или Дерипаска
Дороги или уточка

Ответить
Развернуть ветку
Artem Melikian

Можно открывать свой блог с блекджеком.

Ответить
Развернуть ветку
Раися Вперде
Автор

Можно просто находить статьи со спорными ошибками и самостоятельно устраивать срач с автором.

Ответить
Развернуть ветку
AS

Страница не грузится, так что го срач!

Ответить
Развернуть ветку
Nikita Bovykin

забыли "Элон Маск"

Ответить
Развернуть ветку
Artem Borodatyuk

Очевидно, что статья проплачена RB.ru!

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Константин Панфилов

Никто здесь не путает цифры и числа, что за нелепый наброс?

Ответить
Развернуть ветку
Anton Zhitarev

ой ли?
16 миллиардов это не цифра, а число

Ответить
Развернуть ветку
Константин Панфилов

Ну да, поэтому мы пишем «цифры», их тут несколько. Из них состоит число. Это название рубрики. Ещё примеры?

Ответить
Развернуть ветку
Anton Zhitarev

Вы пишете про число 16 млрд, а не про цифры 1, 6 и 0.
Не виляйте.

Ответить
Развернуть ветку
Константин Панфилов

Перечитайте мой комментарий. У вас есть примеры настоящих ошибок или вы так, поболтать?

Ответить
Развернуть ветку
Anton Zhitarev

Перечитайте мой комментарий, в нём указано на настоящую ошибку.

Ответить
Развернуть ветку
Константин Панфилов

Я понял, просто поболтать. Хорошего дня!

Ответить
Развернуть ветку
Anton Zhitarev

Так и запишем - гуманитарий не смог отличить число от цифры.

Ответить
Развернуть ветку
Константин Панфилов

Ничего, скоро научитесь отличать.

Ответить
Развернуть ветку
Michael Mann

Надо было еще «Телеграмм» и «Инстаграмм» добавить в поиск.

Ответить
Развернуть ветку
Alexander Matveev
в течении

А может, там про «в течении реки»? (:

Ответить
Развернуть ветку
Alexandra Metiza

так он же написал, что это может быть верным
просто шанс встретить описания водных каналов в технологических / маркетинговых материалах ничтожно мал, не находите?)

Ответить
Развернуть ветку
Alexander Dembovski

А слово "впридачу" чем не угодило, интересно?

UPD. Век живи - век учись.

Ответить
Развернуть ветку
Раися Вперде
Автор
Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце статьи. Я лично не нашел таких случаев. То же относится к «мороженному» , «рекламной компании» и т.д..

Специально проверял руками, к сожалению, нет :D

Ответить
Развернуть ветку
Alexander Matveev

Понятно, спасибо :)

Ответить
Развернуть ветку
Roman Skrupnyk

Насчёт Cossa.

Страницы вида https://www.cossa.ru/profile/?ID=____ имеет смысл отнести к комментариям, так как профиль заполняет зарегистрированный пользователь — это личный профиль автора, редакция его не правит.

Ответить
Развернуть ветку
Раися Вперде
Автор

Я об этом тоже думал, но решил что страница профиля это доволно важный контент, и ошибки там критичнее чем ошибки в комментариях, не хотелось рисовать ещё один график.

Ответить
Развернуть ветку
Artem Melikian

Ладно, грамар-наци, признавайтесь, в каких словах вы косячите? Какие слова заставляют вас лезть в словари?
Начну с себя: "так же/также". 100 раз уже вычитывал и запоминал как правильно в каких случаях. И каждый раз забываю. Бесит.

Ответить
Развернуть ветку
Alex Wise

У меня когда-то было "в смысле", "быть в курсе", "иметь в виду". Круто всё это вспоминать и неплохо было бы проверить, как сейчас пишут :)

Ответить
Развернуть ветку
Константин Панфилов

Давайте писать название vc.ru правильно 🙌

Ответить
Развернуть ветку
Раися Вперде
Автор

знать бы ещё как правильно. пока поменял VC на vc. Об этом речь?

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Иван Гессе

а ударение куда ставить?

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Иван Гессе

можно еще вариант с украинским происхождением рассмотреть

Ответить
Развернуть ветку
Константин Панфилов

Ну вот у меня в комментарии правильно

Ответить
Развернуть ветку
Раися Вперде
Автор

today I learned

Ответить
Развернуть ветку
Алексей Степанов

Довольно сомнительный метод. Ну исправите вы 10 ошибок на сайте, а там еще может быть 1000 других ошибок, которые вы не учли.

Ответить
Развернуть ветку
Раися Вперде
Автор

Как правило владельцы сайтов знают свои болезни, живой кейс – фирма продающая краски во Франции, US и UK, нужно было проверить нет ли в разных версиях сайтов мешанины слов color и colour.

Суть не в поиске всех грамматических ошибок на сайте.

Ответить
Развернуть ветку
Anton Zhitarev

Словосочетание "Рекламная компания" имеет право на жизнь - рекламная компания ООО "Бубудукин и партнёры" раскрутит ваш профиль в одноклассниках при помощи авторской кампании.
Брелки и брелоки: можно и так и так писать.

Ответить
Развернуть ветку
Раися Вперде
Автор
Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце статьи. Я лично не нашел таких случаев. То же относится к «мороженному» , «рекламной компании» и т.д..

В этой выборке нет. С рекламной компанией конкретно был один пример, я его удалил из результатов.

Ответить
Развернуть ветку
Anton Zhitarev
Ответить
Развернуть ветку
Станислав Романов

Больная тема уж :)

Ответить
Развернуть ветку
Ivan Ganev

В списке ошибок нет ихним/ихний - а было бы интересно посмотреть используют это слово (или "слово" для тех кто не считает это словом, а ошибкой).

Ответить
Развернуть ветку
Revertron

Больше всего я встречаю случаи двух ошибок в одном коротком слове. И слово это "никакой". Пишут "не какой". Либо "не чего" вместо "ничего". Ну и вариаций на эту тему бывает несколько.

Ответить
Развернуть ветку
Alex Ilyin

Все эти показатели нужно нормировать на общее число комментариев и общее число упоминаний каждого слова, тогда можно сравнить.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
43 комментария
Раскрывать всегда