Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru
Решил пройтись по изданиям, которые периодически читаю, и проверить, как у них дела с орфографией. Ниже будет инструкция, с помощью которой можно проверить любой сайт на наличие орфографических ошибок, несколько графиков и файл со всеми собранными данными, списком ошибок и регулярным выражением, которым я пользовался.
Inb4: «сначала сам научись писать»
Русский язык я учил ровно до седьмого класса средней школы — 18 лет назад. Я регулярно делаю некоторые из ошибок, которые нашёл на сайтах из списка. Этот текст перед публикацией вычитывала моя коллега Настя, за что ей большое спаcибо.
Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце материала. Я лично не нашёл таких случаев. То же относится к «мороженному», «рекламной компании» и так далее.
Примеры ошибок я собрал сам из источников, которые нагуглил за пять минут. Источники указаны в том же файле. Если что-то из моего списка не является ошибкой, my bad.
Как проводился анализ
1. Взял регулярное выражение: (?:[^a-zA-Zа-яА-Я0-9_]|^)(агенство|чтоли|net peak)(?:[^a-zA-Zа-яА-Я0-9_]|а-Я|$).
Работает для кириллицы и латиницы. Можно вписать любые слова и словосочетания, которые хотите найти на сайте.
2. Настроил парсер Netpeak Spider на поиск слов и словосочетаний из списка.
Этим же парсером я пользовался, анализируя изменения цен на цветы к 14 февраля и носки к 23 февраля.
3. Просканировал каждый сайт и получил список страниц, на которых были найдены ошибки.
Результаты
На каждом сайте сканирование было остановлено на отметке в 5000 страниц.
Ошибки, которые были найдены в комментариях, вынесены на отдельный график в конце.
Не стоит сравнивать внимательность редакторов, опираясь на этот анализ. Учитывайте, что 5000 страниц одного сайта могут на 30% состоять из служебных страниц, в то время как на другом сайте все 5000 будут гостевыми публикациями.
AIN
Cossa
DOU
«Хабрахабр»
Rusbase
Roem
vc.ru
Ошибки в комментариях
Можно выдохнуть, комментарии на vc.ru подгружаются с помощью JavaScript, так что до следующего обновления Netpeak Spider не получится их спарсить.
Некоторые люди допускают ошибки в некоторых словах. Шок! Сенсация! Как обещал, файл со всеми ошибками, страницами, на которых они были найдены, списком слов, источниками и готовым регулярным выражением для проверки сайта.
Это уже третья (четвёртая, пятая?) статья автора, где он массово анализирует какие-либо показатели на разных сайтах. Помню анализ цен на цветы, на суши и т.д.
Местами смешно, но, надо признать, достаточно любопытный формат статей получается.
Давайте вместе накидаем ему идей для будущих анализов! Раз уж Игорь любит всё анализировать, пусть делает анализы регулярными.
Например:
- упоминание всеми любимых слов типа Биткоин, ICO, и т.д. в комментариях на VC. В стиле "первое упоминание биткоина на VC было в далёком 2012 году, а самый пик обсуждения пришёлся на июнь 2017". Короче, график по месяцам и количеству таких комментариев.
- изменения цен на товары в зависимости от курса рубля (как раз сейчас удобный момент для анализа).
Какие ещё есть идеи?
Можно актуализировать статью о том, как найти тему для срача:
https://netpeak.net/ru/blog/kak-naiti-temu-dlya-sracha-na-primere-vc-ru/
Интересно, как за год поменялись тренды:)
табуляция или пробел
Yii2 или Laravel
PHP или Python
ООП или функциональщина
5 колонна или воры во власти
оповещать федеральные сайты об уязвимосте или сразу публиковать на Хабре
санкции — добро или зло
Айфон или Андроид
Макубк или жирный какой-то дорогой Леново
Windows или Linux
тачпад или мышь
нужен английский или нет
нужно тестовое задание или нет
платить налоги преступной власти или нет
бунт или бутылка
Телеграм или аська
США или Россия
Пенсионеры или олимпийские чемпионы
Пенсионеры или ракеты
Пенсионеры или Дерипаска
Дороги или уточка
Комментарий удален
Ну да, поэтому мы пишем «цифры», их тут несколько. Из них состоит число. Это название рубрики. Ещё примеры?
Вы пишете про число 16 млрд, а не про цифры 1, 6 и 0.
Не виляйте.
Перечитайте мой комментарий. У вас есть примеры настоящих ошибок или вы так, поболтать?
так он же написал, что это может быть верным
просто шанс встретить описания водных каналов в технологических / маркетинговых материалах ничтожно мал, не находите?)
А слово "впридачу" чем не угодило, интересно?
UPD. Век живи - век учись.
Насчёт Cossa.
Страницы вида https://www.cossa.ru/profile/?ID=____ имеет смысл отнести к комментариям, так как профиль заполняет зарегистрированный пользователь — это личный профиль автора, редакция его не правит.
Ладно, грамар-наци, признавайтесь, в каких словах вы косячите? Какие слова заставляют вас лезть в словари?
Начну с себя: "так же/также". 100 раз уже вычитывал и запоминал как правильно в каких случаях. И каждый раз забываю. Бесит.
Довольно сомнительный метод. Ну исправите вы 10 ошибок на сайте, а там еще может быть 1000 других ошибок, которые вы не учли.
Словосочетание "Рекламная компания" имеет право на жизнь - рекламная компания ООО "Бубудукин и партнёры" раскрутит ваш профиль в одноклассниках при помощи авторской кампании.
Брелки и брелоки: можно и так и так писать.
В списке ошибок нет ихним/ихний - а было бы интересно посмотреть используют это слово (или "слово" для тех кто не считает это словом, а ошибкой).
Больше всего я встречаю случаи двух ошибок в одном коротком слове. И слово это "никакой". Пишут "не какой". Либо "не чего" вместо "ничего". Ну и вариаций на эту тему бывает несколько.
Все эти показатели нужно нормировать на общее число комментариев и общее число упоминаний каждого слова, тогда можно сравнить.
Комментарий удален
Комментарии