Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru
Решил пройтись по изданиям, которые периодически читаю, и проверить, как у них дела с орфографией. Ниже будет инструкция, с помощью которой можно проверить любой сайт на наличие орфографических ошибок, несколько графиков и файл со всеми собранными данными, списком ошибок и регулярным выражением, которым я пользовался.
Inb4: «сначала сам научись писать»
Русский язык я учил ровно до седьмого класса средней школы — 18 лет назад. Я регулярно делаю некоторые из ошибок, которые нашёл на сайтах из списка. Этот текст перед публикацией вычитывала моя коллега Настя, за что ей большое спаcибо.
Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце материала. Я лично не нашёл таких случаев. То же относится к «мороженному», «рекламной компании» и так далее.
Примеры ошибок я собрал сам из источников, которые нагуглил за пять минут. Источники указаны в том же файле. Если что-то из моего списка не является ошибкой, my bad.
Как проводился анализ
1. Взял регулярное выражение: (?:[^a-zA-Zа-яА-Я0-9_]|^)(агенство|чтоли|net peak)(?:[^a-zA-Zа-яА-Я0-9_]|а-Я|$).
Работает для кириллицы и латиницы. Можно вписать любые слова и словосочетания, которые хотите найти на сайте.
2. Настроил парсер Netpeak Spider на поиск слов и словосочетаний из списка.
Этим же парсером я пользовался, анализируя изменения цен на цветы к 14 февраля и носки к 23 февраля.
3. Просканировал каждый сайт и получил список страниц, на которых были найдены ошибки.
Результаты
На каждом сайте сканирование было остановлено на отметке в 5000 страниц.
Ошибки, которые были найдены в комментариях, вынесены на отдельный график в конце.
Не стоит сравнивать внимательность редакторов, опираясь на этот анализ. Учитывайте, что 5000 страниц одного сайта могут на 30% состоять из служебных страниц, в то время как на другом сайте все 5000 будут гостевыми публикациями.
AIN
Cossa
DOU
«Хабрахабр»
Rusbase
Roem
vc.ru
Ошибки в комментариях
Можно выдохнуть, комментарии на vc.ru подгружаются с помощью JavaScript, так что до следующего обновления Netpeak Spider не получится их спарсить.
Некоторые люди допускают ошибки в некоторых словах. Шок! Сенсация! Как обещал, файл со всеми ошибками, страницами, на которых они были найдены, списком слов, источниками и готовым регулярным выражением для проверки сайта.
Вобщем это как-будто рекламная компания от мороженного агенства
это и от перепутано местами
Это уже третья (четвёртая, пятая?) статья автора, где он массово анализирует какие-либо показатели на разных сайтах. Помню анализ цен на цветы, на суши и т.д.
Местами смешно, но, надо признать, достаточно любопытный формат статей получается.
Давайте вместе накидаем ему идей для будущих анализов! Раз уж Игорь любит всё анализировать, пусть делает анализы регулярными.
Например:
- упоминание всеми любимых слов типа Биткоин, ICO, и т.д. в комментариях на VC. В стиле "первое упоминание биткоина на VC было в далёком 2012 году, а самый пик обсуждения пришёлся на июнь 2017". Короче, график по месяцам и количеству таких комментариев.
- изменения цен на товары в зависимости от курса рубля (как раз сейчас удобный момент для анализа).
Какие ещё есть идеи?
Можно актуализировать статью о том, как найти тему для срача:
https://netpeak.net/ru/blog/kak-naiti-temu-dlya-sracha-na-primere-vc-ru/
Интересно, как за год поменялись тренды:)
табуляция или пробел
Yii2 или Laravel
PHP или Python
ООП или функциональщина
5 колонна или воры во власти
оповещать федеральные сайты об уязвимосте или сразу публиковать на Хабре
санкции — добро или зло
Айфон или Андроид
Макубк или жирный какой-то дорогой Леново
Windows или Linux
тачпад или мышь
нужен английский или нет
нужно тестовое задание или нет
платить налоги преступной власти или нет
бунт или бутылка
Телеграм или аська
США или Россия
Пенсионеры или олимпийские чемпионы
Пенсионеры или ракеты
Пенсионеры или Дерипаска
Дороги или уточка
Можно открывать свой блог с блекджеком.
Можно просто находить статьи со спорными ошибками и самостоятельно устраивать срач с автором.
Страница не грузится, так что го срач!
забыли "Элон Маск"
Очевидно, что статья проплачена RB.ru!
Комментарий удален модератором
Никто здесь не путает цифры и числа, что за нелепый наброс?
ой ли?
16 миллиардов это не цифра, а число
Ну да, поэтому мы пишем «цифры», их тут несколько. Из них состоит число. Это название рубрики. Ещё примеры?
Вы пишете про число 16 млрд, а не про цифры 1, 6 и 0.
Не виляйте.
Перечитайте мой комментарий. У вас есть примеры настоящих ошибок или вы так, поболтать?
Перечитайте мой комментарий, в нём указано на настоящую ошибку.
Я понял, просто поболтать. Хорошего дня!
Так и запишем - гуманитарий не смог отличить число от цифры.
Ничего, скоро научитесь отличать.
Надо было еще «Телеграмм» и «Инстаграмм» добавить в поиск.
А может, там про «в течении реки»? (:
так он же написал, что это может быть верным
просто шанс встретить описания водных каналов в технологических / маркетинговых материалах ничтожно мал, не находите?)
А слово "впридачу" чем не угодило, интересно?
UPD. Век живи - век учись.
Специально проверял руками, к сожалению, нет :D
Понятно, спасибо :)
Насчёт Cossa.
Страницы вида https://www.cossa.ru/profile/?ID=____ имеет смысл отнести к комментариям, так как профиль заполняет зарегистрированный пользователь — это личный профиль автора, редакция его не правит.
Я об этом тоже думал, но решил что страница профиля это доволно важный контент, и ошибки там критичнее чем ошибки в комментариях, не хотелось рисовать ещё один график.
Ладно, грамар-наци, признавайтесь, в каких словах вы косячите? Какие слова заставляют вас лезть в словари?
Начну с себя: "так же/также". 100 раз уже вычитывал и запоминал как правильно в каких случаях. И каждый раз забываю. Бесит.
У меня когда-то было "в смысле", "быть в курсе", "иметь в виду". Круто всё это вспоминать и неплохо было бы проверить, как сейчас пишут :)
Давайте писать название vc.ru правильно 🙌
знать бы ещё как правильно. пока поменял VC на vc. Об этом речь?
Комментарий недоступен
а ударение куда ставить?
Комментарий недоступен
можно еще вариант с украинским происхождением рассмотреть
Ну вот у меня в комментарии правильно
today I learned
Довольно сомнительный метод. Ну исправите вы 10 ошибок на сайте, а там еще может быть 1000 других ошибок, которые вы не учли.
Как правило владельцы сайтов знают свои болезни, живой кейс – фирма продающая краски во Франции, US и UK, нужно было проверить нет ли в разных версиях сайтов мешанины слов color и colour.
Суть не в поиске всех грамматических ошибок на сайте.
Словосочетание "Рекламная компания" имеет право на жизнь - рекламная компания ООО "Бубудукин и партнёры" раскрутит ваш профиль в одноклассниках при помощи авторской кампании.
Брелки и брелоки: можно и так и так писать.
В этой выборке нет. С рекламной компанией конкретно был один пример, я его удалил из результатов.
http://new.gramota.ru/spravka/buro/search-answer?s=%D0%B1%D1%80%D0%B5%D0%BB%D0%BA%D0%B8
Больная тема уж :)
В списке ошибок нет ихним/ихний - а было бы интересно посмотреть используют это слово (или "слово" для тех кто не считает это словом, а ошибкой).
Больше всего я встречаю случаи двух ошибок в одном коротком слове. И слово это "никакой". Пишут "не какой". Либо "не чего" вместо "ничего". Ну и вариаций на эту тему бывает несколько.
Все эти показатели нужно нормировать на общее число комментариев и общее число упоминаний каждого слова, тогда можно сравнить.
Комментарий удален модератором