Оффтоп Igor Gorbenko
5 580

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Решил пройтись по изданиям, которые периодически читаю, и проверить, как у них дела с орфографией. Ниже будет инструкция, с помощью которой можно проверить любой сайт на наличие орфографических ошибок, несколько графиков и файл со всеми собранными данными, списком ошибок и регулярным выражением, которым я пользовался.

В закладки

Inb4: «сначала сам научись писать»

Русский язык я учил ровно до седьмого класса средней школы — 18 лет назад. Я регулярно делаю некоторые из ошибок, которые нашёл на сайтах из списка. Этот текст перед публикацией вычитывала моя коллега Настя, за что ей большое спаcибо.

Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце материала. Я лично не нашёл таких случаев. То же относится к «мороженному», «рекламной компании» и так далее.

Примеры ошибок я собрал сам из источников, которые нагуглил за пять минут. Источники указаны в том же файле. Если что-то из моего списка не является ошибкой, my bad.

Как проводился анализ

1. Взял регулярное выражение: (?:[^a-zA-Zа-яА-Я0-9_]|^)(агенство|чтоли|net peak)(?:[^a-zA-Zа-яА-Я0-9_]|а-Я|$).

Работает для кириллицы и латиницы. Можно вписать любые слова и словосочетания, которые хотите найти на сайте.

2. Настроил парсер Netpeak Spider на поиск слов и словосочетаний из списка.

Этим же парсером я пользовался, анализируя изменения цен на цветы к 14 февраля и носки к 23 февраля.

Настройки парсинга

3. Просканировал каждый сайт и получил список страниц, на которых были найдены ошибки.

Результаты парсинга

Результаты

На каждом сайте сканирование было остановлено на отметке в 5000 страниц.

Ошибки, которые были найдены в комментариях, вынесены на отдельный график в конце.

Не стоит сравнивать внимательность редакторов, опираясь на этот анализ. Учитывайте, что 5000 страниц одного сайта могут на 30% состоять из служебных страниц, в то время как на другом сайте все 5000 будут гостевыми публикациями.

AIN

Cossa

DOU

«Хабрахабр»

Rusbase

Roem

vc.ru

Ошибки в комментариях

Можно выдохнуть, комментарии на vc.ru подгружаются с помощью JavaScript, так что до следующего обновления Netpeak Spider не получится их спарсить.

Некоторые люди допускают ошибки в некоторых словах. Шок! Сенсация! Как обещал, файл со всеми ошибками, страницами, на которых они были найдены, списком слов, источниками и готовым регулярным выражением для проверки сайта.

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
Статьи по теме
Носочники тоже алчные мудаки? Как менялись цены на носки к 23 февраля
Сколько вам придётся потратить на цветы 14 февраля
{ "author_name": "Igor Gorbenko", "author_type": "self", "tags": [], "comments": 48, "likes": 52, "favorites": 1, "is_advertisement": false, "subsite_label": "flood", "id": 35926, "is_wide": false }
00
дни
00
часы
00
мин
00
сек
(function(){ var banner = document.querySelector('.teaserSberbank'); var isAdsDisabled = document.querySelector('noad'); if (!isAdsDisabled){ var countdownTimer = null; var timerItem = document.querySelectorAll('[data-sber-timer]'); var seconds = parseInt('15388' + '59599') - now(); function now(){ return Math.round(new Date().getTime()/1000.0); } function timer() { var days = Math.floor(seconds / 24 / 60 / 60); var hoursLeft = Math.floor((seconds) - (days * 86400)); var hours = Math.floor(hoursLeft / 3600); var minutesLeft = Math.floor((hoursLeft) - (hours * 3600)); var minutes = Math.floor(minutesLeft / 60); var remainingSeconds = seconds % 60; if (days < 10) days = '0' + days; if (hours < 10) hours = '0' + hours; if (minutes < 10) minutes = '0' + minutes; if (remainingSeconds < 10) remainingSeconds = '0' + remainingSeconds; if (seconds <= 0) { clearInterval(countdownTimer); } else { timerItem[0].textContent = days; timerItem[1].textContent = hours; timerItem[2].textContent = minutes; timerItem[3].textContent = remainingSeconds; seconds -= 1; } } timer(); countdownTimer = setInterval(timer, 1000); } else { banner.style.display = 'none'; } })();
{ "id": 35926, "author_id": 46912, "diff_limit": 1000, "urls": {"diff":"\/comments\/35926\/get","add":"\/comments\/35926\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/35926"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199791 }

48 комментариев 48 комм.

Популярные

По порядку

Написать комментарий...
34

Вобщем это как-будто рекламная компания от мороженного агенства

Ответить
0

это и от перепутано местами

Ответить
13

Это уже третья (четвёртая, пятая?) статья автора, где он массово анализирует какие-либо показатели на разных сайтах. Помню анализ цен на цветы, на суши и т.д.
Местами смешно, но, надо признать, достаточно любопытный формат статей получается.

Давайте вместе накидаем ему идей для будущих анализов! Раз уж Игорь любит всё анализировать, пусть делает анализы регулярными.
Например:
- упоминание всеми любимых слов типа Биткоин, ICO, и т.д. в комментариях на VC. В стиле "первое упоминание биткоина на VC было в далёком 2012 году, а самый пик обсуждения пришёлся на июнь 2017". Короче, график по месяцам и количеству таких комментариев.

- изменения цен на товары в зависимости от курса рубля (как раз сейчас удобный момент для анализа).

Какие ещё есть идеи?

Ответить
6

Можно актуализировать статью о том, как найти тему для срача:
https://netpeak.net/ru/blog/kak-naiti-temu-dlya-sracha-na-primere-vc-ru/
Интересно, как за год поменялись тренды:)

Ответить
14

табуляция или пробел
Yii2 или Laravel
PHP или Python
ООП или функциональщина
5 колонна или воры во власти
оповещать федеральные сайты об уязвимосте или сразу публиковать на Хабре
санкции — добро или зло
Айфон или Андроид
Макубк или жирный какой-то дорогой Леново
Windows или Linux
тачпад или мышь
нужен английский или нет
нужно тестовое задание или нет
платить налоги преступной власти или нет
бунт или бутылка
Телеграм или аська
США или Россия
Пенсионеры или олимпийские чемпионы
Пенсионеры или ракеты
Пенсионеры или Дерипаска
Дороги или уточка

Ответить
1

Можно открывать свой блог с блекджеком.

Ответить
1

Можно просто находить статьи со спорными ошибками и самостоятельно устраивать срач с автором.

Ответить
0

Страница не грузится, так что го срач!

Ответить
4

забыли "Элон Маск"

Ответить
4

Очевидно, что статья проплачена RB.ru!

Ответить

Комментарий удален

0

Никто здесь не путает цифры и числа, что за нелепый наброс?

Ответить
0

ой ли?
16 миллиардов это не цифра, а число

Ответить
0

Ну да, поэтому мы пишем «цифры», их тут несколько. Из них состоит число. Это название рубрики. Ещё примеры?

Ответить
1

Вы пишете про число 16 млрд, а не про цифры 1, 6 и 0.
Не виляйте.

Ответить
–1

Перечитайте мой комментарий. У вас есть примеры настоящих ошибок или вы так, поболтать?

Ответить
0

Перечитайте мой комментарий, в нём указано на настоящую ошибку.

Ответить
0

Я понял, просто поболтать. Хорошего дня!

Ответить
2

Так и запишем - гуманитарий не смог отличить число от цифры.

Ответить
0

Ничего, скоро научитесь отличать.

Ответить
2

Надо было еще «Телеграмм» и «Инстаграмм» добавить в поиск.

Ответить
1

в течении

А может, там про «в течении реки»? (:

Ответить
1

так он же написал, что это может быть верным
просто шанс встретить описания водных каналов в технологических / маркетинговых материалах ничтожно мал, не находите?)

Ответить
1

А слово "впридачу" чем не угодило, интересно?

UPD. Век живи - век учись.

Ответить
0

Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце статьи. Я лично не нашел таких случаев. То же относится к «мороженному» , «рекламной компании» и т.д..

Специально проверял руками, к сожалению, нет :D

Ответить
0

Понятно, спасибо :)

Ответить
1

Насчёт Cossa.

Страницы вида https://www.cossa.ru/profile/?ID=____ имеет смысл отнести к комментариям, так как профиль заполняет зарегистрированный пользователь — это личный профиль автора, редакция его не правит.

Ответить
0

Я об этом тоже думал, но решил что страница профиля это доволно важный контент, и ошибки там критичнее чем ошибки в комментариях, не хотелось рисовать ещё один график.

Ответить
1

Ладно, грамар-наци, признавайтесь, в каких словах вы косячите? Какие слова заставляют вас лезть в словари?
Начну с себя: "так же/также". 100 раз уже вычитывал и запоминал как правильно в каких случаях. И каждый раз забываю. Бесит.

Ответить
0

У меня когда-то было "в смысле", "быть в курсе", "иметь в виду". Круто всё это вспоминать и неплохо было бы проверить, как сейчас пишут :)

Ответить
0

Давайте писать название vc.ru правильно 🙌

Ответить
0

знать бы ещё как правильно. пока поменял VC на vc. Об этом речь?

Ответить
6

цукерберг позвонит

Ответить
0

а ударение куда ставить?

Ответить
0

цукЕрберг

Ответить
1

можно еще вариант с украинским происхождением рассмотреть

Ответить
1

Ну вот у меня в комментарии правильно

Ответить
3

today I learned

Ответить
–1

Довольно сомнительный метод. Ну исправите вы 10 ошибок на сайте, а там еще может быть 1000 других ошибок, которые вы не учли.

Ответить
1

Как правило владельцы сайтов знают свои болезни, живой кейс – фирма продающая краски во Франции, US и UK, нужно было проверить нет ли в разных версиях сайтов мешанины слов color и colour.

Суть не в поиске всех грамматических ошибок на сайте.

Ответить
0

Словосочетание "Рекламная компания" имеет право на жизнь - рекламная компания ООО "Бубудукин и партнёры" раскрутит ваш профиль в одноклассниках при помощи авторской кампании.
Брелки и брелоки: можно и так и так писать.

Ответить
0

Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце статьи. Я лично не нашел таких случаев. То же относится к «мороженному» , «рекламной компании» и т.д..

В этой выборке нет. С рекламной компанией конкретно был один пример, я его удалил из результатов.

Ответить
0

Больная тема уж :)

Ответить
0

В списке ошибок нет ихним/ихний - а было бы интересно посмотреть используют это слово (или "слово" для тех кто не считает это словом, а ошибкой).

Ответить
0

Больше всего я встречаю случаи двух ошибок в одном коротком слове. И слово это "никакой". Пишут "не какой". Либо "не чего" вместо "ничего". Ну и вариаций на эту тему бывает несколько.

Ответить
0

Все эти показатели нужно нормировать на общее число комментариев и общее число упоминаний каждого слова, тогда можно сравнить.

Ответить

Комментарий удален

0

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Нейронная сеть научилась читать стихи
голосом Пастернака и смотреть в окно на осень
Подписаться на push-уведомления