{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

О чём писали на vc.ru, TJ и DTF

В этом году я редко читал vc.ru, ещё реже TJ и совсем не читал DTF. Сложилось ощущение, что я выпал из информационного потока и вообще не в курсе, что произошло за этот год. А ещё в этом году я открыл для себя Python.

Короче, мне захотелось взять популярные статьи и превратить их в облако слов, чтобы быстро понять, о чём целый год писали популярные сайты.

Процесс

Сначала я хотел собрать все заголовки всех записей за год, но при парсинге sitemap.xml я понял, что сто тысяч страниц будут парситься очень долго. Поэтому я решил собирать только самые популярные статьи за год.

Парсинг заголовков и описаний занял пару вечеров. Ещё один вечер ушёл на попытки собрать из всего этого вороха слов какое-то внятное облако. В процессе стало понятно, что слова нужно нормализовать.

Результат

​Самые употребляемые на vc.ru слова: «компания», «год», «рубль», «миллион», «тысяча»
​Самые употребляемые на TJ слова: «человек», «год», «соцсеть», «история», «россия»
Самые употребляемые на DTF слова: «игра», «фильм», «год», «история», «кодзима»

Бонус: «Медуза» и «Хабр»

Пока я разбирался с нормализацией и библиотекой для построения облаков, незаметно для меня завершился парсинг «Медуза» и «Хабра». Так что в картинках ниже — все заголовки за 2019 год.

​Самые употребляемые слова: «россия», «дело», «москва», «человек», «сша»
Самые употребляемые слова: «данные», «помощь», «работа», «система», «приложение​»
0
22 комментария
Написать комментарий...
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Артур Салий
Автор

Николай, звучит как классная идея. Аналитика и визуализация для тех, кто не очень шарит в программировании. 
Но облако слов очень специфичная штука, надо что-то другое.

Если будет реквест на что-то — сделаю)

Ответить
Развернуть ветку
Nikita Bishop

Я бы почитал как это все реализуется

Ответить
Развернуть ветку
Вадим Скворцов

И у нас можно было бы описать, для таких материалов есть подсайт «Разработка»: https://vc.ru/dev

Ответить
Развернуть ветку
LETS DO SMTH

Какой смысл данного анализа? Анализ ради анализа? Скучный результат получился.

Ответить
Развернуть ветку
Syzygy

Какой смысл вашего комментария? Комментарий ради комментария? Скучный результат получился.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Pixel Lens

Вывод, который я сделал: а Ходзима-то не так уж и популярен!

Ответить
Развернуть ветку
Valera Suprunovsky

Биг дата же. Хоть и за один год.

Ответить
Развернуть ветку
Syzygy

Слушайте, а DTF кто-то читает? Попробовал, там лютый трэш в комментариях, на игровых форумах такого количества неадекватов нет.

Ответить
Развернуть ветку
Danil Khasanshin

Попробуйте читать статьи.

Ответить
Развернуть ветку
Syzygy

Читать статьи? Вот вы ретроград.

Ответить
Развернуть ветку
Вова Кот

Во-во, дтф для пидоров 🌚

Ответить
Развернуть ветку
Sandrino Komaroff

Там типа пикабу, банят за любую хуйню мудераторы

Ответить
Развернуть ветку
Andrey Kulakov

Если память мне не изменяет, то когда перезапускался DTF взяли какую-то густонаселённую группу пека-бояр в VK, купили ее и переименовали в DTF. Соответственно в любой новости мало-мальски касающейся консолей в комментариях начиналась такая вакханалия, что словами не описать. Сейчас вроде стало получше, но я все равно избегаю комментариев на DTF.

Ответить
Развернуть ветку
Pixel Lens

я изредка листаю в поисках инфы о годных фильмах, сериалах и играх. Ну, просто чтобы знать какие есть новинки. Оценочные суждения там можно игнорировать, ибо сайт окупирован несколькими сектами, которые боготворят совсем уж странные поделки, и минусят неугодных.

Ответить
Развернуть ветку
Денис Евграфов

И че нам эти слова?

Ответить
Развернуть ветку
Артур Салий
Автор

Ничё

Ответить
Развернуть ветку
Pixel Lens
Ответить
Развернуть ветку
Александр Албул

Понятно

Ответить
Развернуть ветку
Дмитрий Задорожный

сходу идея пришла, посмотреть совпадения в топ-20/30/100 слов между несколькими однотипными сайтами, например Хабр и VC, Медуза и TJ. Назовем так, учебный анализ для последующего холивара и т.п. Ну и совсем идея для хейта: популярные слова с учетом лайков на статью... пользуйтесь))

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
19 комментариев
Раскрывать всегда