О чём писали на vc.ru, TJ и DTF
В этом году я редко читал vc.ru, ещё реже TJ и совсем не читал DTF. Сложилось ощущение, что я выпал из информационного потока и вообще не в курсе, что произошло за этот год. А ещё в этом году я открыл для себя Python.
Короче, мне захотелось взять популярные статьи и превратить их в облако слов, чтобы быстро понять, о чём целый год писали популярные сайты.
Процесс
Сначала я хотел собрать все заголовки всех записей за год, но при парсинге sitemap.xml я понял, что сто тысяч страниц будут парситься очень долго. Поэтому я решил собирать только самые популярные статьи за год.
Парсинг заголовков и описаний занял пару вечеров. Ещё один вечер ушёл на попытки собрать из всего этого вороха слов какое-то внятное облако. В процессе стало понятно, что слова нужно нормализовать.
Результат
Бонус: «Медуза» и «Хабр»
Пока я разбирался с нормализацией и библиотекой для построения облаков, незаметно для меня завершился парсинг «Медуза» и «Хабра». Так что в картинках ниже — все заголовки за 2019 год.
Комментарий недоступен
Николай, звучит как классная идея. Аналитика и визуализация для тех, кто не очень шарит в программировании.
Но облако слов очень специфичная штука, надо что-то другое.
Если будет реквест на что-то — сделаю)
Я бы почитал как это все реализуется
И у нас можно было бы описать, для таких материалов есть подсайт «Разработка»: https://vc.ru/dev
Какой смысл данного анализа? Анализ ради анализа? Скучный результат получился.
Какой смысл вашего комментария? Комментарий ради комментария? Скучный результат получился.
Комментарий недоступен
Вывод, который я сделал: а Ходзима-то не так уж и популярен!
Биг дата же. Хоть и за один год.
Слушайте, а DTF кто-то читает? Попробовал, там лютый трэш в комментариях, на игровых форумах такого количества неадекватов нет.
Попробуйте читать статьи.
Читать статьи? Вот вы ретроград.
Во-во, дтф для пидоров 🌚
Там типа пикабу, банят за любую хуйню мудераторы
Если память мне не изменяет, то когда перезапускался DTF взяли какую-то густонаселённую группу пека-бояр в VK, купили ее и переименовали в DTF. Соответственно в любой новости мало-мальски касающейся консолей в комментариях начиналась такая вакханалия, что словами не описать. Сейчас вроде стало получше, но я все равно избегаю комментариев на DTF.
я изредка листаю в поисках инфы о годных фильмах, сериалах и играх. Ну, просто чтобы знать какие есть новинки. Оценочные суждения там можно игнорировать, ибо сайт окупирован несколькими сектами, которые боготворят совсем уж странные поделки, и минусят неугодных.
И че нам эти слова?
Ничё
Понятно
сходу идея пришла, посмотреть совпадения в топ-20/30/100 слов между несколькими однотипными сайтами, например Хабр и VC, Медуза и TJ. Назовем так, учебный анализ для последующего холивара и т.п. Ну и совсем идея для хейта: популярные слова с учетом лайков на статью... пользуйтесь))
Комментарий недоступен