О чём писали на vc.ru, TJ и DTF
В этом году я редко читал vc.ru, ещё реже TJ и совсем не читал DTF. Сложилось ощущение, что я выпал из информационного потока и вообще не в курсе, что произошло за этот год. А ещё в этом году я открыл для себя Python.
Короче, мне захотелось взять популярные статьи и превратить их в облако слов, чтобы быстро понять, о чём целый год писали популярные сайты.
Процесс
Сначала я хотел собрать все заголовки всех записей за год, но при парсинге sitemap.xml я понял, что сто тысяч страниц будут парситься очень долго. Поэтому я решил собирать только самые популярные статьи за год.
Парсинг заголовков и описаний занял пару вечеров. Ещё один вечер ушёл на попытки собрать из всего этого вороха слов какое-то внятное облако. В процессе стало понятно, что слова нужно нормализовать.
Результат
Бонус: «Медуза» и «Хабр»
Пока я разбирался с нормализацией и библиотекой для построения облаков, незаметно для меня завершился парсинг «Медуза» и «Хабра». Так что в картинках ниже — все заголовки за 2019 год.