Где чаще фотографируются в Москве?
Всем привет! Недавно я по приколу выкачал все геометки из Instagram и Facebook и спросил в своем фейсбуке, какие гипотезы проверить. Ниже вы найдете пару фактов о Москве и просто красивые картинки 😉
Итак, инсайты 🍿
Уважаемые издательства. Если захотите поделиться изображениями из статьи, указывайте ссылку на источник - мой телеграм канал: https://t.me/danokhlopkov.
Самые зафотканные места Москвы
В таблице ниже — самые зафотканные места Москвы (за все время). Пришлось много «чистить» данные, ведь до интеграции геоточек из Facebook, в Instagram можно было создавать свои геотеги, вот пользователи, например, насоздавали более 20 разных Красных площадей.
Про столбцы: Media Count — сколько всего постов в инсте. Median Likes — медиана количества лайков у топовых фотографий в этой локации на момент парсинга.
Московские чекины в течение дня
Если взять только рестораны, кафешки, парки и торговые центры, а потом выкачать посты в этих точках и разбить их по времени публикации, то можно получить активность в течение дня.
Дороговизна мест
Для большего числа геоточек через Facebook была выставлена «дороговизна» места — одно из 4 значений: $ (дешевое), $$, $$$ и $$$$ (дорогое).
Если посмотреть на расположения дорогих мест (красные точки), можно заметить, что рядом всегда есть другая красная. Дорогие/элитные места кучкуются!
Популярность категорий в зависимости от дороговизны
Сгруппировав места по дороговизне и категориям, посчитав их «популярность» (медиану числа постов), получим таблицу ниже.
Пропуск означает, что таких локаций меньше 5. Столбец total_geos — сумма локаций в строчке. Значение в ячейке — медиана общего числа выложенных за все время фоток с локациями в данной категории с данной дороговизной. Желтым выделено максимальное значение в строчке — самая популярная ценовая категория.
Еще больше карт!
Кликните на изображение — там в описании я указал, что изображено.
Про данные
Я очень люблю собирать данные, иногда даже без конкретной цели. Но в этот раз я был уверен, что удастся вытащить интересные инсайты.
Геотеги Инстаграма, которые вы прикрепляете к своим фотографиям, берутся из Фейсбука, где хранятся одни из самых лакомых данных на данный момент.
Для каждой геоточки Инстаграм выдает следующие данные:
- Популярность места (сколько фотографий было выложено по тэгу)
- Популярность у блоггеров (количество лайков у топовых постов по геотегу)
- Насколько обсуждаемо место (количество комментариев под топовыми постами)
- Популярность места сегодня (если ли сториз)
При этом, если в этом гео есть что-то конкретное (раньше можно было создавать свои геотеги, которые могли и не иметь смысла, например), то Facebook может выдать больше данных об этом месте:
- Категория геоточки (ресторан, спортзал, бизнес центр, достопримечательность)
- Дороговизна: $, $$, $$$ или $$$$ (~средний чек)
- Популярность Инстаграм аккаунта бизнеса (число подписчиков, среднее число лайков и комментариев под постами)
- Контакты бизнеса (телефон, сайт, адрес, время работы)
Для простоты я предположил, что Москва находится между широтами 55.6 и 55.9 и долготами 37.4 и 38.83 (границы были выбраны очень грубо и относительно случайно). В этих границах нашлось 52 000 Instagram геоточек, из которых 34 000 были с данными из Facebook.
Вот и все! Перешлите фоточки вашим коллегам. Больше красивых вызуализаций я выкладывал в своем Телеграм-канале https://t.me/danokhlopkov.
А что бы вы посчитали, имея такие данные, например, для всего мира? Какой бы data-driven бизнес построили? Делитесь идеями в комментариях — обсудим.😉
Если не читать текст, а посмотреть только на картинки может показаться что наступила третья волна
Вторая ещё не закончилась
Вам не кажется...
1. понятие "хакер" и парсинг апишки + пандас + кеплер слишком не вяжутся у меня в голове )
2. как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии?) Я, когда ливень был, заснял свою собаку, переходящую через лужу с ливнем и отметил Niagara Falls в USA ) еще хуже это работает из-за того, что рекламные посты от бизнесовых аккаунтов специально размещаются в большом количестве мест, потому что так иногда используется инстаграм для привлечения новых лидов (типа заходишь ты посмотреть, что творится на твоей любимой улице и вот уже оформляешь кредит под 300% - так подразумевается, видимо)
т.е. это данные с большим количеством мусора :) кеплер выглядит, конечно, огненно, как обычно ) у Убера вообще стек для визуализации шикарный, если не видели другие инструменты: https://vis.gl (особенно меня в свое время порадовал AVS).
Да, данные с шумом. Я еще больше накину: когда человеку хорошо, ему не до соцсетей. Поэтому лично я, если и выкладываю что-то, то не в моменте, а позже - когда домой приду или когда просплюсь.
Я убежден, что инста сама выводит в топ релевантные к данной гео посты, поэтому весь рекламный шум со временем исчезнет из топа. А если и не исчезнет, то его все равно не так уж и много.
- Мама, сколько раз тебе говорить, я не нахер, я - хакер!
как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии
С валидными данными без мусора распределение было бы принципиально другим?