Где чаще фотографируются в Москве?

Всем привет! Недавно я по приколу выкачал все геометки из Instagram и Facebook и спросил в своем фейсбуке, какие гипотезы проверить. Ниже вы найдете пару фактов о Москве и просто красивые картинки 😉

Итак, инсайты 🍿

Уважаемые издательства. Если захотите поделиться изображениями из статьи, указывайте ссылку на источник - мой телеграм канал: https://t.me/danokhlopkov.

Самые зафотканные места Москвы

Красный цвет - много фоток, зеленый - мало. Более подробная легенда на фото.

В таблице ниже — самые зафотканные места Москвы (за все время). Пришлось много «чистить» данные, ведь до интеграции геоточек из Facebook, в Instagram можно было создавать свои геотеги, вот пользователи, например, насоздавали более 20 разных Красных площадей.

Про столбцы: Media Count — сколько всего постов в инсте. Median Likes — медиана количества лайков у топовых фотографий в этой локации на момент парсинга.

Больше всего в Москве отмечаются в парках, ТЦ, туристических местах и просто улицах.

Московские чекины в течение дня

Если взять только рестораны, кафешки, парки и торговые центры, а потом выкачать посты в этих точках и разбить их по времени публикации, то можно получить активность в течение дня.

Чекины в течение дня. Выше столбик — больше фоток в этом месте в это время.

Дороговизна мест

Для большего числа геоточек через Facebook была выставлена «дороговизна» места — одно из 4 значений: $ (дешевое), $$, $$$ и $$$$ (дорогое).

Если посмотреть на расположения дорогих мест (красные точки), можно заметить, что рядом всегда есть другая красная. Дорогие/элитные места кучкуются!

Дороговизна мест. Красное — дорого, зеленое — не дорого.

Популярность категорий в зависимости от дороговизны

Сгруппировав места по дороговизне и категориям, посчитав их «популярность» (медиану числа постов), получим таблицу ниже.

Популярность категорий в зависимости от дороговизны

Пропуск означает, что таких локаций меньше 5. Столбец total_geos — сумма локаций в строчке. Значение в ячейке — медиана общего числа выложенных за все время фоток с локациями в данной категории с данной дороговизной. Желтым выделено максимальное значение в строчке — самая популярная ценовая категория.

Еще больше карт!

Кликните на изображение — там в описании я указал, что изображено.

Про данные

Я очень люблю собирать данные, иногда даже без конкретной цели. Но в этот раз я был уверен, что удастся вытащить интересные инсайты.

Кто-то смотрит на то, как обучаются нейронки. Я смотрю, как парсятся данные.

Геотеги Инстаграма, которые вы прикрепляете к своим фотографиям, берутся из Фейсбука, где хранятся одни из самых лакомых данных на данный момент.

Для каждой геоточки Инстаграм выдает следующие данные:

  1. Популярность места (сколько фотографий было выложено по тэгу)
  2. Популярность у блоггеров (количество лайков у топовых постов по геотегу)
  3. Насколько обсуждаемо место (количество комментариев под топовыми постами)
  4. Популярность места сегодня (если ли сториз)

При этом, если в этом гео есть что-то конкретное (раньше можно было создавать свои геотеги, которые могли и не иметь смысла, например), то Facebook может выдать больше данных об этом месте:

  1. Категория геоточки (ресторан, спортзал, бизнес центр, достопримечательность)
  2. Дороговизна: $, $$, $$$ или $$$$ (~средний чек)
  3. Популярность Инстаграм аккаунта бизнеса (число подписчиков, среднее число лайков и комментариев под постами)
  4. Контакты бизнеса (телефон, сайт, адрес, время работы)

Для простоты я предположил, что Москва находится между широтами 55.6 и 55.9 и долготами 37.4 и 38.83 (границы были выбраны очень грубо и относительно случайно). В этих границах нашлось 52 000 Instagram геоточек, из которых 34 000 были с данными из Facebook.

Вот и все! Перешлите фоточки вашим коллегам. Больше красивых вызуализаций я выкладывал в своем Телеграм-канале https://t.me/danokhlopkov.

А что бы вы посчитали, имея такие данные, например, для всего мира? Какой бы data-driven бизнес построили? Делитесь идеями в комментариях — обсудим.😉

0
113 комментариев
Написать комментарий...
Sergei Zotov

1. понятие "хакер" и парсинг апишки + пандас + кеплер слишком не вяжутся у меня в голове )
2. как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии?) Я, когда ливень был, заснял свою собаку, переходящую через лужу с ливнем и отметил Niagara Falls в USA ) еще хуже это работает из-за того, что рекламные посты от бизнесовых аккаунтов специально размещаются в большом количестве мест, потому что так иногда используется инстаграм для привлечения новых лидов (типа заходишь ты посмотреть, что творится на твоей любимой улице и вот уже оформляешь кредит под 300% - так подразумевается, видимо)

т.е. это данные с большим количеством мусора :) кеплер выглядит, конечно, огненно, как обычно ) у Убера вообще стек для визуализации шикарный, если не видели другие инструменты: https://vis.gl (особенно меня в свое время порадовал AVS).

Ответить
Развернуть ветку
Семен Смирнов
как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии

С валидными данными без мусора распределение было бы принципиально другим?

Ответить
Развернуть ветку
Sergei Zotov

как можно это знать, если нет истинно корректных данных? Можно практически наверняка утверждать, что этот шум, например, слишком сильно усиливает пиковые и популярные геометки, из-за чего в топы не попадают места с чуть меньшей популярностью.

Ответить
Развернуть ветку
110 комментариев
Раскрывать всегда