Где чаще фотографируются в Москве?

Всем привет! Недавно я по приколу выкачал все геометки из Instagram и Facebook и спросил в своем фейсбуке, какие гипотезы проверить. Ниже вы найдете пару фактов о Москве и просто красивые картинки 😉

Итак, инсайты 🍿

Уважаемые издательства. Если захотите поделиться изображениями из статьи, указывайте ссылку на источник - мой телеграм канал: https://t.me/danokhlopkov.

Самые зафотканные места Москвы

Красный цвет - много фоток, зеленый - мало. Более подробная легенда на фото.

В таблице ниже — самые зафотканные места Москвы (за все время). Пришлось много «чистить» данные, ведь до интеграции геоточек из Facebook, в Instagram можно было создавать свои геотеги, вот пользователи, например, насоздавали более 20 разных Красных площадей.

Про столбцы: Media Count — сколько всего постов в инсте. Median Likes — медиана количества лайков у топовых фотографий в этой локации на момент парсинга.

Больше всего в Москве отмечаются в парках, ТЦ, туристических местах и просто улицах.

Московские чекины в течение дня

Если взять только рестораны, кафешки, парки и торговые центры, а потом выкачать посты в этих точках и разбить их по времени публикации, то можно получить активность в течение дня.

Чекины в течение дня. Выше столбик — больше фоток в этом месте в это время.

Дороговизна мест

Для большего числа геоточек через Facebook была выставлена «дороговизна» места — одно из 4 значений: $ (дешевое), $$, $$$ и $$$$ (дорогое).

Если посмотреть на расположения дорогих мест (красные точки), можно заметить, что рядом всегда есть другая красная. Дорогие/элитные места кучкуются!

Дороговизна мест. Красное — дорого, зеленое — не дорого.

Популярность категорий в зависимости от дороговизны

Сгруппировав места по дороговизне и категориям, посчитав их «популярность» (медиану числа постов), получим таблицу ниже.

Популярность категорий в зависимости от дороговизны

Пропуск означает, что таких локаций меньше 5. Столбец total_geos — сумма локаций в строчке. Значение в ячейке — медиана общего числа выложенных за все время фоток с локациями в данной категории с данной дороговизной. Желтым выделено максимальное значение в строчке — самая популярная ценовая категория.

Еще больше карт!

Кликните на изображение — там в описании я указал, что изображено.

Про данные

Я очень люблю собирать данные, иногда даже без конкретной цели. Но в этот раз я был уверен, что удастся вытащить интересные инсайты.

Кто-то смотрит на то, как обучаются нейронки. Я смотрю, как парсятся данные.

Геотеги Инстаграма, которые вы прикрепляете к своим фотографиям, берутся из Фейсбука, где хранятся одни из самых лакомых данных на данный момент.

Для каждой геоточки Инстаграм выдает следующие данные:

  1. Популярность места (сколько фотографий было выложено по тэгу)
  2. Популярность у блоггеров (количество лайков у топовых постов по геотегу)
  3. Насколько обсуждаемо место (количество комментариев под топовыми постами)
  4. Популярность места сегодня (если ли сториз)

При этом, если в этом гео есть что-то конкретное (раньше можно было создавать свои геотеги, которые могли и не иметь смысла, например), то Facebook может выдать больше данных об этом месте:

  1. Категория геоточки (ресторан, спортзал, бизнес центр, достопримечательность)
  2. Дороговизна: $, $$, $$$ или $$$$ (~средний чек)
  3. Популярность Инстаграм аккаунта бизнеса (число подписчиков, среднее число лайков и комментариев под постами)
  4. Контакты бизнеса (телефон, сайт, адрес, время работы)

Для простоты я предположил, что Москва находится между широтами 55.6 и 55.9 и долготами 37.4 и 38.83 (границы были выбраны очень грубо и относительно случайно). В этих границах нашлось 52 000 Instagram геоточек, из которых 34 000 были с данными из Facebook.

Вот и все! Перешлите фоточки вашим коллегам. Больше красивых вызуализаций я выкладывал в своем Телеграм-канале https://t.me/danokhlopkov.

А что бы вы посчитали, имея такие данные, например, для всего мира? Какой бы data-driven бизнес построили? Делитесь идеями в комментариях — обсудим.😉

0
113 комментариев
Написать комментарий...
Никита Волков

Даня, а какими инструментами делал визуализации?

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Все графики были отрисованы тулой от Uber, которая называется kepler.gl. Я готовил данные в питоне через Pandas, а потом драг-н-дроп туда. 

Ответить
Развернуть ветку
Sergei Zotov

можно без драгндропа это делать через интеграцию Kepler с Jupyter, если вы его используете. В последней ячейке тут есть код, как легко датафрейм из пандаса отобразить в кеплере без лишних сохранений из пандаса на диск:

https://github.com/zotttttttt/gps-trace-optimization/blob/main/GPS-trace-optimization-via-Valhalla.ipynb

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

В моем случае я почти все преобразования делал в SQL, поэтому часто без Jupyter обходился. Если интересно, мой стек такой: Postgres -> Metabase -> Kepler. 

Ответить
Развернуть ветку
Sergei Zotov

Круто! У пандаса, кстати, есть read_sql. Теоретически можете писать запрос на SQL, а пандас по нему сходит и преобразует полученные данные в готовый датафрейм. Следующей парой строчек сможете сразу в Кеплер данные отобразить. Я теперь таким методом пользуюсь и не могу нарадоваться )

Ответить
Развернуть ветку
110 комментариев
Раскрывать всегда