{"id":14262,"url":"\/distributions\/14262\/click?bit=1&hash=8ff33b918bfe3f5206b0198c93dd25bdafcdc76b2eaa61d9664863bd76247e56","title":"\u041f\u0440\u0435\u0434\u043b\u043e\u0436\u0438\u0442\u0435 \u041c\u043e\u0441\u043a\u0432\u0435 \u0438\u043d\u043d\u043e\u0432\u0430\u0446\u0438\u044e \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u0435 \u0434\u043e 1,5 \u043c\u043b\u043d \u0440\u0443\u0431\u043b\u0435\u0439","buttonText":"\u041f\u043e\u0434\u0440\u043e\u0431\u043d\u0435\u0435","imageUuid":"726c984a-5b07-5c75-81f7-6664571134e6"}

Где чаще фотографируются в Москве?

Всем привет! Недавно я по приколу выкачал все геометки из Instagram и Facebook и спросил в своем фейсбуке, какие гипотезы проверить. Ниже вы найдете пару фактов о Москве и просто красивые картинки 😉

Итак, инсайты 🍿

Уважаемые издательства. Если захотите поделиться изображениями из статьи, указывайте ссылку на источник - мой телеграм канал: https://t.me/danokhlopkov.

Самые зафотканные места Москвы

Красный цвет - много фоток, зеленый - мало. Более подробная легенда на фото.

В таблице ниже — самые зафотканные места Москвы (за все время). Пришлось много «чистить» данные, ведь до интеграции геоточек из Facebook, в Instagram можно было создавать свои геотеги, вот пользователи, например, насоздавали более 20 разных Красных площадей.

Про столбцы: Media Count — сколько всего постов в инсте. Median Likes — медиана количества лайков у топовых фотографий в этой локации на момент парсинга.

Больше всего в Москве отмечаются в парках, ТЦ, туристических местах и просто улицах.

Московские чекины в течение дня

Если взять только рестораны, кафешки, парки и торговые центры, а потом выкачать посты в этих точках и разбить их по времени публикации, то можно получить активность в течение дня.

Чекины в течение дня. Выше столбик — больше фоток в этом месте в это время.

Дороговизна мест

Для большего числа геоточек через Facebook была выставлена «дороговизна» места — одно из 4 значений: $ (дешевое), $$, $$$ и $$$$ (дорогое).

Если посмотреть на расположения дорогих мест (красные точки), можно заметить, что рядом всегда есть другая красная. Дорогие/элитные места кучкуются!

Дороговизна мест. Красное — дорого, зеленое — не дорого.

Популярность категорий в зависимости от дороговизны

Сгруппировав места по дороговизне и категориям, посчитав их «популярность» (медиану числа постов), получим таблицу ниже.

Популярность категорий в зависимости от дороговизны

Пропуск означает, что таких локаций меньше 5. Столбец total_geos — сумма локаций в строчке. Значение в ячейке — медиана общего числа выложенных за все время фоток с локациями в данной категории с данной дороговизной. Желтым выделено максимальное значение в строчке — самая популярная ценовая категория.

Еще больше карт!

Кликните на изображение — там в описании я указал, что изображено.

Про данные

Я очень люблю собирать данные, иногда даже без конкретной цели. Но в этот раз я был уверен, что удастся вытащить интересные инсайты.

Кто-то смотрит на то, как обучаются нейронки. Я смотрю, как парсятся данные.

Геотеги Инстаграма, которые вы прикрепляете к своим фотографиям, берутся из Фейсбука, где хранятся одни из самых лакомых данных на данный момент.

Для каждой геоточки Инстаграм выдает следующие данные:

  1. Популярность места (сколько фотографий было выложено по тэгу)
  2. Популярность у блоггеров (количество лайков у топовых постов по геотегу)
  3. Насколько обсуждаемо место (количество комментариев под топовыми постами)
  4. Популярность места сегодня (если ли сториз)

При этом, если в этом гео есть что-то конкретное (раньше можно было создавать свои геотеги, которые могли и не иметь смысла, например), то Facebook может выдать больше данных об этом месте:

  1. Категория геоточки (ресторан, спортзал, бизнес центр, достопримечательность)
  2. Дороговизна: $, $$, $$$ или $$$$ (~средний чек)
  3. Популярность Инстаграм аккаунта бизнеса (число подписчиков, среднее число лайков и комментариев под постами)
  4. Контакты бизнеса (телефон, сайт, адрес, время работы)

Для простоты я предположил, что Москва находится между широтами 55.6 и 55.9 и долготами 37.4 и 38.83 (границы были выбраны очень грубо и относительно случайно). В этих границах нашлось 52 000 Instagram геоточек, из которых 34 000 были с данными из Facebook.

Вот и все! Перешлите фоточки вашим коллегам. Больше красивых вызуализаций я выкладывал в своем Телеграм-канале https://t.me/danokhlopkov.

А что бы вы посчитали, имея такие данные, например, для всего мира? Какой бы data-driven бизнес построили? Делитесь идеями в комментариях — обсудим.😉

0
113 комментариев
Написать комментарий...
Юрий Дорофеев

Если не читать текст, а посмотреть только на картинки может показаться что наступила третья волна

Ответить
Развернуть ветку
Artemiy Shlesberg

Вторая ещё не закончилась

Ответить
Развернуть ветку
2 комментария
SEO с 2002 года

Вам не кажется...

Ответить
Развернуть ветку
Sergei Zotov

1. понятие "хакер" и парсинг апишки + пандас + кеплер слишком не вяжутся у меня в голове )
2. как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии?) Я, когда ливень был, заснял свою собаку, переходящую через лужу с ливнем и отметил Niagara Falls в USA ) еще хуже это работает из-за того, что рекламные посты от бизнесовых аккаунтов специально размещаются в большом количестве мест, потому что так иногда используется инстаграм для привлечения новых лидов (типа заходишь ты посмотреть, что творится на твоей любимой улице и вот уже оформляешь кредит под 300% - так подразумевается, видимо)

т.е. это данные с большим количеством мусора :) кеплер выглядит, конечно, огненно, как обычно ) у Убера вообще стек для визуализации шикарный, если не видели другие инструменты: https://vis.gl (особенно меня в свое время порадовал AVS).

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Да, данные с шумом. Я еще больше накину: когда человеку хорошо, ему не до соцсетей. Поэтому лично я, если и выкладываю что-то, то не в моменте, а позже - когда домой приду или когда просплюсь.

Я убежден, что инста сама выводит в топ релевантные к данной гео посты, поэтому весь рекламный шум со временем исчезнет из топа. А если и не исчезнет, то его все равно не так уж и много. 

Ответить
Развернуть ветку
Matvey Sofyin

- Мама, сколько раз тебе говорить, я не нахер, я - хакер!

Ответить
Развернуть ветку
1 комментарий
Семен Смирнов
как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии

С валидными данными без мусора распределение было бы принципиально другим?

Ответить
Развернуть ветку
1 комментарий
Сергей Я

2. Значит можно назвать как "самые популярные" места, типа того, то есть где больше люди хотят отмечаться, чтобы остальные думали, что они там)

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Меня отдельно просили отрисовать рестораны и кафешки на Патриках. Вот они 👀Размером указана "популярность" места (больше - больше). Цветом - "дороговизна" (краснее - больше, если белый - нет данных).

Ответить
Развернуть ветку
Mikhail Che

Надо приложение пилить, которое будет собирать актуальные данные, в котором будет возможно посмотреть название конкретного места, проложить маршрут и так далее

Ответить
Развернуть ветку
8 комментариев
Вася Пражкин

Человек выкачал метки с геотэгов и называет себя "Хакер"?

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Карл

телка фотает задницу в зеркале, выкладывает, будучи в Бирюлево, ставит метку "Москва Сити" и ломает систему

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Я убежден, что таких фоток - меньшинство и что алгоритмы инсты не отправят такие посты в топ по геотегу. И что хотя бы один из этих двух факторов сработает в каждом случае)

Ответить
Развернуть ветку
3 комментария
Mr Banny

Ещё много удивительных и неописаных доселе в ярких красках коннекторов на грани легитимности и работоспособности, придающих любой заднице обвараживающий блеск и шарм.

Ответить
Развернуть ветку
Борис Васильев

Очень полезный инструмент для таргетирования рекламы с помощью СМС.
Хочу коллаборацию!

Ответить
Развернуть ветку
Rodeus

СМС-спамерам уготованы лучшие места в аду

Ответить
Развернуть ветку
2 комментария
Daniil Okhlopkov
Автор

Пишите https://t.me/danokhlopkov
Инстаграм позволяет собирать публично указанные почты и телефоны. Обычно их указывают 20-50% юзеров.

Ответить
Развернуть ветку
Никита Волков

Даня, а какими инструментами делал визуализации?

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Все графики были отрисованы тулой от Uber, которая называется kepler.gl. Я готовил данные в питоне через Pandas, а потом драг-н-дроп туда. 

Ответить
Развернуть ветку
6 комментариев
Катерина

Про популярность фото в ТЦ (Европейский, Метрополис и прочих). Это вовсе не фото в том магазине. https://www.instagram.com/explore/locations/151576/ А небольшие производители украшений, одежды и всего, что связано с фешн, ставят отметки ТЦ, чтобы повысить охват своих публикаций в инсте.

Ответить
Развернуть ветку
Иван Иванов

спасибо, а то я уже очень сильно удивился.
Но все же, а какой в этом смысл? Типа кто-то будет искать фотографии по геотегу "ТЦ Европейский" и среди прочего наткнется на красивые украшения?

Ответить
Развернуть ветку
Ivan Ivanov

слово "хакер" сегодня звучит примерно как "компьютерщик" )

Ответить
Развернуть ветку
Юрий Другач

Не так давно, программистов просили отремонтировать компьютер, а теперь хакеров будут звать

Ответить
Развернуть ветку
hakhagmon

збс выборка 

Ответить
Развернуть ветку
Иван Иванов

Ну так одно - парк, а другое - convention cenre ))

Ответить
Развернуть ветку
Владимир Логинов

огонь!

Ответить
Развернуть ветку
Tarlan Abukarov

Респект за проделанную работу! Можно строить гипотезы по размещению рекламы в офлайн каналах.

Ответить
Развернуть ветку
Zeld Treld

А там где Хремль аномалий никаких нет? Там же какие-то чудеса с спутниковыми сигналами творятся

Ответить
Развернуть ветку
Sergei Zotov

нету, потому что не автоматическая геометка, а пользователь ее ставит в приложении. А так - да, скорее всего все бы отправлялись во Внуково (по крайней мере так раньше было). Но это только про классический GPS, насколько помнится, A-GPS бы нормально определил место, т.к. ориентируется не на спутники

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Насколько я помню, эти проблемы и правда были, но с навигатором (таксисты жаловались). В инстаграме можно выбрать корректную геоточку самостоятельно.

Ответить
Развернуть ветку
Георгий Владимирович

Даниил спасибо! Твоя любовь к анализу данным, привела к прекрасному исследованию для предпринимателя и маркетолога. Респект тебе, подпишусь на телегу.

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Спасибо! Скоро будет не только Москва, но и весь мир. 

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Да, что-то проглядел. Там было больше 20 Красных площадей. Вообще данные грязненькие. 

Ответить
Развернуть ветку
3 комментария
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Dmitry Shepelev

А сколько времени ушло на процессинг данных и реализацию данного дашборда?

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Парсинг и хранение данных у меня уже были реализованы ранее. Сама скачка 50к геоточек заняла два-три часа (поиск, первичная информация, обогащение). Сложно было придумать идеи для визуализации. А отрисовка каждого графика - минут 10 подбора цветов и шаблонов для красоты.

Ответить
Развернуть ветку
Yevhenii Oliinyk

Прекрасная работа по дата аналитике. Как определялась дороговизна мест?

А что за АПИ инстаграма которое предоставляет геометки и вообще какую либо инфу?

Кого удивляет слово хакер - изначально людей которые хорошо разбирались с компами называли хакерами, и только потом хакерами стали называть тех кто взламывает.

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Спасибо. 
"Дороговизну" выдавал сам Facebook - это целое число от 1 до 4. 
У Инстаграма нет публичного API, поэтому и нужно быть "хакером", чтобы собрать данные в таком объеме. 

Ответить
Развернуть ветку
3 комментария
Семен Смирнов
изначально людей которые хорошо разбирались с компами называли хакерами, и только потом хакерами стали называть тех кто взламывает.

Только наоборот

Ответить
Развернуть ветку
Михаил Андреев

Могу посоветовать своё решение https://github.com/adw0rd/instagrapi/blob/master/instagrapi/location.py

Ответить
Развернуть ветку
Платон Щукин

@Daniil Okhlopkov в каком сервисе визуализация?

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Читайте топовые комментарии - там все написано. 

Ответить
Развернуть ветку
Сергей Крупник

Супер. 👍

Ответить
Развернуть ветку
Olga Sokolova

Спасибо, интересно!

Ответить
Развернуть ветку
Петр Рожков

Тут еще надо учесть, что геоточки в инсте ставятся для отображения контента при поиске пользователями. Условно говоря мадам из Урюпинска может ставить точку Красной площади, в надежде найти себе ухажера из нерезиновой.

Ответить
Развернуть ветку
Огурец Молодец

Судя по карте, у меня в Щукино воще скукотища :-(

Ответить
Развернуть ветку
Konstantin Zhivenkoff

Охуительно.

Ответить
Развернуть ветку
Alexander Kalinnikov

Выглядит круто! Даже неважно, валидные ли данные на 100% или нет. все равно круто. И можно много бизнес-инсайтов вытащить.

1) Например, смотрим на таблицу "Популярность категорий в зависимости от дороговизны". Принимаем гипотезу, что распределение внутри каждой категории примерно нормальное, но это даже не важно. Ищем максимумы (желтые клетки), рядом с которыми пусто. Именно в эти сегменты стоит идти и делать там бизнес. Пример: Performanсe - ничего нет в сегменте $$$$. Но если сегмент $$$ самый популярный, то и сегмент $$$$ зайдет. Аналогично, зайдут Movie Theatre $$$, Interior Design $$$$, Photographer $$$. Почему "элитные" салоны красоты есть, а "элитных" фотографий нет?  

2) Другой пример - анализ корреляций соседства мест разных категорий друг с другом. например, если рядом с дорогими ресторанами часто располагается дорогие кафе, а в какой-то локации нет кафе, то там можно открыть или кафе, или часть территории ресторана выделить под кафе.

Ответить
Развернуть ветку
Дмитрий Филиппов

Молодец. Грамотный подход к парсингу.

Ответить
Развернуть ветку
Дмитрий Крючков

👍

Ответить
Развернуть ветку
Mike Kosulin

Не стал читать, но

Всем привет! Недавно я по приколу выкачал все геометки из Instagram и Facebook

Тут есть один важный момент. Геометки используются для спам рекламы. Некоторые блогеры/компании или ещё кто простят фотки с неправильной меткой, чтоб таргетиться на нужную аудиторию.

Ответить
Развернуть ветку
Vitaly Halenchyk

ох ты! А что за софт в ролике Youtube позволяющий делать такую симпатичную видео визуализацию?

Ответить
Развернуть ветку
Sergei Zotov

отвечу за автора (сорри), что это тот же самый kepler.gl. Попробуйте - он и правда прекрасен

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

да, это все тот же Kepler - он по колонке с временем может анимации делать. Ну и + Quicktime, чтобы скринкаст записать.

Ответить
Развернуть ветку
sardelkin

любителей фоткаться с тарелками больше всего, что не так с этими людьми?

Ответить
Развернуть ветку
Rodeus

Мое предположение, что это глубинное.
М: «У меня есть еда, завтра тоже будет. Я имею шанс выжить и выкормить своих отпрысков. Все самки ко мне!»
Ж: «Я ему еду, у меня есть шанс выжить и вырастить потомство. Другие самки, завидуйте мне!»

Ответить
Развернуть ветку
2 комментария
Alexandr Simonov

Масква ахуеть илитная стала

Ответить
Развернуть ветку
Роман Моисеев

"Красный цвет - много фоток, синий - мало. Более подробная легенда на фото."
Я один не вижу тут синих? 

Зеленые разных оттенков, оранжевые и красные вижу. Синие нет.

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Опечатка. Конечно, я имел в виду  🟩🟢💚💹📗🍀🍏

Ответить
Развернуть ветку
1 комментарий
Malik Khodjaev

А на какой машинке ты это все собирал? Интересует техническая сторона.

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Про парсер инстаграмма ничего не могу сказать. А вся аналитика собранных данных делалась на ноуте в гуглхроме.

Ответить
Развернуть ветку
1 комментарий
Огурец Молодец

А это законно? :-\

Ответить
Развернуть ветку
Daniil Okhlopkov
Автор

Есть большое число компаний, основанных на сборе публично доступных данных. Конечно самим платформам типа VK и Instagram это не очень нравится. 

Ответить
Развернуть ветку
Динар Гатиатулин

Мне кажется что не очевидно где много, а где мало, я просто вижу дохера цветных точек, не очевидно нихера. Надо чтобы яркие точки - много, а тусклые - мало. Тогда было бы наглядно.

Ответить
Развернуть ветку
Артем Макаров

А парсинг через какой API делали?

Ответить
Развернуть ветку
Михаил Андреев

Даня использует своё решение, но я могу порекомендовать моё https://github.com/adw0rd/instagrapi/

Ответить
Развернуть ветку
Кирилл Самойленко

А можно где то найти DataFrame, самому интересно поискать

Ответить
Развернуть ветку
Юрий

На самом деле, Сбербанк уже давно и очень тщательно собирает данные по платежам с карточек, поэтому уверен, что у них есть подобные карты, но они их будут использовать уже по целевому назначению!)

Ответить
Развернуть ветку
Роман Турьев

Датасет будете на кагл выкладывать? 

Ответить
Развернуть ветку
Nice Man

Класс. Красная метка в Психиатрической клинике #1

Ответить
Развернуть ветку
Антон Исаков

Нашел человека, который научит меня основам Питона и SQL после того, как я закончу изучать курс А/Б-тесты в видеоиграх для работы аналитика.
Статья хорошая. Люблю такие коллекции данных.

Ответить
Развернуть ветку
Лилия Хомицкая

Безусловно, красиво! Только не понятно - нафига... Т.е. если бы мы исследовали конкретную местность под определенную задачу, понятно. А тут вся Москва... И что с этим знанием теперь делать? 

Ответить
Развернуть ветку
Alexandra P

Кремль))

Ответить
Развернуть ветку
Надежда Тарасова

На самом деле, очень было бы классно создать приложение для блоггеров да ит простых людей с самыми фотографируемыми местами в разных точках планеты - многие в путешествия вообще только ради фоток и отправляются. Так люди будут видеть топ красивых для фото мест с примерами. FotoGo

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
SEO с 2002 года

Реклама концлагеря...

Ответить
Развернуть ветку
Илья Я́рец

А есть полные списки?

Ответить
Развернуть ветку
VINIL

Вот читер. Ей богу. Пойду заявление писать.

Ответить
Развернуть ветку
110 комментариев
Раскрывать всегда