Где чаще фотографируются в Москве?
Всем привет! Недавно я по приколу выкачал все геометки из Instagram и Facebook и спросил в своем фейсбуке, какие гипотезы проверить. Ниже вы найдете пару фактов о Москве и просто красивые картинки 😉
Итак, инсайты 🍿
Уважаемые издательства. Если захотите поделиться изображениями из статьи, указывайте ссылку на источник - мой телеграм канал: https://t.me/danokhlopkov.
Самые зафотканные места Москвы
В таблице ниже — самые зафотканные места Москвы (за все время). Пришлось много «чистить» данные, ведь до интеграции геоточек из Facebook, в Instagram можно было создавать свои геотеги, вот пользователи, например, насоздавали более 20 разных Красных площадей.
Про столбцы: Media Count — сколько всего постов в инсте. Median Likes — медиана количества лайков у топовых фотографий в этой локации на момент парсинга.
Московские чекины в течение дня
Если взять только рестораны, кафешки, парки и торговые центры, а потом выкачать посты в этих точках и разбить их по времени публикации, то можно получить активность в течение дня.
Дороговизна мест
Для большего числа геоточек через Facebook была выставлена «дороговизна» места — одно из 4 значений: $ (дешевое), $$, $$$ и $$$$ (дорогое).
Если посмотреть на расположения дорогих мест (красные точки), можно заметить, что рядом всегда есть другая красная. Дорогие/элитные места кучкуются!
Популярность категорий в зависимости от дороговизны
Сгруппировав места по дороговизне и категориям, посчитав их «популярность» (медиану числа постов), получим таблицу ниже.
Пропуск означает, что таких локаций меньше 5. Столбец total_geos — сумма локаций в строчке. Значение в ячейке — медиана общего числа выложенных за все время фоток с локациями в данной категории с данной дороговизной. Желтым выделено максимальное значение в строчке — самая популярная ценовая категория.
Еще больше карт!
Кликните на изображение — там в описании я указал, что изображено.
Про данные
Я очень люблю собирать данные, иногда даже без конкретной цели. Но в этот раз я был уверен, что удастся вытащить интересные инсайты.
Геотеги Инстаграма, которые вы прикрепляете к своим фотографиям, берутся из Фейсбука, где хранятся одни из самых лакомых данных на данный момент.
Для каждой геоточки Инстаграм выдает следующие данные:
- Популярность места (сколько фотографий было выложено по тэгу)
- Популярность у блоггеров (количество лайков у топовых постов по геотегу)
- Насколько обсуждаемо место (количество комментариев под топовыми постами)
- Популярность места сегодня (если ли сториз)
При этом, если в этом гео есть что-то конкретное (раньше можно было создавать свои геотеги, которые могли и не иметь смысла, например), то Facebook может выдать больше данных об этом месте:
- Категория геоточки (ресторан, спортзал, бизнес центр, достопримечательность)
- Дороговизна: $, $$, $$$ или $$$$ (~средний чек)
- Популярность Инстаграм аккаунта бизнеса (число подписчиков, среднее число лайков и комментариев под постами)
- Контакты бизнеса (телефон, сайт, адрес, время работы)
Для простоты я предположил, что Москва находится между широтами 55.6 и 55.9 и долготами 37.4 и 38.83 (границы были выбраны очень грубо и относительно случайно). В этих границах нашлось 52 000 Instagram геоточек, из которых 34 000 были с данными из Facebook.
Вот и все! Перешлите фоточки вашим коллегам. Больше красивых вызуализаций я выкладывал в своем Телеграм-канале https://t.me/danokhlopkov.
А что бы вы посчитали, имея такие данные, например, для всего мира? Какой бы data-driven бизнес построили? Делитесь идеями в комментариях — обсудим.😉
Если не читать текст, а посмотреть только на картинки может показаться что наступила третья волна
Вторая ещё не закончилась
Вам не кажется...
1. понятие "хакер" и парсинг апишки + пандас + кеплер слишком не вяжутся у меня в голове )
2. как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии?) Я, когда ливень был, заснял свою собаку, переходящую через лужу с ливнем и отметил Niagara Falls в USA ) еще хуже это работает из-за того, что рекламные посты от бизнесовых аккаунтов специально размещаются в большом количестве мест, потому что так иногда используется инстаграм для привлечения новых лидов (типа заходишь ты посмотреть, что творится на твоей любимой улице и вот уже оформляешь кредит под 300% - так подразумевается, видимо)
т.е. это данные с большим количеством мусора :) кеплер выглядит, конечно, огненно, как обычно ) у Убера вообще стек для визуализации шикарный, если не видели другие инструменты: https://vis.gl (особенно меня в свое время порадовал AVS).
Да, данные с шумом. Я еще больше накину: когда человеку хорошо, ему не до соцсетей. Поэтому лично я, если и выкладываю что-то, то не в моменте, а позже - когда домой приду или когда просплюсь.
Я убежден, что инста сама выводит в топ релевантные к данной гео посты, поэтому весь рекламный шум со временем исчезнет из топа. А если и не исчезнет, то его все равно не так уж и много.
- Мама, сколько раз тебе говорить, я не нахер, я - хакер!
С валидными данными без мусора распределение было бы принципиально другим?
2. Значит можно назвать как "самые популярные" места, типа того, то есть где больше люди хотят отмечаться, чтобы остальные думали, что они там)
Меня отдельно просили отрисовать рестораны и кафешки на Патриках. Вот они 👀Размером указана "популярность" места (больше - больше). Цветом - "дороговизна" (краснее - больше, если белый - нет данных).
Надо приложение пилить, которое будет собирать актуальные данные, в котором будет возможно посмотреть название конкретного места, проложить маршрут и так далее
Человек выкачал метки с геотэгов и называет себя "Хакер"?
Комментарий недоступен
телка фотает задницу в зеркале, выкладывает, будучи в Бирюлево, ставит метку "Москва Сити" и ломает систему
Я убежден, что таких фоток - меньшинство и что алгоритмы инсты не отправят такие посты в топ по геотегу. И что хотя бы один из этих двух факторов сработает в каждом случае)
Ещё много удивительных и неописаных доселе в ярких красках коннекторов на грани легитимности и работоспособности, придающих любой заднице обвараживающий блеск и шарм.
Очень полезный инструмент для таргетирования рекламы с помощью СМС.
Хочу коллаборацию!
СМС-спамерам уготованы лучшие места в аду
Пишите https://t.me/danokhlopkov
Инстаграм позволяет собирать публично указанные почты и телефоны. Обычно их указывают 20-50% юзеров.
Даня, а какими инструментами делал визуализации?
Все графики были отрисованы тулой от Uber, которая называется kepler.gl. Я готовил данные в питоне через Pandas, а потом драг-н-дроп туда.
Про популярность фото в ТЦ (Европейский, Метрополис и прочих). Это вовсе не фото в том магазине. https://www.instagram.com/explore/locations/151576/ А небольшие производители украшений, одежды и всего, что связано с фешн, ставят отметки ТЦ, чтобы повысить охват своих публикаций в инсте.
спасибо, а то я уже очень сильно удивился.
Но все же, а какой в этом смысл? Типа кто-то будет искать фотографии по геотегу "ТЦ Европейский" и среди прочего наткнется на красивые украшения?
слово "хакер" сегодня звучит примерно как "компьютерщик" )
Не так давно, программистов просили отремонтировать компьютер, а теперь хакеров будут звать
збс выборка
Ну так одно - парк, а другое - convention cenre ))
огонь!
Респект за проделанную работу! Можно строить гипотезы по размещению рекламы в офлайн каналах.
А там где Хремль аномалий никаких нет? Там же какие-то чудеса с спутниковыми сигналами творятся
нету, потому что не автоматическая геометка, а пользователь ее ставит в приложении. А так - да, скорее всего все бы отправлялись во Внуково (по крайней мере так раньше было). Но это только про классический GPS, насколько помнится, A-GPS бы нормально определил место, т.к. ориентируется не на спутники
Насколько я помню, эти проблемы и правда были, но с навигатором (таксисты жаловались). В инстаграме можно выбрать корректную геоточку самостоятельно.
Даниил спасибо! Твоя любовь к анализу данным, привела к прекрасному исследованию для предпринимателя и маркетолога. Респект тебе, подпишусь на телегу.
Спасибо! Скоро будет не только Москва, но и весь мир.
Комментарий недоступен
Да, что-то проглядел. Там было больше 20 Красных площадей. Вообще данные грязненькие.
Комментарий недоступен
А сколько времени ушло на процессинг данных и реализацию данного дашборда?
Парсинг и хранение данных у меня уже были реализованы ранее. Сама скачка 50к геоточек заняла два-три часа (поиск, первичная информация, обогащение). Сложно было придумать идеи для визуализации. А отрисовка каждого графика - минут 10 подбора цветов и шаблонов для красоты.
Прекрасная работа по дата аналитике. Как определялась дороговизна мест?
А что за АПИ инстаграма которое предоставляет геометки и вообще какую либо инфу?
Кого удивляет слово хакер - изначально людей которые хорошо разбирались с компами называли хакерами, и только потом хакерами стали называть тех кто взламывает.
Спасибо.
"Дороговизну" выдавал сам Facebook - это целое число от 1 до 4.
У Инстаграма нет публичного API, поэтому и нужно быть "хакером", чтобы собрать данные в таком объеме.
Только наоборот
Могу посоветовать своё решение https://github.com/adw0rd/instagrapi/blob/master/instagrapi/location.py
@Daniil Okhlopkov в каком сервисе визуализация?
Читайте топовые комментарии - там все написано.
Супер. 👍
Спасибо, интересно!
Тут еще надо учесть, что геоточки в инсте ставятся для отображения контента при поиске пользователями. Условно говоря мадам из Урюпинска может ставить точку Красной площади, в надежде найти себе ухажера из нерезиновой.
Судя по карте, у меня в Щукино воще скукотища :-(
Охуительно.
Выглядит круто! Даже неважно, валидные ли данные на 100% или нет. все равно круто. И можно много бизнес-инсайтов вытащить.
1) Например, смотрим на таблицу "Популярность категорий в зависимости от дороговизны". Принимаем гипотезу, что распределение внутри каждой категории примерно нормальное, но это даже не важно. Ищем максимумы (желтые клетки), рядом с которыми пусто. Именно в эти сегменты стоит идти и делать там бизнес. Пример: Performanсe - ничего нет в сегменте $$$$. Но если сегмент $$$ самый популярный, то и сегмент $$$$ зайдет. Аналогично, зайдут Movie Theatre $$$, Interior Design $$$$, Photographer $$$. Почему "элитные" салоны красоты есть, а "элитных" фотографий нет?
2) Другой пример - анализ корреляций соседства мест разных категорий друг с другом. например, если рядом с дорогими ресторанами часто располагается дорогие кафе, а в какой-то локации нет кафе, то там можно открыть или кафе, или часть территории ресторана выделить под кафе.
Молодец. Грамотный подход к парсингу.
👍
Не стал читать, но
Всем привет! Недавно я по приколу выкачал все геометки из Instagram и FacebookТут есть один важный момент. Геометки используются для спам рекламы. Некоторые блогеры/компании или ещё кто простят фотки с неправильной меткой, чтоб таргетиться на нужную аудиторию.
ох ты! А что за софт в ролике Youtube позволяющий делать такую симпатичную видео визуализацию?
отвечу за автора (сорри), что это тот же самый kepler.gl. Попробуйте - он и правда прекрасен
да, это все тот же Kepler - он по колонке с временем может анимации делать. Ну и + Quicktime, чтобы скринкаст записать.
любителей фоткаться с тарелками больше всего, что не так с этими людьми?
Мое предположение, что это глубинное.
М: «У меня есть еда, завтра тоже будет. Я имею шанс выжить и выкормить своих отпрысков. Все самки ко мне!»
Ж: «Я ему еду, у меня есть шанс выжить и вырастить потомство. Другие самки, завидуйте мне!»
Масква ахуеть илитная стала
"Красный цвет - много фоток, синий - мало. Более подробная легенда на фото."
Я один не вижу тут синих?
Зеленые разных оттенков, оранжевые и красные вижу. Синие нет.
Опечатка. Конечно, я имел в виду 🟩🟢💚💹📗🍀🍏
А на какой машинке ты это все собирал? Интересует техническая сторона.
Про парсер инстаграмма ничего не могу сказать. А вся аналитика собранных данных делалась на ноуте в гуглхроме.
А это законно? :-\
Есть большое число компаний, основанных на сборе публично доступных данных. Конечно самим платформам типа VK и Instagram это не очень нравится.
Мне кажется что не очевидно где много, а где мало, я просто вижу дохера цветных точек, не очевидно нихера. Надо чтобы яркие точки - много, а тусклые - мало. Тогда было бы наглядно.
А парсинг через какой API делали?
Даня использует своё решение, но я могу порекомендовать моё https://github.com/adw0rd/instagrapi/
А можно где то найти DataFrame, самому интересно поискать
На самом деле, Сбербанк уже давно и очень тщательно собирает данные по платежам с карточек, поэтому уверен, что у них есть подобные карты, но они их будут использовать уже по целевому назначению!)
Датасет будете на кагл выкладывать?
Класс. Красная метка в Психиатрической клинике #1
Нашел человека, который научит меня основам Питона и SQL после того, как я закончу изучать курс А/Б-тесты в видеоиграх для работы аналитика.
Статья хорошая. Люблю такие коллекции данных.
Безусловно, красиво! Только не понятно - нафига... Т.е. если бы мы исследовали конкретную местность под определенную задачу, понятно. А тут вся Москва... И что с этим знанием теперь делать?
Кремль))
На самом деле, очень было бы классно создать приложение для блоггеров да ит простых людей с самыми фотографируемыми местами в разных точках планеты - многие в путешествия вообще только ради фоток и отправляются. Так люди будут видеть топ красивых для фото мест с примерами. FotoGo
Комментарий недоступен
Реклама концлагеря...
А есть полные списки?
Вот читер. Ей богу. Пойду заявление писать.