Всем привет! Недавно я по приколу выкачал все геометки из Instagram и Facebook и спросил в своем фейсбуке, какие гипотезы проверить. Ниже вы найдете пару фактов о Москве и просто красивые картинки 😉
Итак, инсайты 🍿
Уважаемые издательства. Если захотите поделиться изображениями из статьи, указывайте ссылку на источник - мой телеграм канал: https://t.me/danokhlopkov.
Самые зафотканные места Москвы
В таблице ниже — самые зафотканные места Москвы (за все время). Пришлось много «чистить» данные, ведь до интеграции геоточек из Facebook, в Instagram можно было создавать свои геотеги, вот пользователи, например, насоздавали более 20 разных Красных площадей.
Про столбцы: Media Count — сколько всего постов в инсте. Median Likes — медиана количества лайков у топовых фотографий в этой локации на момент парсинга.
Московские чекины в течение дня
Если взять только рестораны, кафешки, парки и торговые центры, а потом выкачать посты в этих точках и разбить их по времени публикации, то можно получить активность в течение дня.
Дороговизна мест
Для большего числа геоточек через Facebook была выставлена «дороговизна» места — одно из 4 значений: $ (дешевое), $$, $$$ и $$$$ (дорогое).
Если посмотреть на расположения дорогих мест (красные точки), можно заметить, что рядом всегда есть другая красная. Дорогие/элитные места кучкуются!
Популярность категорий в зависимости от дороговизны
Сгруппировав места по дороговизне и категориям, посчитав их «популярность» (медиану числа постов), получим таблицу ниже.
Пропуск означает, что таких локаций меньше 5. Столбец total_geos — сумма локаций в строчке. Значение в ячейке — медиана общего числа выложенных за все время фоток с локациями в данной категории с данной дороговизной. Желтым выделено максимальное значение в строчке — самая популярная ценовая категория.
Еще больше карт!
Кликните на изображение — там в описании я указал, что изображено.
Про данные
Я очень люблю собирать данные, иногда даже без конкретной цели. Но в этот раз я был уверен, что удастся вытащить интересные инсайты.
Геотеги Инстаграма, которые вы прикрепляете к своим фотографиям, берутся из Фейсбука, где хранятся одни из самых лакомых данных на данный момент.
Для каждой геоточки Инстаграм выдает следующие данные:
- Популярность места (сколько фотографий было выложено по тэгу)
- Популярность у блоггеров (количество лайков у топовых постов по геотегу)
- Насколько обсуждаемо место (количество комментариев под топовыми постами)
- Популярность места сегодня (если ли сториз)
При этом, если в этом гео есть что-то конкретное (раньше можно было создавать свои геотеги, которые могли и не иметь смысла, например), то Facebook может выдать больше данных об этом месте:
- Категория геоточки (ресторан, спортзал, бизнес центр, достопримечательность)
- Дороговизна: $, $$, $$$ или $$$$ (~средний чек)
- Популярность Инстаграм аккаунта бизнеса (число подписчиков, среднее число лайков и комментариев под постами)
- Контакты бизнеса (телефон, сайт, адрес, время работы)
Для простоты я предположил, что Москва находится между широтами 55.6 и 55.9 и долготами 37.4 и 38.83 (границы были выбраны очень грубо и относительно случайно). В этих границах нашлось 52 000 Instagram геоточек, из которых 34 000 были с данными из Facebook.
Вот и все! Перешлите фоточки вашим коллегам. Больше красивых вызуализаций я выкладывал в своем Телеграм-канале https://t.me/danokhlopkov.
А что бы вы посчитали, имея такие данные, например, для всего мира? Какой бы data-driven бизнес построили? Делитесь идеями в комментариях — обсудим.😉
Если не читать текст, а посмотреть только на картинки может показаться что наступила третья волна
А мы, как и за столом, между первой и второй промежуток не большой. А тут между 2 и третье получается)
1. понятие "хакер" и парсинг апишки + пандас + кеплер слишком не вяжутся у меня в голове )
2. как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии?) Я, когда ливень был, заснял свою собаку, переходящую через лужу с ливнем и отметил Niagara Falls в USA ) еще хуже это работает из-за того, что рекламные посты от бизнесовых аккаунтов специально размещаются в большом количестве мест, потому что так иногда используется инстаграм для привлечения новых лидов (типа заходишь ты посмотреть, что творится на твоей любимой улице и вот уже оформляешь кредит под 300% - так подразумевается, видимо)
т.е. это данные с большим количеством мусора :) кеплер выглядит, конечно, огненно, как обычно ) у Убера вообще стек для визуализации шикарный, если не видели другие инструменты: https://vis.gl (особенно меня в свое время порадовал AVS).
как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии
С валидными данными без мусора распределение было бы принципиально другим?
как можно это знать, если нет истинно корректных данных? Можно практически наверняка утверждать, что этот шум, например, слишком сильно усиливает пиковые и популярные геометки, из-за чего в топы не попадают места с чуть меньшей популярностью.
2. Значит можно назвать как "самые популярные" места, типа того, то есть где больше люди хотят отмечаться, чтобы остальные думали, что они там)
Надо приложение пилить, которое будет собирать актуальные данные, в котором будет возможно посмотреть название конкретного места, проложить маршрут и так далее
а они дают инфографику по популярности, ценам и так далее? в любом случае плагиат не наш метод, назовите Хуяндекс Карты
телка фотает задницу в зеркале, выкладывает, будучи в Бирюлево, ставит метку "Москва Сити" и ломает систему
такая фотка будет иметь еще вагон других тегов, не помещающихся на первый экран, они утянут куда надо...)))
Хакер (изначально — кто-либо, делающий мебель при помощи топора):
Человек, увлекающийся исследованием подробностей (деталей) программируемых систем, изучением вопроса повышения их возможностей, в противоположность большинству пользователей, которые предпочитают ограничиваться изучением необходимого минимума. RFC 1983 усиливает это определение следующим образом: «Человек, наслаждающийся доскональным пониманием внутреннего устройства систем, компьютеров и компьютерных сетей в частности».
Кто-либо, программирующий с энтузиазмом (даже одержимо) или любящий программировать, а не просто теоретизировать о программировании.
Человек, способный ценить и понимать хакерские ценности.
Человек, который силён в быстром программировании.
Эксперт по отношению к определённой компьютерной программе или кто-либо часто работающий с ней; пример: «хакер Unix». (Определения 1—5 взаимосвязаны, так что один человек может попадать под несколько из них.)
Эксперт или энтузиаст любого рода. Кто-либо может считаться «хакером астрономии», например.
Кто-либо любящий интеллектуальные испытания, заключающиеся в творческом преодолении или обходе ограничений.
(неодобрительно)
Злоумышленник, добывающий конфиденциальную информацию в обход систем защиты (например, «хакер паролей», «сетевой хакер»). Правильный термин — взломщик, крэкер (англ. cracker).
Эксперт в компьютерной безопасности, ищущий слабые места в системе, который либо их исправляет, либо использует в своих корыстных целях.(Крэкер)
Очень полезный инструмент для таргетирования рекламы с помощью СМС.
Хочу коллаборацию!
Таргетированные СМС отправляются провайдером по его спискам.
Каждый абонент в списке дал согласие на получение рекламных СМС.
Например я таких согласий не давал ни одному провайдеру, и не получаю рекламные СМС.
Я тоже не давал. Но потратил уйму времени, чтобы отказаться и от подобных СМС и от звонков. Это не означает, что они не приходят. Особенно звонки последние годы.
можно без драгндропа это делать через интеграцию Kepler с Jupyter, если вы его используете. В последней ячейке тут есть код, как легко датафрейм из пандаса отобразить в кеплере без лишних сохранений из пандаса на диск:
Круто! У пандаса, кстати, есть read_sql. Теоретически можете писать запрос на SQL, а пандас по нему сходит и преобразует полученные данные в готовый датафрейм. Следующей парой строчек сможете сразу в Кеплер данные отобразить. Я теперь таким методом пользуюсь и не могу нарадоваться )
Про популярность фото в ТЦ (Европейский, Метрополис и прочих). Это вовсе не фото в том магазине. https://www.instagram.com/explore/locations/151576/ А небольшие производители украшений, одежды и всего, что связано с фешн, ставят отметки ТЦ, чтобы повысить охват своих публикаций в инсте.
спасибо, а то я уже очень сильно удивился.
Но все же, а какой в этом смысл? Типа кто-то будет искать фотографии по геотегу "ТЦ Европейский" и среди прочего наткнется на красивые украшения?
Не так давно, программистов просили отремонтировать компьютер, а теперь хакеров будут звать
Респект за проделанную работу! Можно строить гипотезы по размещению рекламы в офлайн каналах.
А там где Хремль аномалий никаких нет? Там же какие-то чудеса с спутниковыми сигналами творятся
нету, потому что не автоматическая геометка, а пользователь ее ставит в приложении. А так - да, скорее всего все бы отправлялись во Внуково (по крайней мере так раньше было). Но это только про классический GPS, насколько помнится, A-GPS бы нормально определил место, т.к. ориентируется не на спутники
Даниил спасибо! Твоя любовь к анализу данным, привела к прекрасному исследованию для предпринимателя и маркетолога. Респект тебе, подпишусь на телегу.
?Интересно бы такую же статистку по другим городам России, особенно по миллионикам )
Мне кажется, в крупных городах некоторые интересные заведения и другие объекты могут конкурировать с приводными и рукотворными памятниками
А сколько времени ушло на процессинг данных и реализацию данного дашборда?
Прекрасная работа по дата аналитике. Как определялась дороговизна мест?
А что за АПИ инстаграма которое предоставляет геометки и вообще какую либо инфу?
Кого удивляет слово хакер - изначально людей которые хорошо разбирались с компами называли хакерами, и только потом хакерами стали называть тех кто взламывает.
фактически какое то апи у инсты есть, и оно скорее идет через апи фейсбука сейчас, но после пары заходов и попытки вытянуть комменты - понял что дело туго и нужно долго вникать. Неужели был парсинг веб страниц?
У инсты есть приватное API, которое используется в мобильном приложении, но можно парсить и graphql веб-версию, что-то можно получить, что-то нет. Надо вникать в тонкости
Я в своей либе (https://github.com/adw0rd/instagrapi/) использую обе API, переключаюсь в зависимости от ситуации. Например если инста через веб не дала скачать данные, то пробую через приватное API (пример https://github.com/adw0rd/instagrapi/blob/master/instagrapi/media.py#L110)
изначально людей которые хорошо разбирались с компами называли хакерами, и только потом хакерами стали называть тех кто взламывает.
Только наоборот
Могу посоветовать своё решение https://github.com/adw0rd/instagrapi/blob/master/instagrapi/location.py
Не стал читать, но
Всем привет! Недавно я по приколу выкачал все геометки из Instagram и Facebook
Тут есть один важный момент. Геометки используются для спам рекламы. Некоторые блогеры/компании или ещё кто простят фотки с неправильной меткой, чтоб таргетиться на нужную аудиторию.
Тут еще надо учесть, что геоточки в инсте ставятся для отображения контента при поиске пользователями. Условно говоря мадам из Урюпинска может ставить точку Красной площади, в надежде найти себе ухажера из нерезиновой.
Выглядит круто! Даже неважно, валидные ли данные на 100% или нет. все равно круто. И можно много бизнес-инсайтов вытащить.
1) Например, смотрим на таблицу "Популярность категорий в зависимости от дороговизны". Принимаем гипотезу, что распределение внутри каждой категории примерно нормальное, но это даже не важно. Ищем максимумы (желтые клетки), рядом с которыми пусто. Именно в эти сегменты стоит идти и делать там бизнес. Пример: Performanсe - ничего нет в сегменте $$$$. Но если сегмент $$$ самый популярный, то и сегмент $$$$ зайдет. Аналогично, зайдут Movie Theatre $$$, Interior Design $$$$, Photographer $$$. Почему "элитные" салоны красоты есть, а "элитных" фотографий нет?
2) Другой пример - анализ корреляций соседства мест разных категорий друг с другом. например, если рядом с дорогими ресторанами часто располагается дорогие кафе, а в какой-то локации нет кафе, то там можно открыть или кафе, или часть территории ресторана выделить под кафе.
ох ты! А что за софт в ролике Youtube позволяющий делать такую симпатичную видео визуализацию?
отвечу за автора (сорри), что это тот же самый kepler.gl. Попробуйте - он и правда прекрасен
Мое предположение, что это глубинное.
М: «У меня есть еда, завтра тоже будет. Я имею шанс выжить и выкормить своих отпрысков. Все самки ко мне!»
Ж: «Я ему еду, у меня есть шанс выжить и вырастить потомство. Другие самки, завидуйте мне!»
У нас у всех он еще не отвалился. Но у некоторых не отвалился сильнее.
"Красный цвет - много фоток, синий - мало. Более подробная легенда на фото."
Я один не вижу тут синих?
Зеленые разных оттенков, оранжевые и красные вижу. Синие нет.
Таки выходит, что для парсинга инстаграмма использовался кластер из множества машин =)
Мне кажется что не очевидно где много, а где мало, я просто вижу дохера цветных точек, не очевидно нихера. Надо чтобы яркие точки - много, а тусклые - мало. Тогда было бы наглядно.
Даня использует своё решение, но я могу порекомендовать моё https://github.com/adw0rd/instagrapi/
На самом деле, Сбербанк уже давно и очень тщательно собирает данные по платежам с карточек, поэтому уверен, что у них есть подобные карты, но они их будут использовать уже по целевому назначению!)
Нашел человека, который научит меня основам Питона и SQL после того, как я закончу изучать курс А/Б-тесты в видеоиграх для работы аналитика.
Статья хорошая. Люблю такие коллекции данных.
Безусловно, красиво! Только не понятно - нафига... Т.е. если бы мы исследовали конкретную местность под определенную задачу, понятно. А тут вся Москва... И что с этим знанием теперь делать?
На самом деле, очень было бы классно создать приложение для блоггеров да ит простых людей с самыми фотографируемыми местами в разных точках планеты - многие в путешествия вообще только ради фоток и отправляются. Так люди будут видеть топ красивых для фото мест с примерами. FotoGo