Где чаще фотографируются в Москве? Хакер отвечает

Всем привет! Недавно я по приколу выкачал все геометки из Instagram и Facebook и спросил в своем фейсбуке, какие гипотезы проверить. Ниже вы найдете пару фактов о Москве и просто красивые картинки 😉

Итак, инсайты 🍿

Уважаемые издательства. Если захотите поделиться изображениями из статьи, указывайте ссылку на источник - мой телеграм канал: https://t.me/danokhlopkov.

Самые зафотканные места Москвы

Красный цвет - много фоток, зеленый - мало. Более подробная легенда на фото.

В таблице ниже — самые зафотканные места Москвы (за все время). Пришлось много «чистить» данные, ведь до интеграции геоточек из Facebook, в Instagram можно было создавать свои геотеги, вот пользователи, например, насоздавали более 20 разных Красных площадей.

Про столбцы: Media Count — сколько всего постов в инсте. Median Likes — медиана количества лайков у топовых фотографий в этой локации на момент парсинга.

Больше всего в Москве отмечаются в парках, ТЦ, туристических местах и просто улицах.

Московские чекины в течение дня

Если взять только рестораны, кафешки, парки и торговые центры, а потом выкачать посты в этих точках и разбить их по времени публикации, то можно получить активность в течение дня.

Чекины в течение дня. Выше столбик — больше фоток в этом месте в это время.

Дороговизна мест

Для большего числа геоточек через Facebook была выставлена «дороговизна» места — одно из 4 значений: $ (дешевое), $$, $$$ и $$$$ (дорогое).

Если посмотреть на расположения дорогих мест (красные точки), можно заметить, что рядом всегда есть другая красная. Дорогие/элитные места кучкуются!

Дороговизна мест. Красное — дорого, зеленое — не дорого.

Популярность категорий в зависимости от дороговизны

Сгруппировав места по дороговизне и категориям, посчитав их «популярность» (медиану числа постов), получим таблицу ниже.

Популярность категорий в зависимости от дороговизны

Пропуск означает, что таких локаций меньше 5. Столбец total_geos — сумма локаций в строчке. Значение в ячейке — медиана общего числа выложенных за все время фоток с локациями в данной категории с данной дороговизной. Желтым выделено максимальное значение в строчке — самая популярная ценовая категория.

Еще больше карт!

Кликните на изображение — там в описании я указал, что изображено.

Про данные

Я очень люблю собирать данные, иногда даже без конкретной цели. Но в этот раз я был уверен, что удастся вытащить интересные инсайты.

Кто-то смотрит на то, как обучаются нейронки. Я смотрю, как парсятся данные.

Геотеги Инстаграма, которые вы прикрепляете к своим фотографиям, берутся из Фейсбука, где хранятся одни из самых лакомых данных на данный момент.

Для каждой геоточки Инстаграм выдает следующие данные:

  1. Популярность места (сколько фотографий было выложено по тэгу)
  2. Популярность у блоггеров (количество лайков у топовых постов по геотегу)
  3. Насколько обсуждаемо место (количество комментариев под топовыми постами)
  4. Популярность места сегодня (если ли сториз)

При этом, если в этом гео есть что-то конкретное (раньше можно было создавать свои геотеги, которые могли и не иметь смысла, например), то Facebook может выдать больше данных об этом месте:

  1. Категория геоточки (ресторан, спортзал, бизнес центр, достопримечательность)
  2. Дороговизна: $, $$, $$$ или $$$$ (~средний чек)
  3. Популярность Инстаграм аккаунта бизнеса (число подписчиков, среднее число лайков и комментариев под постами)
  4. Контакты бизнеса (телефон, сайт, адрес, время работы)

Для простоты я предположил, что Москва находится между широтами 55.6 и 55.9 и долготами 37.4 и 38.83 (границы были выбраны очень грубо и относительно случайно). В этих границах нашлось 52 000 Instagram геоточек, из которых 34 000 были с данными из Facebook.

Вот и все! Перешлите фоточки вашим коллегам. Больше красивых вызуализаций я выкладывал в своем Телеграм-канале https://t.me/danokhlopkov.

А что бы вы посчитали, имея такие данные, например, для всего мира? Какой бы data-driven бизнес построили? Делитесь идеями в комментариях — обсудим.😉

{ "author_name": "Daniil Okhlopkov", "author_type": "self", "tags": [], "comments": 112, "likes": 231, "favorites": 336, "is_advertisement": false, "subsite_label": "social", "id": 183716, "is_wide": true, "is_ugc": true, "date": "Fri, 04 Dec 2020 15:07:55 +0300", "is_special": false }
0
112 комментариев
Популярные
По порядку
Написать комментарий...
86

Если не читать текст, а посмотреть только на картинки может показаться что наступила третья волна

Ответить
3

Вторая ещё не закончилась

Ответить
5

Спасибо за пояснение. А то я думал, что уже всё.

Ответить
0

А мы, как и за столом, между первой и второй промежуток не большой. А тут между 2 и третье получается)

Ответить
0

Вам не кажется...

Ответить
81

1. понятие "хакер" и парсинг апишки + пандас + кеплер слишком не вяжутся у меня в голове )
2. как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии?) Я, когда ливень был, заснял свою собаку, переходящую через лужу с ливнем и отметил Niagara Falls в USA ) еще хуже это работает из-за того, что рекламные посты от бизнесовых аккаунтов специально размещаются в большом количестве мест, потому что так иногда используется инстаграм для привлечения новых лидов (типа заходишь ты посмотреть, что творится на твоей любимой улице и вот уже оформляешь кредит под 300% - так подразумевается, видимо)

т.е. это данные с большим количеством мусора :) кеплер выглядит, конечно, огненно, как обычно ) у Убера вообще стек для визуализации шикарный, если не видели другие инструменты: https://vis.gl (особенно меня в свое время порадовал AVS).

Ответить
15

Да, данные с шумом. Я еще больше накину: когда человеку хорошо, ему не до соцсетей. Поэтому лично я, если и выкладываю что-то, то не в моменте, а позже - когда домой приду или когда просплюсь.

Я убежден, что инста сама выводит в топ релевантные к данной гео посты, поэтому весь рекламный шум со временем исчезнет из топа. А если и не исчезнет, то его все равно не так уж и много. 

Ответить
6

- Мама, сколько раз тебе говорить, я не нахер, я - хакер!

Ответить
0

дедушка, сколько раз тебе говорить, я не ксакеп, я хакер

Ответить
0

как это может показать валидные данные, если в инсте можно выбрать любое место для фотографии

С валидными данными без мусора распределение было бы принципиально другим?

Ответить
3

как можно это знать, если нет истинно корректных данных? Можно практически наверняка утверждать, что этот шум, например, слишком сильно усиливает пиковые и популярные геометки, из-за чего в топы не попадают места с чуть меньшей популярностью.

Ответить
2

2. Значит можно назвать как "самые популярные" места, типа того, то есть где больше люди хотят отмечаться, чтобы остальные думали, что они там)

Ответить
32

Меня отдельно просили отрисовать рестораны и кафешки на Патриках. Вот они 👀Размером указана "популярность" места (больше - больше). Цветом - "дороговизна" (краснее - больше, если белый - нет данных).

Ответить
1

Надо приложение пилить, которое будет собирать актуальные данные, в котором будет возможно посмотреть название конкретного места, проложить маршрут и так далее

Ответить
39

И называться оно будет Яндекс Карты?)

Ответить
15

а они дают инфографику по популярности, ценам и так далее? в любом случае плагиат не наш метод, назовите Хуяндекс Карты

Ответить
17

и народ будет голосовать не рублём, а хуём

Ответить
9

Только что в комментариях собрался идеальный прототип реально народного приложения. И идея, которая понятна каждому, и название, и слоган. Так создаются легенды. 

Ответить
0

Да разницы я в этом не вижу. На результат в целом то не как не повлияет.

Ответить
0

Популярность, цены и отзывы - maps.me или tripadvisor. Все уже придумано))

Ответить
5

) нет лучше подвести какую то аналитику для бизнеса. Например где лучше всего открыть кафе или ещё что-то. Вобщем смотреть в эту сторону.

Ответить
24

телка фотает задницу в зеркале, выкладывает, будучи в Бирюлево, ставит метку "Москва Сити" и ломает систему

Ответить
5

Я убежден, что таких фоток - меньшинство и что алгоритмы инсты не отправят такие посты в топ по геотегу. И что хотя бы один из этих двух факторов сработает в каждом случае)

Ответить
6

в общей массе - наверное да, а в жанре полуголых фоток как раз в топе попадаются такие фотки

Ответить
3

А вы знаток 😅

Ответить
0

такая фотка будет иметь еще вагон других тегов, не помещающихся на первый экран, они утянут куда надо...)))

Ответить
0

Ещё много удивительных и неописаных доселе в ярких красках коннекторов на грани легитимности и работоспособности, придающих любой заднице обвараживающий блеск и шарм.

Ответить
20

Человек выкачал метки с геотэгов и называет себя "Хакер"?

Ответить
12

Хакер (изначально — кто-либо, делающий мебель при помощи топора):

Человек, увлекающийся исследованием подробностей (деталей) программируемых систем, изучением вопроса повышения их возможностей, в противоположность большинству пользователей, которые предпочитают ограничиваться изучением необходимого минимума. RFC 1983 усиливает это определение следующим образом: «Человек, наслаждающийся доскональным пониманием внутреннего устройства систем, компьютеров и компьютерных сетей в частности».
Кто-либо, программирующий с энтузиазмом (даже одержимо) или любящий программировать, а не просто теоретизировать о программировании.
Человек, способный ценить и понимать хакерские ценности.
Человек, который силён в быстром программировании.
Эксперт по отношению к определённой компьютерной программе или кто-либо часто работающий с ней; пример: «хакер Unix». (Определения 1—5 взаимосвязаны, так что один человек может попадать под несколько из них.)
Эксперт или энтузиаст любого рода. Кто-либо может считаться «хакером астрономии», например.
Кто-либо любящий интеллектуальные испытания, заключающиеся в творческом преодолении или обходе ограничений.
(неодобрительно)
Злоумышленник, добывающий конфиденциальную информацию в обход систем защиты (например, «хакер паролей», «сетевой хакер»). Правильный термин — взломщик, крэкер (англ. cracker).
Эксперт в компьютерной безопасности, ищущий слабые места в системе, который либо их исправляет, либо использует в своих корыстных целях.(Крэкер)

Ответить
0

Очень полезный инструмент для таргетирования рекламы с помощью СМС.
Хочу коллаборацию!

Ответить
46

СМС-спамерам уготованы лучшие места в аду

Ответить
–13

Таргетированные СМС отправляются провайдером по его спискам.
Каждый абонент в списке дал согласие на получение рекламных СМС.
Например я таких согласий не давал ни одному провайдеру, и не получаю рекламные СМС.

Ответить
11

Я тоже не давал. Но потратил уйму времени, чтобы отказаться и от подобных СМС и от звонков. Это не означает, что они не приходят. Особенно звонки последние годы.

Ответить
1

Пишите https://t.me/danokhlopkov
Инстаграм позволяет собирать публично указанные почты и телефоны. Обычно их указывают 20-50% юзеров.

Ответить
1

Даня, а какими инструментами делал визуализации?

Ответить
18

Все графики были отрисованы тулой от Uber, которая называется kepler.gl. Я готовил данные в питоне через Pandas, а потом драг-н-дроп туда. 

Ответить
14

Вот кликабельная ссылочка: https://kepler.gl/ 
 

Ответить
4

Отличная работа! 

Ответить
2

можно без драгндропа это делать через интеграцию Kepler с Jupyter, если вы его используете. В последней ячейке тут есть код, как легко датафрейм из пандаса отобразить в кеплере без лишних сохранений из пандаса на диск:

https://github.com/zotttttttt/gps-trace-optimization/blob/main/GPS-trace-optimization-via-Valhalla.ipynb

Ответить
4

В моем случае я почти все преобразования делал в SQL, поэтому часто без Jupyter обходился. Если интересно, мой стек такой: Postgres -> Metabase -> Kepler. 

Ответить
3

Круто! У пандаса, кстати, есть read_sql. Теоретически можете писать запрос на SQL, а пандас по нему сходит и преобразует полученные данные в готовый датафрейм. Следующей парой строчек сможете сразу в Кеплер данные отобразить. Я теперь таким методом пользуюсь и не могу нарадоваться )

Ответить
1

Премного благодарен.

Классный отчет!

Ответить
6

Про популярность фото в ТЦ (Европейский, Метрополис и прочих). Это вовсе не фото в том магазине. https://www.instagram.com/explore/locations/151576/ А небольшие производители украшений, одежды и всего, что связано с фешн, ставят отметки ТЦ, чтобы повысить охват своих публикаций в инсте.

Ответить
0

спасибо, а то я уже очень сильно удивился.
Но все же, а какой в этом смысл? Типа кто-то будет искать фотографии по геотегу "ТЦ Европейский" и среди прочего наткнется на красивые украшения?

Ответить
5

слово "хакер" сегодня звучит примерно как "компьютерщик" )

Ответить
3

Не так давно, программистов просили отремонтировать компьютер, а теперь хакеров будут звать

Ответить
4

збс выборка 

Ответить
0

Ну так одно - парк, а другое - convention cenre ))

Ответить
3

огонь!

Ответить
3

Респект за проделанную работу! Можно строить гипотезы по размещению рекламы в офлайн каналах.

Ответить
2

А там где Хремль аномалий никаких нет? Там же какие-то чудеса с спутниковыми сигналами творятся

Ответить
3

нету, потому что не автоматическая геометка, а пользователь ее ставит в приложении. А так - да, скорее всего все бы отправлялись во Внуково (по крайней мере так раньше было). Но это только про классический GPS, насколько помнится, A-GPS бы нормально определил место, т.к. ориентируется не на спутники

Ответить
0

Насколько я помню, эти проблемы и правда были, но с навигатором (таксисты жаловались). В инстаграме можно выбрать корректную геоточку самостоятельно.

Ответить
2

Даниил спасибо! Твоя любовь к анализу данным, привела к прекрасному исследованию для предпринимателя и маркетолога. Респект тебе, подпишусь на телегу.

Ответить
2

Спасибо! Скоро будет не только Москва, но и весь мир. 

Ответить

Виноватый Мурод

2

В списке топовых мест есть «Москва, ВДНХ» и “ВДНХ/VDNKHa”

Ответить
0

Да, что-то проглядел. Там было больше 20 Красных площадей. Вообще данные грязненькие. 

Ответить

Виноватый Мурод

Daniil
0

А сейчас уже свои геотеги не создать?

Ответить
2

Сейчас и последние пару лет, насколько мне известно, через интерфейс Instagram - нет. Через Facebook, конечно же, можно создать бизнес и указать его на карте. 

Ответить
1

Раньше вроде через 4sq нужно было создавать

Ответить
2

?Интересно бы такую же статистку по другим городам России, особенно по миллионикам )
Мне кажется, в крупных городах некоторые интересные заведения и другие объекты могут конкурировать с приводными и рукотворными памятниками

Ответить
1

А сколько времени ушло на процессинг данных и реализацию данного дашборда?

Ответить
2

Парсинг и хранение данных у меня уже были реализованы ранее. Сама скачка 50к геоточек заняла два-три часа (поиск, первичная информация, обогащение). Сложно было придумать идеи для визуализации. А отрисовка каждого графика - минут 10 подбора цветов и шаблонов для красоты.

Ответить
1

Прекрасная работа по дата аналитике. Как определялась дороговизна мест?

А что за АПИ инстаграма которое предоставляет геометки и вообще какую либо инфу?

Кого удивляет слово хакер - изначально людей которые хорошо разбирались с компами называли хакерами, и только потом хакерами стали называть тех кто взламывает.

Ответить
1

Спасибо. 
"Дороговизну" выдавал сам Facebook - это целое число от 1 до 4. 
У Инстаграма нет публичного API, поэтому и нужно быть "хакером", чтобы собрать данные в таком объеме. 

Ответить
0

фактически какое то апи у инсты есть, и оно скорее идет через апи фейсбука сейчас, но после пары заходов и попытки вытянуть комменты - понял что дело туго и нужно долго вникать. Неужели был парсинг веб страниц?

Ответить
1

У инсты есть приватное API, которое используется в мобильном приложении, но можно парсить и graphql веб-версию, что-то можно получить, что-то нет. Надо вникать в тонкости

Я в своей либе (https://github.com/adw0rd/instagrapi/) использую обе API, переключаюсь в зависимости от ситуации. Например если инста через веб не дала скачать данные, то пробую через приватное API (пример https://github.com/adw0rd/instagrapi/blob/master/instagrapi/media.py#L110)

Ответить
0

Нет, не веб страниц. Хотя это рабочий вариант, но гайки там закручены очень сильно, и комменты, вроде, уже вообще никак нельзя скачать через незалогиненный веб. А через залогиненный - много не скачаешь. 

Ответить
1

изначально людей которые хорошо разбирались с компами называли хакерами, и только потом хакерами стали называть тех кто взламывает.

Только наоборот

Ответить
1

@Daniil Okhlopkov в каком сервисе визуализация?

Ответить
1

Читайте топовые комментарии - там все написано. 

Ответить
1

Супер. 👍

Ответить
1

Спасибо, интересно!

Ответить
1

Не стал читать, но
Всем привет! Недавно я по приколу выкачал все геометки из Instagram и Facebook

Тут есть один важный момент. Геометки используются для спам рекламы. Некоторые блогеры/компании или ещё кто простят фотки с неправильной меткой, чтоб таргетиться на нужную аудиторию.

Ответить
1

Тут еще надо учесть, что геоточки в инсте ставятся для отображения контента при поиске пользователями. Условно говоря мадам из Урюпинска может ставить точку Красной площади, в надежде найти себе ухажера из нерезиновой.

Ответить
1

Судя по карте, у меня в Щукино воще скукотища :-(

Ответить
1

Охуительно.

Ответить
1

Выглядит круто! Даже неважно, валидные ли данные на 100% или нет. все равно круто. И можно много бизнес-инсайтов вытащить.

1) Например, смотрим на таблицу "Популярность категорий в зависимости от дороговизны". Принимаем гипотезу, что распределение внутри каждой категории примерно нормальное, но это даже не важно. Ищем максимумы (желтые клетки), рядом с которыми пусто. Именно в эти сегменты стоит идти и делать там бизнес. Пример: Performanсe - ничего нет в сегменте $$$$. Но если сегмент $$$ самый популярный, то и сегмент $$$$ зайдет. Аналогично, зайдут Movie Theatre $$$, Interior Design $$$$, Photographer $$$. Почему "элитные" салоны красоты есть, а "элитных" фотографий нет?  

2) Другой пример - анализ корреляций соседства мест разных категорий друг с другом. например, если рядом с дорогими ресторанами часто располагается дорогие кафе, а в какой-то локации нет кафе, то там можно открыть или кафе, или часть территории ресторана выделить под кафе.

Ответить
1

Молодец. Грамотный подход к парсингу.

Ответить
0

ох ты! А что за софт в ролике Youtube позволяющий делать такую симпатичную видео визуализацию?

Ответить
2

отвечу за автора (сорри), что это тот же самый kepler.gl. Попробуйте - он и правда прекрасен

Ответить
1

да, это все тот же Kepler - он по колонке с временем может анимации делать. Ну и + Quicktime, чтобы скринкаст записать.

Ответить
0

любителей фоткаться с тарелками больше всего, что не так с этими людьми?

Ответить
0

Мое предположение, что это глубинное.
М: «У меня есть еда, завтра тоже будет. Я имею шанс выжить и выкормить своих отпрысков. Все самки ко мне!»
Ж: «Я ему еду, у меня есть шанс выжить и вырастить потомство. Другие самки, завидуйте мне!»

Ответить
0

лол, эдакий обезьяний хвост у них не отвалился ещё

Ответить
2

У нас у всех он еще не отвалился. Но у некоторых не отвалился сильнее.

Ответить
–2

Масква ахуеть илитная стала

Ответить
0

"Красный цвет - много фоток, синий - мало. Более подробная легенда на фото."
Я один не вижу тут синих? 

Зеленые разных оттенков, оранжевые и красные вижу. Синие нет.

Ответить
0

Опечатка. Конечно, я имел в виду  🟩🟢💚💹📗🍀🍏

Ответить
2

Фухх.. А я то уже трухнул немного) 

Ответить
0

А на какой машинке ты это все собирал? Интересует техническая сторона.

Ответить
0

Про парсер инстаграмма ничего не могу сказать. А вся аналитика собранных данных делалась на ноуте в гуглхроме.

Ответить
1

Таки выходит, что для парсинга инстаграмма использовался кластер из множества машин =)

Ответить
0

А это законно? :-\

Ответить
0

Есть большое число компаний, основанных на сборе публично доступных данных. Конечно самим платформам типа VK и Instagram это не очень нравится. 

Ответить
0

Мне кажется что не очевидно где много, а где мало, я просто вижу дохера цветных точек, не очевидно нихера. Надо чтобы яркие точки - много, а тусклые - мало. Тогда было бы наглядно.

Ответить
0

А парсинг через какой API делали?

Ответить
0

Даня использует своё решение, но я могу порекомендовать моё https://github.com/adw0rd/instagrapi/

Ответить
0

А можно где то найти DataFrame, самому интересно поискать

Ответить
0

На самом деле, Сбербанк уже давно и очень тщательно собирает данные по платежам с карточек, поэтому уверен, что у них есть подобные карты, но они их будут использовать уже по целевому назначению!)

Ответить
0

Датасет будете на кагл выкладывать? 

Ответить
0

Класс. Красная метка в Психиатрической клинике #1

Ответить
0

Нашел человека, который научит меня основам Питона и SQL после того, как я закончу изучать курс А/Б-тесты в видеоиграх для работы аналитика.
Статья хорошая. Люблю такие коллекции данных.

Ответить
0

Безусловно, красиво! Только не понятно - нафига... Т.е. если бы мы исследовали конкретную местность под определенную задачу, понятно. А тут вся Москва... И что с этим знанием теперь делать? 

Ответить
0

Кремль))

Ответить
0

На самом деле, очень было бы классно создать приложение для блоггеров да ит простых людей с самыми фотографируемыми местами в разных точках планеты - многие в путешествия вообще только ради фоток и отправляются. Так люди будут видеть топ красивых для фото мест с примерами. FotoGo

Ответить
0

 Хакер отвечает

Не превращайте vc в желтую прессу пожалуйста

Ответить
0

Реклама концлагеря...

Ответить
–5

Вот читер. Ей богу. Пойду заявление писать.

Ответить

Комментарии

null