Особенности национального потребления шаурмы. Статистический анализ. Часть 1
Давно с друзьями и коллегами обсуждал возможность проведения статистического исследования потребителей и точек продажи шаурмы на основании анализа отзывов в тематических приложениях. Наконец-то, появилось время. Итак, представляю широкому кругу читателей нижеследующий аналитический материал.
I. Кратко о методологии исследования
Цели и задачи: (1) провести сравнительный лингвистический анализ частоты использования слов "Шаурма" и "Шаверма" в различных населённых пунктах; (2) определить факторы, влияющие на высокую либо низкую оценку точек продажи; (3) определить населённые пункты с высокими и низкими потребительскими оценками точек продажи шаурмы; (4) сравнить цены на шаурму в различных населённых пунктах и сопоставить их с местными зарплатами; (5) по аналогии с индексом "Биг-Мага" сформировать индекс "Шаурмы", т.е. оценить количество порций шаурмы, которые может купить житель населенного пункта со средней зарплатой.
Данные для анализа: отзывы потребителей и данные о точках продаж из приложения, входящего в топ-3 крупнейших тематических приложений о шаурме.
География исследования: Россия, Беларусь, Казахстан, Украина.
Выборка исследования: 72 500 отзывов, 7 645 точек продажи шаурмы.
Инструменты для сбора и анализа данных:
пакеты python: (1) requests - для сбора данных, (2) json_normalize, ElementTree - для разбора json и xml результатов сбора данных, (3) pandas - для формирования первичного массива (датафрейма), (4) pymorphy2 и nltk - для стемминга и нормализации текста отзывов, (5) collocations - для формирования биграмм и выявления ключевых словосочетаний в отзывах
- MS Excel для статистического анализа и визуализации данных
- IBM SPSS для статистического анализа там, где он удобнее, чем MS Excel
II. Сравнительный лингвистический анализ частоты использования слов "шаурма" и "шаверма"
Используемые слова
Чаще всего потребители именуют продукт словом "шаурма" (35% отзывов), на втором месте по популярности слово "шаверма" (29%), далее следуют сокращённые производные слова "шава" (24%) и "шавуха" (10%).
Слово "шаурма"
Чаще всего слово "шаурма" используется в городах Центрального, Южного и Приволжского федеральных округов России. Особенно часто слово "шаурма" используют пользователи из Ростова-на-Дону (74%), Орла (70%), Самары (70%), г. Щелково (68%), г. Пушкино (67%) и Краснодара (65%).
Слово "шаверма"
Термин "шаверма" популярен среди жителей Северо-Западного федерального округа России. Чаще других его используют пользователи в Петергофе (72%), Великом Новгороде (71%) и Пушкине (70%).
Сравнение Москвы и Санкт-Петербурга
В Москве слово "шаурма" используется в 49% отзывов, "шаверма" - в 10%.
В Санкт-Петербурге слово "шаурма" - только в 3% отзывов, а "шаверма" в 61%.
Слово "шава"
Сокращённое производное слово "шава" не имеет чётко выраженной региональной привязки. Чаще других в своих отзывах его применяют пользователи из населённых пунктов: Реутов (45%), Тверь (40%), Новокузнецк (40%), Мурино (40%), Сергиев Посад (38%), Шушары (37%), Калуга (36%) и Минск (35%).
III. Факторы, влияющие на оценку продукта и точки продажи
Кратко о системе оценки
Анализируемый сервис предлагает оценить точку и её продукт по трем характеристикам: (1) "Вкус продукта", (2) "Сытность продукта" и (3) "Атмосфера заведения". Каждая характеристика оценивается пользователем по шкале от 0 до 10 баллов. Далее вычисляется среднее значение всех отзывов и переводится в рейтинг от 0 до 100 баллов. Например, если есть 2 отзыва о "Вкусе продукта" - 5 баллов и 8 баллов, то средняя оценка составит 6,5 баллов. Тогда рейтинг точки по критерию "Вкус продукта" составит 6,5*10 = 65 баллов из 100.
Процедура отбора факторов
Факторы, влияющие на оценку точки и её продукта, отобраны в базу данных исследования по двум направлениям:
Анализируемый сервис содержит информацию о точке: "наличие веганского меню", "наличие туалета", "продажа пива", "возможность безналичной оплаты" (полагаю, что перевод на карту "Сбербанка" или "на телефон" здесь также подразумевается).
- Был произведен семантический разбор отзывов, выделены и сгруппированы по схожему смыслу словосочетания, которые взаимосвязаны с оценкой пользователей и присутствуют не менее, чем в 100 отзывах.
Итоговый список факторов
Формализованные приложением: "наличие веганского меню", "наличие туалета", "продажа пива" и "возможность безналичной оплаты"
- По итогам анализа отзывов: (1) положительные: "сочная шаурма", "шаурма не течёт", "шаурма не разваливается", "сотрудники в перчатках", "хрустящий лаваш", "свежие продукты", "мясо жарят на углях", "быстро готовят", "много мяса", "вкусный соус"; (2) отрицательные: "не свежие продукты", "много капусты", "сухая шаурма", "мало мяса", "сотрудники без перчаток", "мало соуса".
Влияние факторов, формализованных приложением
- Более половины точек продажи шаурмы (56%) предлагают возможность безналичной оплаты (картой либо переводом). В случае наличия такой опции пользовательский рейтинг "атмосферности" точки будет выше на +5 баллов из 100.
- Пиво продаётся в каждой четвёртой точке (27%). Опция также положительно влияет на пользовательские оценки (+5 баллов к рейтингу "атмосферности").
- 23% точек предлагают меню для веганцев. (+6 баллов из 100).
- Туалет есть только в каждой 5-ой точке продажи (22%). Стоит отметить, что опция наиболее важна среди вышеперечисленных для потребителей (+7 баллов в случае её наличия).
Безналичная оплата шаурмы в региональном срезе
Лучше всего опция безналичной оплаты шаурмы представлена в точках продаж таких городов, как Якутск (96% точек), Сургут (95%), Томск (95%), Петрозаводск (90%), Пермь (89%) и Тюмень (88%).
Сложнее всего оплатить уличную шаурму безналичным способом в таких городах, как Киев (только 4% точек принимают данную форму оплаты), Владивосток (13%), Пенза (25%) и Тверь (26%).
Влияние факторов, выделенных на основании анализа отзывов пользователей
В целом, следует отметить, что наличие определённых позитивных / негативных факторов, влияет на общую готовность пользователей поставить более высокую / низкую оценку точке и продукту. По одним факторам это выражено в большей степени, по другим - в меньшей.
Проще говоря, если пользователь доволен / не доволен значимым фактором, то он наверняка одновременно поставит более высокую / низкую оценку и "вкусу", и "сытности", и "атмосфере".
Положительные факторы в отзывах
Потребители значительно выше оценивают точки продажи, в которых продаётся "сочная шаурма" (+20 баллов из 100 по критерию "вкус", +16 к "сытности" и +18 к "атмосфере").
Одновременно, качественная шаурма должна быть приготовлена таким образом, чтобы "из нее ничего не вытекало" (+15 ко "вкусу", +14 к "сытности" и +13 к "атмосфере") и сама она "не разваливалась (+15 ко "вкусу", +13 к "сытности" и +14 к "атмосфере").
Также следует отметить, что соблюдение базовых принципов гигиены положительно влияет на оценку пользователей. Если потребитель видит, что сотрудник "готовит продукт в перчатках", то оценка такой точки выше (+12 ко "вкусу", +9 к "сытности" и +11 к "атмосфере").
С распределением влияния других положительных факторов можно ознакомиться на диаграмме ниже.
Отрицательные факторы в отзывах
Больше всего негативных эмоций у потребителей вызывают несвежие продукты в составе шаурмы, что критически влияет на низкую оценку точки продажи (-39 баллов ко "вкусу" шаурмы, -30 к "сытности" и -33 к "атмосфере" заведения).
На втором месте по негативу - большое количество капусты в составе продукта (-31 ко "вкусу", -25 к "сытности" и -25 к "атмосфере").
На третьем месте - слишком сухая шаурма (-34 ко "вкусу", -22 к "сытности" и -21 к "атмосфере).
С распределением других отрицательных факторов можно ознакомиться на диаграмме ниже.
Продолжение следует... (из него вы узнаете: (1) в каких городах самая и невкусная шаурма; (2) где самая дешёвая, а где самая дорогая шаурма; (3) сколько порций шаурмы могут позволить себе жители различных городов постсоветского пространства)
Батон, парадная, шаверма, небес асфальтный тусклый цвет ...
аж гречу захотелось!
Не нравится в уличной шаурме, когда на этой вывеске вместо слова "шаверма" написано "шаурма".
Важное замечание: такую нетерпимость проявляю только в Питере.
Годный контент, теперь давайте про фалафель!
Есть пара претензий к исследованию:
1) В визуализации запроса "Шаверма" нет смысла разделять Пушкин, Петергоф, Кудрово, Деревня Кудрово, Шушары, Мурино, Колпино, Парголово и Санкт-Петербург. Это всё-таки можно сказать один город, да и выборка была бы более репрезентативной, наверняка в Петергофе (живу там) не так много точек продаж, и соответственно отзывов. Я бы агрегировал их все в Питер, как город, и дальше сравнивал с Калининградом, Мурманском, и т.д. (возможно лучше бы подошла тепловая карта, кстати есть бесплатный сервис для этого удобный https://app.datawrapper.de)
2) Анализ городов по безналичной оплате: это просто манипулирование данными. 16 точек больше 15, 200 точек тоже больше 15. Но если в условном Якутске 15 точек с безналичной оплатой из 16, а в Питере 140 из 200, то отсюда не следует, что в Питере больше проблем с безнальной оплатой. Показывать только долю неправлильно, хотя бы в скобках стоит указать абсолютное количество точек с безналичной оплатой. Уверен, что если бы выборка была по всему общепиту в этих городах, то порядок бы городов изменился, и в топ вошли бы более оснащённые терминалами города (скорее всего в топ вышли крупные по населению города).
P.s. А вот с запросом "Шава" интересно: получается пригороды, причём относительно бедные СПб говорят и шаверма, и более гопническое "Шава"
1. Пожелание по объединению учту. За карту большое спасибо, именно такой сервис искал.
2. Смотрите, мы говорим только про точки продажи шаурмы. Поэтому сопоставлять с общепитом в целом не очень хорошо. Да, 16 точек это немного, но у нас тут не выборочное наблюдение по точкам, а практически сплошное. Предлагаю использовать долю и в скобках указывать общее количество точек.
3. С "Шавой" действительно характерно для пригородов.
а про Нижний Новгород не написали(
Учту. В дальнейшем в отдельной публикации выложу статистику по всем городам, но уже без текста.
Комментарий недоступен
Вот это полезная статья. Вот это я понимаю. Shaurma bless mother Russia!
Спасибо!
Ну наконец-то кто-то додумался сделать "самый популярный" анализ малого бизнеса России и стран СНГ !
Предприниматели! Перенимайте опыт топикстартера! Больше анализов малого бизнеса !
Ваших цифр ждут молодые диванные стартаперы и хипстеры со смузи!
Отгружаю лайки! Наконец-то исследование, которого мы достойны. Не хватает еще данных по расположению точки в городе, если конечно такую информацию можно получить и связать.
Уточните, какую аналитику по расположению точек в городе Вы хотели бы увидеть в исследовании? Данные о lattitude/longitude точек у меня есть.
Комментарий недоступен
Почему статья называется статистическим анализом, а в самом тексте только куча круговых и линейных диаграмм описывающих доли?
Про то, что автор даже понятие доли не знает я вообще молчу.
1. Конкретизируйте, что конкретно Вам не понравилось с т.з. статистического анализа? Отсутствие статистических критериев значимости, согласия и др.? Я полагаю, в рамках данного исследования материал станет слишком перегруженным. Это исследование не для вака, скопуса, ринц. Это описательное исследование с данными, ориентированными на широкий круг лиц из разных сфер. Посмотрите любой публичный пресс-релиз / отчет крупных социологических организаций: ВЦИОМ, ФОМ, Левада, ГФК и т.д. - везде описательная статистика, понятная для всех.
2. Круговая диаграмма только одна, а не куча. Если в целом говорить об улучшении инструментов визуализации, то замечание уже было получено от Никиты Иванова - в дальнейшем учту.
3. Поясните, что не так с долями?
Лол, для маркетолухов критерий значимости уже офигеть какой рокетсаенс и статья в скопус, а не то, чем должен владеть каждый из них.
Я Вас понял.
Спасибо за интерес к моему материалу =)
Я бы сказал не интерес, а просьба не использовать такие громкие заголовки, когда решил просто в бесплатном веб-редакторе порисовать графики для курсовой в ПТУ.
Шаварма.
Свиток!