Почему по 1000 человек судят обо всех россиянах?

Такие организации, как ФОМ или ВЦИОМ часто публикуют опросы на 1000 человек и называют их «всероссийскими». СМИ активно ставят заголовки «Россияне считают, что...», а затем получают возмущения в комментариях.

Какие россияне!” - возмущённо вопиют в комментариях к таким новостям, - “Меня никто не спрашивал, я не верю этим результатам!”

“Опросили кучку своих родственников/друзей/бюджетников (выбирайте, что нравится) и выдают за всероссийский опрос! Они же просто отмывают деньги!”

Фото: Студия анимационного кино "Мельница"
Фото: Студия анимационного кино "Мельница"

Фух… Если вас когда-то затрагивали такие справедливые переживания за деньги социологических компаний, сейчас попробуем вместе во всём разобраться. Самое время выдохнуть и прочитать небольшую статью, написанную в сотрудничестве с коллегами из Russian Field, о том, почему по 1000 человек можно судить обо всех россиянах. В качестве бонуса вы узнаете три новых словосочетания, которые помогут вам намного лучше понимать социологов и щеголять вокабуляром перед знакомыми.

Интерфакс Россия: https://www.interfax-russia.ru/kaleidoscope/dlitelnostyu-novogodnih-kanikul-dovolny-56-rossiyan-opros
Интерфакс Россия: https://www.interfax-russia.ru/kaleidoscope/dlitelnostyu-novogodnih-kanikul-dovolny-56-rossiyan-opros

Вспоминаем мультики про богатырей

Когда компания решает, что для её продвижения было бы полезно провести исследование с помощью количественных методов (в нашем случае – опроса), она встаёт перед выбором: какое множество объектов будет изучаться в процессе исследования? Если перестать заумничать – сколько людей нужно опросить? Ответ на этот вопрос невозможен без определения ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ исследования. Генеральная совокупность - это все те объекты (в нашем случае люди), относительно которых исследователь должен дать выводы в рамках поставленного исследовательского вопроса.

Объяснять будем на примере анимационной студии “Мельница” – той самой, которая выпускает мультики про трёх богатырей.

“Мельница” хочет узнать “Сколько девочек мечтают стать похожими на Забаву Путятишну, когда вырастут?“

Генеральная совокупность в нашем случае - российские девочки (допустим, от 7 до 18 лет). Мы должны сделать выводы о желании всех этих девочек стать похожими на Забаву. Все эти девочки – наша генеральная совокупность.

Фото: Студия анимационного кино "Мельница"
Фото: Студия анимационного кино "Мельница"

Как вы думаете, сколько в стране таких девочек? Миллион? Два? Десять миллионов? Возможно ли их всех найти, поймать и опросить? И, самое главное, сколько это будет стоить для заказчика? А сколько будет стоить опросить всех россиян при необходимости?...

На последний вопрос мы дадим ответ в конце статьи (спойлер: очень много, анимационная студия “Мельница” не сможет себе такого позволить)!!! Но главное – нужно ли “Мельнице” опрашивать всех девочек в стране, чтобы узнать ответ на исследовательский вопрос?

Статистики успокаивают компанию и уверенно говорят, что если изучаемая группа людей настолько велика, что опросить их всех становится почти невозможно, в опросе всей генеральной совокупности нет необходимости. Исследователь может выбрать из группы ограниченное количество элементов, в сумме отражающих свойства генеральной совокупности, они так и называются – ВЫБОРКА. Результаты анализа такой группы элементов можно, с учётом погрешностей (которые рассчитываются по специальной формуле), обобщить на всю генеральную совокупность.

Фото: Студия анимационного кино "Мельница"
Фото: Студия анимационного кино "Мельница"

Выборка будет отражать свойства генеральной совокупности при соблюдении двух условий. Во-первых, если она РЕПРЕЗЕНТАТИВНАЯ (это последнее заковыристое слово на сегодня, обещаем!), то есть как модель копирует основные свойства изучаемого объекта (как планета и глобус, например). Во-вторых, если она достаточная по объёму, с этим как раз и связан главный вопрос статьи, какой объём/размер достаточен.

В отношении глобуса вы можете справедливо возразить, что он хотя и маленькая копия земного шара, но не расскажет нам, например, о неровностях планеты и о соотношении самой высокой и самой низкой точек Земли, если в этом заключается исследовательский вопрос. Здесь как раз стоит задуматься о том, по какому из свойств модель должна быть репрезентативна. Глобус покажет соотношение размеров материков, стран и океанов. А для анализа неровностей планеты нам понадобится топографическая карта.

Выборка также собирается в соответствии с распределением в генеральной совокупности определённых свойств. Например, вернёмся к нашему мульт-примеру. Если мы предполагаем, что возраст девочек может влиять на их желание быть похожей на Забаву, внутри выборки доля девочек каждой возрастной группы должна соответствовать доле девочек в генеральной совокупности. Делим девочек из выборки от 7 до 18 лет на следующие группы: 7-8, 9-11, 12-14, 15-18 лет. Соотношение этих групп друг к другу среди девочек выборки должно быть таким же, как соотношение соответствующих групп среди всех девочек России. Если мы знаем, что в каком-то регионе мультики про богатырей смотрят чаще, нужно сделать пропорциональное распределение по регионам. И так далее.

Проще объяснить на пицце:

HotWalls.ru
HotWalls.ru

С учётом погрешностей, изучив отрезанный от пиццы кусок, можно обобщать выводы о нём на всю пиццу целиком. Пицца здесь - генеральная совокупность, а кусок - выборка.

Но если вдруг мы знаем, что один из 8 кусков пиццы пересолен, мы уже должны для анализа взять нормальный кусок и отрезать часть от пересоленого куска (соответствующую ⅛ нормального куска пиццы). Только тогда, взяв целый нормальный кусок и сложив его с маленьким пересолёным, мы отразим свойства генеральной совокупности в нашей выборке.

К слову, очень важно, чтобы любой из кусков пиццы, а не только тот, который вам нравится, имел равные шансы попасть в вашу выборку, это тоже очень важно для репрезентативности. Если интересно, подробнее об этом вы можете послушать на бесплатном курсе Coursera “Методология научных исследований и котики”

Это, конечно, всё хорошо. Мультики и пицца. Но всё же почему 1000 человек покажут такие же результаты опроса, что и 140 млн?

Где подтверждение того, что такой объём действительно достаточен для корректных результатов исследования?

Итак, вроде бы очевидно, что если вы спросите двух своих младших сестёр, хотели бы они быть похожими на Забаву, и обе ответят утвердительно, это совсем не будет означать, что 100 процентов девочек в России хотели бы быть как эта героиня. Объём выборки из двух человек слишком мал для обобщения результатов на генеральную совокупность из нескольких миллионов. Но если мы опросим 100 девочек, точность наших прогнозов станет намного выше и ближе к реальным данным, это подтверждает и ЗАКОН БОЛЬШИХ ЧИСЕЛ (привет, математикам!), который мы не станем здесь описывать подробно в силу чрезмерности информации, необходимой для его понимания.

Coursera “Методология научных исследований и котики”
Coursera “Методология научных исследований и котики”

Что даёт закон больших чисел в нашем случае можно увидеть на картинке выше. С добавлением каждой новой девочки в выборку прирост точности уменьшается. То есть после определённого объёма выборки точность результатов начинает увеличиваться настолько незначительно, что трата средств на поиск новых участников опроса перестаёт быть целесообразной.

Например, если мы хотим устроить всероссийский опрос, а затем получить результаты с точностью 99% и погрешностью 3%, нам будет необходимо опросить всего 1849 человек (формула для проверки наших вычислений ниже!). А если мы решим увеличить точность до 99,7%, то нам придётся найти ещё почти треть от имеющегося числа человек, выборка должна будет равняться 2500!!! То есть увеличение точности на 0,7 требует поиска 651 человека. Стоит ли это того? Социологи и математики уверены, что нет.

Почему по 1000 человек судят обо всех россиянах?

Сколько стоит опросить всех?

В качестве эксперимента, раз мы обещали, давайте узнаем, сколько будет стоить опросить всех россиян. В России, по данным Росстата на 1 января 2021 года, численность населения приблизительно равна 146,17 миллионам. Если мы будем опрашивать людей оффлайн (не у всех граждан есть доступ к интернету), то цена за одного человека (не учитывая прибавки за удалённость проживания и сложность “достигаемости” определённых групп людей), то есть исключительно инструктаж интервьюера, супервизия проекта, тираж анкеты будет равняться минимум 250 рублям (можем назвать это средней ценой по рынку).

Умножаем 250 на 146,17 миллионов, получается 36 542 500 000 рублей. И это всё ещё без цены за составление анкеты, анализ первичных данных, подготовку читабельного для обывателя отчёта и многое другое. Пожалуй, если кто-то и сможет себе такое позволить, то это будет государство. В России, кстати, проводится похожий опрос, он называется “Перепись населения”. Но даже ему в реальности никогда не удаётся охватить всю генеральную совокупность, а периодичность его проведения составляет всего один-два раза в 10 лет.

Часто для проведения подобных исследований социологи берут 95% точность и 3% погрешности. Выходит 1067 человек. Вот и ответ на поставленный в самом начале вопрос.

Фото: Студия анимационного кино "Мельница"
Фото: Студия анимационного кино "Мельница"

А что думаете об этом вы? Доверяете ли результатам соцопросов?

44
1 комментарий

Дело даже не в количестве опрошенных: тысяча или миллион. С точки зрения математической статистики цифра в 1000 может быть и обоснована.
Однако сомнению подвергаются:
Во-первых - репрезентативность выборки. Возьмём для простоты примера не всероссийский опрос, а сузим до конкретного города - вопрос по благоустройству Москвы.
Опросили 1000 людей разного пола, возраста, рода деятельности в центре Москвы в рабочее время.
Ну и вот как часто вы в рабочее время бываете в центре, разве что вы курьер, студент, прогуливающий пары, пенсионер, а то и вовсе "не гражданин" - ну турист, то есть, из другой страны? И то, далеко не каждый из вышеназванных станет гулять именно в центре. Думаю, имеет большое значение, опрашиваете ли вы людей в Южном Бутово или на Красной площади. Опрашивают ли интервьюеры равное количество людей в каждом районе да ещё и в разное время суток? (да-да, некоторые люди живут ночной жизнью, а некоторые неделями могут не выходить из дома или никогда не попасться на глаза интервьюерам, перемещаясь по маршруту дом-работа-магазин-дом).
От того, что опросили хоть 10 000, хоть 100 000 людей из одной группы нет никакого толка, кроме уточнения мнения этой самой группы.
Сделайте опрос в интернете - и не учтете мнения того, что не пользуется интернетом или не участвует в интернет опросах. Сделайте телефонный обзвон и не затронете многих здравомыслящих людей, которые просто поставили себе спам-фильтр и не берут трубку с незнакомых номеров, если сами не ждут звонка.
Сделайте опрос в "Активном гражданине" или ином подобном приложении и тоже охватите лишь узкий круг людей.
В общем очень сложно охватить всю аудиторию, особенно, если речь идёт о всеобщем вопросе, как, например, выборы президента. Можно попробовать сочетать все вышеперечисленные способы, но тогда уже нужно будет опросить явно не 1000 человек, а хотя бы по 1000 в каждой группе. А сколько всего этих групп - это тоже большой вопрос.

Во-вторых - сами результаты. Где гарантии, что они вообще не "нарисованы"? Кто проверял? Какова процедура верификации?

Ну и вишенкой на торте - "эффект гадалки", возникающий уже после публикации результатов: вам показывают результат опроса, в котором вы видите большинство голосов за ту или иную позицию, и сами инстинктивно примыкаете к этому большинству, хотя изначально, если бы вы не знали результат, ваше мнение могло бы не совпасть с мнением большинства.

Статистика - наука сложная и даже чтобы понимать, пусть даже и 100% достоверно собранные данные, необходимо разбираться в статистике хотя бы на базовом уровне.

Так что совершенно справедливо многие люди просто не обращают внимания на все эти результаты опросов ФОМ, ВЦИОМ и пр., так как чтобы убедиться в их достоверности нужно глубоко копать, что простому обывателю совершенно не интересно.

3