Про Excel, SPSS, R и Python
Количественные исследования и анализ данных в социологии сегодня невозможно представить без специальных "тулов" — Excel, SPSS, R, Python, Statistica и других. Лично меня в вузе учили по-простому: Excel и немного SPSS (в рамках курса «Анализ и обработка социологических данных»). Сейчас, знаю, у молодого поколения уже есть отдельная дисциплина по изучению SPSS, а также потихоньку начинают преподавать R. То есть медленно, но верно дело движется. Хотя, насколько мне известно, в РГСУ ещё во времена моего бакалавриата социологи уже вовсю изучали R.
В «Чате ресечеров» и «Чате социологов» (телеграм-каналы для исследователей — всем причастным, особенно молодым социологам, советую подписаться) уже не раз вспыхивали острые споры: «SPSS уже давно мёртв», «SPSS — это прошлый век», «Да вы ничего не понимаете, в обычном Excel можно 95% анализа провести» и так далее.
Вот мои размышления на эту тему. Я сам уже давно ничего не считаю вручную — либо не было необходимости (например, опросы вовлечённости у нас проводятся на платформе, где все подсчёты автоматизированы), либо требовался более сложный анализ, который под силу только профильным аналитикам. На прошлой работе я в основном использовал SPSS + Excel, и нам хватало — у нас не было задач на регрессию, кластерный или факторный анализ. Просто исследования такого не требовали.
Я и сам учил Python, даже несколько раз, но из-за отсутствия регулярной практики часто забывал, что учил) Сейчас пытаюсь реанимировать эти навыки для анализа данных по ВКР и написания кода для парсинга и автоматической обработки. Справедливости ради, сейчас с помощью любого внятного ИИ можно легко написать рабочий код и на R, и на Python. Конечно, понимание синтаксиса помогает исправлять баги и адаптировать код под свои нужды, но порог входа в эти языки значительно снизился.
Сейчас в ЭКОПСИ мои коллеги тоже иногда используют SPSS (при необходимости), но именно аналитики — они у нас «отдельные», не только исследованиями занимаются — чаще работают с R. Главное преимущество языков программирования (R и Python) — возможность один раз написать код и применять его где угодно, быстро и с минимальными правками. В SPSS такое реализовать сложнее — там хотя и есть синтаксис, но изучать его — та ещё задачка.
Интересно, что для своей ВКР я проводил интервью с работодателями из разных сфер, чтобы понять, как они нанимают социологов-исследователей, и в том числе спрашивал про требования к анализу данных и необходимому стеку. Главный вывод — в большинстве случаев компаниям всё равно, где вы считаете, главное — правильно и достаточно быстро. Даже если это SPSS.
В итоге возникает вопрос: что же изучать молодому исследователю, который хочет уйти в «количественники»? Давайте так: базовое знание Excel жизненно необходимо не только социологу, но и большинству профессий, хоть как-то связанных с подсчётами. А для более глубокого анализа или просто анализа больших данных я всё же советую смотреть в сторону Python.
Почему не SPSS?
Согласен, SPSS потихоньку теряет актуальность, хотя всё ещё прекрасно справляется с большинством задач социолога. Но перспектив в обучении и использовании Python больше — более сложные виды анализа, возможность программировать не только для анализа данных, но и для парсинга, да и вообще для любых задач, где может пригодиться код. Python к тому же лучше справляется с реальной Big Data (SPSS на больших датасетах может серьёзно зависать). Да и справедливости ради: в России сейчас нет лицензионного SPSS, а скачивать пиратскую версию — та ещё морока, особенно на Mac.
Почему не R?
Здесь, возможно, моя вкусовщина — мне Python приятнее по синтаксису. Но есть и более объективное преимущество: библиотек для Python банально больше, и говорят, что обновляются они чаще, чем для R. Хотя я слышал и мнение, что R больше подходит для научной среды и для более продвинутого машинного обучения.
В любом случае, это лишь моё мнение — каждый волен с ним не согласиться. Как говорится: "думайте сами, решайте сами".