Лого vc.ru

Исследование: Каким проектам достался микрофон в рубрике «Стартапы» на vc.ru

Исследование: Каким проектам достался микрофон в рубрике «Стартапы» на vc.ru

Сооснователь медиахаба Rockin'Robin Дмитрий Кабанов и главный редактор проекта Алина Тестова проанализировали 604 публикации в рубрике «Стартапы» и написали для vc.ru колонку о рекордсменах рубрики, распределении стартапов по рынкам и о различных особенностях компаний, рассказывающих о себе на страницах издания.

Что мы делали: общая информация и проекты-рекордсмены

Мы проанализировали все материалы, выходившие в рубрике «Стартапы» (бывшая «Трибуна») с момента ее возникновения в марте 2014 года — вплоть до августа 2016 года (включительно). Всего за это время в рубрике о себе рассказали более 600 проектов.

По каждому из питчей мы собрали основную статистику, находившуюся в открытом доступе: дату публикации, данные о проекте, количество просмотров, комментариев и шеров в соцсетях. А еще мы посчитали длину каждого текста в символах.

Помимо общей информации, мы определили проекты-рекордсмены: тех, кто набрал максимальное количество просмотров, комментариев, шеров в Facebook и во «ВКонтакте», а также оказался лидером по показателю вовлеченности. Последний показатель — агрегированный, его мы считали по методу, предложенному здесь (блок Calculating Engagement Rate For Your Posts with Insight Data).

Если точнее, мы разделили сумму комментариев и шеров в соцсетях на общее количество просмотров по каждому проекту и перевели полученный результат в проценты. Это относительный показатель, он полезен для сравнения разных питчей: в частности, у проекта-победителя в этой категории значение показателя вовлеченности (9,74%) больше среднего по всем проектам (1,34%) почти в 7,3 раза.

По количеству просмотров самыми популярными проектами стали:

  1. FindFace — сервис знакомств по фотографии;
  2. MSQRD — сервис для изменения внешности во время видеочатов в режиме реального времени
  3. RealSpeaker — инструмент для преобразования речи в текст.

По индексу вовлеченности топ-3 питчей выглядит так:

  1. Happn — приложение для знакомств на основе гипергеолокации;
  2. Welltory — приложение для контроля состояния здоровья;
  3. Coddy — курсы по программированию для детей.

Digital против офлайна и другие особенности проектов

Мы разделили все проекты на цифровые и нецифровые: в цифровые попали онлайновые продукты и сервисы (например, мессенджеры), в нецифровые — те продукты и сервисы, которые имеют сильную «физическую» (офлайн) составляющую и чей конечный продукт поставляется в офлайне (например, устройства).

Как видите, офлайн-проектов в общем пуле не так уж и много, что вполне логично: часто (но не всегда, конечно) начать бизнес в интернете оказывается дешевле, проще, интереснее и быстрее, чем, например, запускать собственное офлайновое производство.

Мы проверили сайты всех проектов, которые питчились в «Стартапах», и оказалось, что корпоративные блоги не пользуются у них особой популярностью:

Кроме того, мы проверили, ведет ли каждый из проектов блог на платформе Spark.ru (проект, как и vc.ru, входит в ИД «Комитет») — здесь ситуация оказалась иной:

Вывод: если проекты не создают блоги на сайте, это не значит, что они не готовы рассказывать о себе на других площадках. Spark.ru и «Стартапы» — тому подтверждение.

Самые популярные рынки: мнение стартаперов

Дополнительно для каждого из проектов мы определили основные рынки. За основу мы взяли классификацию «подсекторов сектора ИТ», предложенную «Российской Венчурной Компанией» и PWC в их обзоре венчурной индустрии России.

Из этой классификации мы решили исключить блок «Мобильные приложения» (так как практически каждый проект сегодня подразумевает под собой разработку или адаптацию под мобильные устройства и платформы) и добавить блок «Управление задачами» (Task management), а также категорию Разное (Misc).

Поскольку любой проект сочетает в себе различные характеристики (например «образовательное медиа» или «медицинский гаджет»), для каждого из стартапов мы стремились определить сразу несколько основных рынков (до трёх). В итоге мы получили следующее распределение:

Наиболее популярными рынками для российских стартапов оказались социальные сети и сервисы, электронная коммерция и облачные технологии. Замыкают список финтех, медиа, гаджеты и hardware. В среднем на каждый из рынков приходится порядка 67 питчей.

Самые популярные рынки: мнение читателей

Далее мы решили посчитать, проекты каких рынков набрали наибольшее количество просмотров. Картинка оказалась похожей, однако некоторые отличия все-таки есть:

Проекты на рынке коммуникаций и связи оказались более популярными у читателей, чем у самих стартаперов: по количеству питчей этот рынок занимает пятое место, а по количеству просмотров — третье.

В числе «аутсайдеров» по просмотрам — проекты на туристическом рынке. По количеству питчей «Туризм» стоит на седьмом месте, а по количеству просмотров — на девятом. Кстати, среднее число просмотров на каждую категорию (рынок) — более 360 тысяч.

Однако ситуация меняется, если учитывать не только просмотры, но и комментарии и шеры в соцсетях. Распределение популярности рынков по индексу вовлеченности выглядит следующим образом:

В этом случае рынок коммуникаций и связи точно так же поднимается на третью строчку, а рынок туризма с седьмого места выходит на шестое. Зато «проваливается» рынок рекламы: с шестого на восьмое место по сравнению с рейтингом рынков по числу проектов.

Средний уровень вовлеченности для рыночной ниши составил 0,91 (повторимся, это относительный показатель, он нужен только для сравнения рынков между собой — сам по себе он неинформативен — и в данном случае для удобства восприятия мы считали его не в процентах, а в долях).

Вывод: рыночная ниша, популярная у стартаперов, необязательно будет пользоваться такой же популярностью у читателей СМИ. Однако есть темы, одинаково интересные и тем, и другим: это электронная коммерция и социальные сети.

Пара слов об индексе вовлеченности

Когда мы высчитывали индекс вовлеченности для каждой из публикаций, то заметили интересную особенность: наиболее популярные (по данному индексу) проекты концентрировались во второй половине списка, ближе к концу. Это навело нас на мысль построить еще один график и попытаться проиллюстрировать ситуацию:

О чем это может говорить: все просто, дело в росте популярности самого СМИ. На первых порах публикации в новой рубрике не комментируют и не шерят (простите, первые проекты, есть вероятность, что аудитория поначалу была недостаточно активна). Со временем ситуация меняется, и судя по тому, что индекс популярности у питчей становится все выше и выше, эта площадка еще долго будет приносить пользу и аудитории, и стартапам.

Конечно, такое резкое увеличение интереса можно было бы связать с тем, что материалов в «Стартапах» на vc.ru в последнее время стало больше, а проекты питчатся там более активно, чем раньше. Однако это не так — в среднем в месяц в этой рубрике выходит около 20 публикаций, и ситуация не менялась с момента ее возникновения. «Провалы» на графике приходятся только на январские праздники (со дня старта рубрики новые выпуски выходят каждый рабочий день без исключения — прим. главреда).

Что еще интересного

Помимо общего «временного среза» — количества публикаций в месяц, мы решили посчитать, как ведут себя материалы, опубликованные в разные дни недели.

Для каждого материала мы определили, в какой день он был опубликован, и подсчитали общее число просмотров для этого дня. Получилась вот такая картина:

В «топе» по просмотрам среда и четверг, «аутсайдеры» — выходные (в том числе и потому, что материалы в «Стартапах» по выходным никогда не выходят). А в целом по этому графику можно пронаблюдать общую динамику пользовательского интереса к рубрике.

Еще один момент, показавшийся нам любопытным — сравнение количества шеров в соцсетях:

Как видите, среднее количество шеров что у Facebook, что у «ВКонтакте» невелико (хотя и тут Facebook заметно лидирует). Однако максимальное количество шеров оказалось просто несопоставимо — 870 против 131 (не спешите переживать за «ВКонтакте» — шеры в этой соцсети дорогого стоят, но об этом чуть ниже).

Вывод: аудитория гораздо охотнее делится материалами из рубрики «Стартапы» в Facebook. Если, конечно, питч не касается проекта, связанного с «ВКонтакте», — напомним, рекордные для соцсети 131 шер набрал сервис FindFace, который ищет профили пользователей vk.com по фото.

Корреляции и некоторые неочевидные зависимости

До этого момента мы анализировали только базовую статистику — сводные данные и агрегированные показатели. Теперь проверим еще несколько гипотез с помощью регрессионного анализа.

Мы решили выяснить, коррелирует ли число просмотров материалов с другими количественными показателями. Мы построили линейную регрессию, в качестве зависимой переменной выбрали число просмотров, в качестве объясняющих — количество комментариев, шеров в соцсетях и дату публикации.

Логика в такой постановке задачи есть: в соответствии с нашей гипотезой, больше просмотров получают те статьи, которые активно комментируют (комментирующие могут рассказать о материале близким и друзьям и в целом подогревают интерес к публикации) и шерят в соцсетях. Дата публикации в такой постановке вопроса тоже должна быть важна (помните экспоненциально растущий график вовлеченности?). Что получилось:

Что означают цифры: модель адекватна (логика нас не подвела), при этом число просмотров на 27% определяется набором тех переменных, которые мы выбрали в качестве объясняющих (то есть количеством комментариев, шеров в соцсетях и датой публикации) — об этом свидетельствует значение Adjusted R2 (в верхнем правом углу). Процент, конечно, небольшой, но для «полевых» данных, собранных в реальных условиях, вполне достойный. И реалистичный.

Если построить уравнение регрессии, результат получится следующий (округляем столбец «Коэффициенты» до целых):

Views = 77Comments + 17Fb + 125Vk - 8DMY + 155459

Что это значит: каждый комментарий добавляет материалу 77 просмотров, каждый шер в Facebook — еще плюс 17 просмотров, каждый шер во «ВКонтакте» дает (внимание!) дополнительных 125 просмотров.

При этом если сравнивать две «среднестатистические» публикации, одна из которых будет сделана вчера, а вторая — сегодня, вчерашняя наберет на 8 просмотров больше (как видите, показатель даты — DMY — в уравнение попал со знаком «минус»).

Страшное число в конце (константа) показывает количество просмотров, которое набрала бы статья, если бы все остальные переменные равнялись нулю. С математической точки зрения это замечание верно, однако в нашей модели равенства всех коэффициентов нулю не происходит (дата у публикации всегда «ненулевая»), поэтому давать константе рациональное объяснение в нашем случае некорректно (подробнее об этом тут).

Если у вас тоже возник когнитивный диссонанс, попробуем вместе разобраться. Во-первых, что значит «ненулевая» дата и как вообще разные даты можно адекватно сравнивать: статистические пакеты (даже MS Excel) «распознают» даты, переводя их в целочисленный формат. Например, 1 сентября этого года в Excel имеет значение 42614, а 2 сентября — значение 42615.

Вот и получается, что каждый новый день «отнимает» у публикации 8 потенциальных читателей. Стоп. Мы же видели график показателя вовлеченности — объединенный показатель просмотров, комментариев и шеров в рубрике «Стартапы» с течением времени только растет, в чем же дело? Скорее всего, вот в чем:

Это график просмотров «Стартапов». Серый пунктир показывает среднее число просмотров (оно сравнительно невелико). И вот что интересно: несмотря на то, что «бомбические» по просмотрам публикации про MSQRD и FindFace прошли относительно недавно, в левой части графика (зеленый овал) «проектов-хорошистов», превысивших среднюю отметку, намного больше, чем в правой (красный овал). Да пиковые значения в первые месяцы существования «Стартапов» (тогда еще «Трибуны») выглядят скромнее, но в целом приходится признать — модель нас не обманула, и с течением времени рубрику действительно стали читать меньше. Чуть-чуть.

Из чего сделаны комменты и шеры

Мы не стали останавливаться на одной корреляционной зависимости и решили посмотреть, есть ли у нашего набора данных еще какие-то интересные неявные характеристики. Поэтому, разобравшись с просмотрами, мы перешли к шерам и комментариям. Получилось следующее (начнем с комментариев):

Итак, мы исходили из гипотезы о том, что число комментариев может зависеть от количества просмотров, числа шеров в соцсетях (логично) и чего-то еще. Методом подбора определили те параметры из нашей базы, которые были действительно значимыми — ими оказались (внезапно): объем текста и принадлежность к теме digital. Еще раз повторимся, это полевые данные и неочевидные зависимости, поэтому значение Adjusted R2 весьма скромное — всего 13,7%.

Но это вполне объяснимо — на количество комментариев могут влиять самые разные факторы — начиная от автора текста (чем известнее и одиознее, тем активнее идет дискуссия) и заканчивая тональностью обсуждения (читатель раскритиковал проект, представители компании отреагировали излишне резко, и «понеслась») — такие моменты остались за рамками нашего исследования.

Строим уравнение регрессии (снова округляем значения в столбце «Коэффициенты» — теперь до третьего знака после запятой):

Comments = 0,002Views + 0,001Symbols - 5,655Digital + 27,717

Как выясняется, наша первоначальная гипотеза оправдалась только на треть — число комментариев действительно зависит от просмотров. И не зависит от шеров в Facebook и во «ВКонтакте» — обе эти переменные оказались статистически незначимыми (здесь и далее используем уровень значимости =0,1). Оказывается, сколько текст ни «шерь», комментариев от этого не прибавится.

Что означает то, что осталось: каждая тысяча просмотров «добавляет» материалу два комментария, а каждая тысяча символов текста — еще один (про константу мы уже говорили). При этом цифровые проекты в среднем «зарабатывают» почти на 6 комментариев меньше, чем не-цифровые (можем предположить только, что non-digital в отличие от цифровых проектов «берет за живое»).

Теперь посмотрим, от чего зависят шеры в соцсетях. Начнем с Facebook:

Что проверяем: зависимость числа шеров на Facebook от количества шеров во «ВКонтакте», объема текста, даты публикации, просмотров и комментариев.

Что получаем: значение Adjusted R2 оказывается в районе 20% — наша модель на 20% объясняет изменчивость зависимой переменной (количество шеров на Facebook). Это, опять же немного, но, как говорят иллюзионисты, запомните эту цифру, в будущем она нам пригодится.

Уравнение регрессии будет выглядеть так:

Fb = 0,635Vk + 0,005Symbols + 0,043DMY + 0,002Views - 889,651

Коэффициент перед переменной Vk показывает, что связь между соцсетями есть: с ростом числа шеров во «ВКонтакте» растет и их количество в Facebook, например, 10 шеров в отечественной соцсети прибавят материалу еще 6 шеров в Facebook. При этом большие тексты «шерят» в Facebook активнее — каждая тысяча знаков добавляет публикации еще 5 кликов по кнопке «поделиться». Каждая новая тысяча просмотров также обеспечивает материалу дополнительную пару шеров.

Что касается даты публикации — вспоминаем график с коэффициентом вовлеченности: сегодня наша публикация получит на 4 шера больше, чем могла бы набрать 3 с лишним месяца назад (на 100 дней раньше). Кстати, число комментариев оказалось в модели статистически незначимым.

И, наконец, «ВКонтакте»:

Проверяем все то же самое, что и в Facebook: зависимость от другой соцсети, объем текста, дату публикации, просмотры и комментарии. И удивляемся: если в случае в Facebook этот набор факторов объяснял всего 20% изменчивости зависимой переменной, то здесь показатель Adjusted R2 достигает 45%. При этом комментарии (в отличие от предыдущей модели) оказываются значимыми.

Уравнение регрессии:

Vk=0,048Fb - 0,001Symbols + 0,037DMY + 0,001Views - 0,049Comments - 736,406

Итак, связь между соцсетями, опять же, подтверждается, однако в случае с «ВКонтакте» она намного слабее: только 100 шеров в Facebook обеспечат 4 шера во «ВКонтакте» (как мы помним, там материалы вообще шерят менее активно). При этом длинные тексты пользователи «ВКонтакте» не особенно жалуют — дополнительная тысяча символов текста будет означать «минус один» шер.

Дата публикации также играет роль: сегодня наша публикация получит на 3 шера больше, чем 100 дней назад. Дополнительная тысяча просмотров также добавит в нашу копилку один шер. А вот комментарии почему-то демотивируют пользователей делиться материалами: чем больше комментариев, тем меньше шеров. Но сильно переживать не стоит — чтобы заработать «минус 5» шеров, публикации надо набрать минимум сотню комментариев.

В итоге

Рубрика «Стартапы» («Трибуна») на vc.ru — интересная площадка для российских проектов, нацеленных на локальный рынок (и не только — взять, например, MSQRD). Судя по нашей статистике, наиболее активно питчатся в ней проекты, связанные с социальными сетями, электронной коммерцией, облачными сервисами, коммуникациями и управлением задачами.

При этом у аудитории социальные сети и коммуникационные проекты вызывают определенно больше интереса, чем облака или таск-менеджеры. Финтех, медиа и hardware традиционно замыкают этот список. Однако не стоит переживать: стабильный рост уровня вовлеченности для этой площадки говорит о том, что у нее и у участников рубрики «Стартапы» все еще впереди.

Вот еще несколько «занимательных выводов», к которым мы пришли, анализируя рубрику:

  • Активность аудитории серьезно добавляет тексту просмотров. При этом один комментарий прибавит в копилку 77 просмотров, а один шер в Facebook — еще 17.
  • Тексты во «ВКонтакте» шерят неохотно и редко. Однако один такой шер добавит материалу сразу 125 просмотров.
  • Сейчас новые материалы в рубрике «Стартапы» читает (в среднем) чуть меньше людей, чем в первые месяцы существования рубрики. Однако текущая аудитория «Стартапов» намного активнее комментирует и распространяет тексты в соцсетях.
  • Шеры в соцсетях связаны между собой: чем больше текст распространяют во «ВКонтакте», тем выше этот показатель и в Facebook (10 шеров во «ВКонтакте» тянут за собой еще 6 в Facebook). В обратную сторону этот механизм тоже работает, но на порядок слабее (сотня шеров в Facebook добавит материалу всего 4 шера во «ВКонтакте»).
  • В Facebook активнее шерят более длинные тексты, во «ВКонтакте» — более короткие.
  • Между собой количество комментариев и шеров в соцсетях практически никак не связано
  • Нецифровые проекты аудитория комментирует более охотно.

***

Бонус от редакции — рейтинги статей в рубрике «Стартапы» за 2016 год

Топ-15 по числу просмотров

  1. FindFace – сервис знакомств по фотографии (85128 просмотров).
  2. MSQRD — сервис для изменения внешности во время видеочатов в режиме реального времени (74291 просмотр).
  3. SexCheckin — приложение для поиска мест для секса (24028 просмотров).
  4. Goalton — система для организации времени и задач (18837 просмотров).
  5. Kwork — магазин фриланс-услуг, работающий по модели «Всё по 500 рублей» (17193 просмотра).
  6. «Где Шаверма» — приложение для поиска ларьков с шавермой в дополненной реальности (13532 просмотра).
  7. «АлкоЖена» — приложение для контроля своего потребления алкоголя (12817 просмотров).
  8. Blank — мессенджер, где собеседник видит набор сообщения в реальном времени (12752 просмотра).
  9. Timesketch.ru — инструмент для управления собственным временем и жизнью (12378 просмотров).
  10. Happn — приложение для знакомств на основе гипергеолокации (11132 просмотра).
  11. «Ботобот» — платформа для запуска в Telegram чата-магазина с каталогом, корзиной и заказами (10524 просмотра).
  12. Belivl — сервис для постепенных знакомств (10490 просмотров).
  13. Anonym ID — анонимная социальная сеть (10311 просмотров).
  14. «Таксовик» — агрегатор предложений Uber, Gett, «Яндекс.Такси» и таксопарков (9444 просмотра).
  15. Linguamovies — сервис для изучения языков по фильмам, сериалам и телепередачам (9217 просмотров).

Топ-15 по числу комментариев

  1. Blank — мессенджер, где собеседник видит набор сообщения в реальном времени (157 комментариев).
  2. Pravovoz — онлайн-биржа юридических услуг (122 комментария).
  3. Mubert — онлайн-композитор электронной музыки (121 комментарий).
  4. Wawe — социальная сеть с упором на только что созданный контент без фильтров (119 комментариев).
  5. Kwork — магазин фриланс-услуг, работающий по модели «Всё по 500 рублей» (118 комментариев).
  6. ooFind — сервис для поиска и сравнения товаров и услуг (99 комментариев).
  7. Glabex — маркетплейс товаров и услуг (98 комментариев).
  8. FindFace – сервис знакомств по фотографии (96 комментариев).
  9. Master Trener — приложение для онлайн-консультаций с тренерами по фитнесу (95 комментариев).
  10. DamProdam — сайт покупки-продажи подержанной техники (90 комментариев).
  11. Look Price — сервис для поиска предложений от салонов красоты и частных мастеров (82 комментария).
  12. AtletIQ — социальная сеть для тренеров и спортсменов (80 комментариев).
  13. Andgo.travel — приложение для покупки авиабилетов в кредит (79 комментариев).
  14. Pump — мобильный заправщик автомобиля (78 комментариев).
  15. Goalton — система для организации времени и задач (75 комментариев).
  16. «Ёкл.рф» — агрегатор цен в автосервисах Санкт-Петербурга (75 комментариев).

Хотите получить слово и рассказать о своем стартапе? Добро пожаловать за трибуну.

Статьи по теме
Coddy — школа программирования и предпринимательства для детей
Happn — приложение для знакомств на основе гипергеолокации
Welltory — мобильное приложение для аналитики данных о здоровье
FindFace – сервис знакомств по фотографии
MSQRD — сервис для изменения внешности во время видеочатов в режиме реального времени
Инструмент для преобразования речи в текст RealSpeaker
0

Делал такое же для себя - выгружал все проекты. Но у меня явно хуже получилось :)

Исследовал параметр - "бьются ли основатели в комментах"; по статистике там где бились было больше просмотров и соответственно комментов.

Ч/Б скриншоты получены в R?

0

В Stata, хотя принципиальной разницы в том, какой пакет использовать, тут нет :)

Один раз публиковали нас в этой рубрике, итог - десятки писем от всевозможных журнальчиков средней руки с предложением разместить материал о нас на их сайте за сумму с четырьмя нулями и более. На объяснения в духе "нам есть нечего" такие товарищи галантно не отвечают.

0

Не понял, а где самый главный график по данным "Взетит"/"Не взлетит"? На сколько много позитива-негатива, есть у людей еще вера в стартапы? :)

"Взетит"/"Не взлетит" — это спецпроект, который запустили через некоторое время после старта самой рубрики. За существенное число питчей таким образом особо никто и не голосовал. Не стали учитывать это.

Главный вопрос - зачем вся эта аналитика?

0

Если говорить о русскоязычных стартапах, каких-то близких аналогов у этой рубрики нет. Она дает достаточно неплохую картину того, что происходит на рынке.

Мы решили написать заметку об этом для западной аудитории www.techinasia.com/talk/state-startup-pitching-russias-techcrunch

Ну и подготовили расширенную версию специально для vc.

Конечно, такая аналитика больше заинтересует руководителей проектов, специалистов по маркетингу и тех, кто работает с медиа. Еще неплохо подойдет для тех, кто сейчас сессию закрывает, поможет повторить базовые моменты, ну или вспомнить молодость :)

0

Ждем анализ: "Что дала стартапу публикация на VC"

0

Еще год не закончился :(

0

И еще ведь будут публикации в этой рубрике.

0

Само собой :) мы брали публикации с момента начала рубрики до августа этого года.

0

Понял. А с августа по декабрь будет отдельный список?

0

Посмотрим, как пойдет. Отдельный список смысла нет делать, можно просто к основному массиву данных добавить новые

0

Сразу скажу, что такой аналитикой занимался редко. Поэтому мой вопрос, возможно, прозвучит как полная ересь, но все же:

1. Если Adjusted R2 (коэффициент детерминации) = 27%, то что нам даст уравнение регрессии с таким коэффициентом? Ведь зависимость интересующей нас величины (в данном случае числа просмотров) от переменных (число комментов, шеры в ВК и Fb) составляет всего 27%. Т. е. на 73% число просмотров от этих переменных не зависит! И выводы вроде "каждый комментарий добавляет материалу 77 просмотров" - бессмысленны, потому что это работает, грубо говоря, лишь в 27% случаев, т. е. гораздо чаще это не работает.
В моей очень скромной практике регрессионного анализа однажды довелось строить прогноз рынка промышленной техники с коэффициентом детерминации = 34%. В итоге получилась полностью оторванная от жизни бессмыслица. Пришлось все переделать, взять другие исходные данные для анализа и когда коэффициент стал = 75%, тогда получилось нечто, выглядящее более-менее нормально.
У вас же во всех расчетах этот коэффициент не превышает 45%. Так зачем строить на такой шаткой основе какие-то выводы? Может проще написать: "связь между всеми перечисленными факторами весьма слабая." И все?

2. Зачем нужен вот этот вывод: "число комментариев действительно зависит от просмотров. И не зависит от шеров в Facebook и во «ВКонтакте»"?
Это же и так очевидно, без статистики. Просмотр - это последнее действие перед комментарием. Неважно, откуда человек узнал о статье, через шер в соцсети, или еще как-то, перед тем, как сделать комментарий, он эту статью просмотрит. Значит, просмотров комментируемых статей всегда будет намного больше, чем шеров.

3. На данный момент, зачем вообще все это нужно? Люди, размещающие здесь информацию о своих стартапах, ищут финансирование, содержательную критику и советы. Критику и советы дает уже сформированная аудитория сайта. Если притащить сюда 100 тыс. новых обитателей соцсетей, полезный эффект далеко неочевиден, хотя комментариев будет много. На финансировании это вообще никак не скажется.

Повторюсь, я очень мало занимался статистическим анализом, а интернет-аналитикой не занимался вовсе. Поэтому возможно, вопросы глупые. Но сейчас они мне кажутся вполне обоснованными с точки зрения здравого смысла.

0

Прошу прощения, ответила ниже :)

0

Ничего глупого в вопросах нет, постараюсь ответить подробнее:
1. Мы не отрицаем, что r2 и adj r2 относительно низкие, но тут есть два момента: во-первых (как и написано в статье) это полевые данные – не какая-то специально настроенная выборка. А на полевые данные всегда оказывает влияние множество случайных факторов, поэтому значение в 50% и выше – действительно большая редкость (линейных зависимостей в реальной жизни очень немного). Поэтому ожидать шокирующих взаимосвязей от реальных данных, по меньшей мере, наивно, а вот найти определенные зависимости или зафиксировать их отсутствие – можно.
Второй момент с этим связанный. Коэффициент r2 (и adj r2) может расти при включении в модель дополнительных переменных/при манипуляции с данными. Но одновременно с ростом коэффициента у модели могут начаться неприятные проблемы: цифры будут красивыми, а вот итоговые оценки могут оказаться несостоятельными и/или смещенными и/или неэффективными (проблемы можно выявить серией тестов на автокорреляцию/мультиколлинеарность/гетероскедастичность итд).
Насчет вашего примера с 34% и 75% утверждать не берусь (данных не видела, тесты не проводила), но есть подозрение, что у итоговой модели как раз такие проблемы, потому что ручной подбор исходных данных для анализа, как правило, приводит к подобным "казусам" – цифры получаются красивые, но доверять им в итоге вообще нельзя.
2. Если вам очевидно – это хорошо. А мы подтвердили статистически. У нас, например, были "очевидные" предположения, которые не подтвердились, поэтому просто на личное мнение мы в этом материале полагаться не стали.
3. Насчет "зачем" хорошо ответил к комментарию выше мой коллега. От себя добавлю: нам в данном случае интересна судьба этого медийного проекта (не конкретного поста на VC, а рубрики в целом) – как он развивался, что менялось/не менялось с течением времени, какие направления интересны читателям, как они реагируют. Понятно, что если все сводить к финансированию конкретного стартапа, то вообще очень многое в мире окажется ненужным:)

0

Спасибо за ответ!
По пунктам 2 и 3 - Ваша мысль ясна, по пункту 1 - все равно не убедили. Если связь слабая (а она именно слабая), зачем о ней писать? Она скорее всего работать не будет?
Про свою историю с 34% и 75% скажу, что там все правдоподобно. Надо было сделать прогноз рынка узконишевой тяжелой строительной техники. Сначала (по указанию свыше) прогноз делался по макроэкономическим показателям, вроде ВВП и курса $. Просто по ним быстрее найти и статистику и прогноз. Результат, как я и говорил - R2=34%, построенный прогноз был откровенно бредовым.
Тогда пришлось брать узкоотраслевые показатели, вроде "темпа ввода нефтепродуктопроводов". Здравый смысл говорил, что так было надо делать с самого начала, но это требовало больше времени на сбор информации. В результате и получилось 75%. И прогнозная модель, имеющая намного больше прав на существование.

0

Поясню еще раз: качество модели определяется не только и не столько значением показателя r2. В случае с вашей моделью было бы здорово не просто давать личные оценки "хороший прогноз/бредовый прогноз", а провести тесты.

По поводу нашего исследования: значение показателя r2 сильно зависит в том числе и от области наблюдений. В тех областях, где сильно выражен человеческий фактор (а здесь он сильно выражен) значение показателя r2 обычно не превышает 50% – но никто при этом не говорит, что регрессионный анализ использовать в таких случаях нельзя.

Теперь по поводу "зачем тогда все это" – зависит от целей построения модели. Цель этого исследования – описательная, а не прогнозная (как в вашем случае). У нас была задача – выяснить, есть ли связи между теми или иными факторами и описать наиболее интересные. Полученные модели построены по реальным, не "подтасованным" данным, тесты все были проведены, оценки в моделях несмещенные, эффективные и состоятельные – в рамках нашего рисерча этого более чем достаточно для описания ситуации.

А вот цели составить идеальный предсказатель числа комментов в зависимости от длины текста в символах и дня публикации у нас не было:) – а вот для таких задач действительно важно достижение относительно высокого adj r2.

Если все еще тревожит эта тема, советую вот этот материал почитать: blog.minitab.com/blog/adventures-in-statistics-2/five-reasons-why-your-r-squared-can-be-too-high

0

Ок, я Вас понял. Спасибо за ссылку, почитаю!

Прямой эфир
Компания отказалась от email
в пользу общения при помощи мемов
Подписаться на push-уведомления