Нейросеть ChatGPT сделала за меня анализ данных: аналитики будут не нужны?

От автора Telegram-канала Аналитика и Growth mind-set (делюсь кейсами с работы, бесплатным обучением, задачами с собеседований).

На этой неделе студент РГТУ успешно написал диплом с помощью нейросети ChatGPT. Я же решила проверить, сможет ли нейросеть выполнить работу аналитика данных.

Последовательно я проверила, как нейросеть:

  • справится с написанием SQL-запросов разной сложности
  • с задачей визуализации данных и получением инсайтов из данных
  • ответит на вопрос с собеседования на аналитика в компанию Lyft (крупная компания в США, предлагающая услуги такси, проката автомобилей, велосипедов, аренду автомобилей и доставку еды в США и некоторых городах Канады)
  • решит тестовое задание в Яндекс на должность маркетингового аналитика

ШАГ 1 - Проверяем навыки SQL

Любой аналитик данных должен владеть SQL, но есть ли данный навык у нейросети?

Сначала спросила у самой ChatGPT, может ли она писать SQL код и получила утвердительный ответ.

Вводные:

Проверять нейросетку на знание SQL решила с помощью сайта Hakerrank - это сайт, на котором бесплатно можно тренироваться, решая задачи разной сложности на SQL (легкие, средней сложности и сложные).

Начать решила с легкой задачи (на Hakerrank она отмечается как Easy). Загрузила условия задачи в ChatGPT и нейросетка быстро выдала ответ.

Я вставила его на Hakerrank и поздравления - задача решена правильно!

Тоже самое я продела с еще 3мя easy задачами - нейросеть справилась и с ними. Ну еще бы, ведь задачи проще простого, скажете вы.

Я решила пойти дальше к задаче средней сложности (на Hakerrank она отмечается как Medium). Опять загнала задачу в нейросеть, получила ответ, вставила на Hakerrank, однако в этот раз нейросеть провалила задание. Я попробовала так еще 3 раза - и все задачи были провалены. Во всех решениях ChatGPT были ошибки.

Вывод: Простейшие задачи на SQL нейросеть смогла решить, а вот с задачами средней сложности не справилась.

Но я уверена, что это временно и вскоре мы увидим более сильный результат, так как нейросеть постоянно обучается.

Но уже сейчас можно использовать ChatGPT для написания в том числе сложных запросов, только в данном случае их нужно будет скорее всего самостоятельно подкорректировать.

ШАГ 2 - Проверяем умение визуализировать и делать выводы из данных (уровень - Junior)

Перед тем, как работать с ChatGPT, я спросила у нее - может ли она проанализировать данные, на что нейросеть ответила утвердительно и выдала целый список того, что она может делать с данными.

Да, я могу анализировать данные. Я могу выполнять различные типы задач по анализу данных, например суммировать и агрегировать данные, выявлять закономерности и взаимосвязи в данных, делать прогнозы с использованием статистических моделей и моделей машинного обучения, а также визуализировать данные с помощью диаграмм и графиков. Однако точность и качество моего анализа будут зависеть от качества и формата данных, а также от конкретных требований и целей анализа.

Вводные:

Допустим у меня малый бизнес и аналитика нет. Есть только Яндекс Метрика и нет времени самостоятельно делать анализ. И я хочу, чтобы ChatGPT визуализировала данные и сделала выводы.

Я зашла в Яндекс Метрику, выгрузила данные из отчета "По источникам" за месяц по своему сайту.

Далее пишу нейросети достаточно простой запрос: мне нужна визуализация данных и немного выводов из данных.

Конечно! Я могу помочь вам с визуализацией данных и инсайтами. Для начала предоставьте данные, которые вы хотите визуализировать, а также любые конкретные идеи или вопросы, на которые вы хотели бы ответить. Кроме того, было бы полезно знать формат данных (например, CSV, Excel и т. д.) и любые предпочтения для типа визуализации (например, гистограмма, линейная диаграмма, точечная диаграмма и т. д.).

Я копирую данные из CVS файла (к слову, прикрепить сам файл нельзя, из него нужно скопировать и вставить, это также выясняется в диалоге с нейросетью, который я опущу здесь).

Получив данные, нейросеть мне отвечает:

Спасибо, что поделились данными! Это хорошая отправная точка для исследовательского анализа данных. Чтобы дать вам некоторое представление, я суммирую данные ниже:

  • Большая часть трафика (908 сеансов) поступает из прямого трафика, за которым следует трафик ссылок с youtube.com (93 сеанса) и трафик Messenger из Telegram (63 сеанса).
  • Процент роботов среди трафика относительно низок, при этом самый высокий показатель приходится на трафик поисковых систем (Baidu) и составляет 1,0%.
  • Показатель отказов по всем источникам трафика относительно низок, при этом самый высокий показатель приходится на прямой трафик и составляет 12,89%.
  • Средняя глубина страницы составляет 1,41 страницы, а самая высокая — от Ссылочного трафика (vc.ru) — 3,12 страницы.
  • Среднее время пребывания на сайте составляет 2 минуты 37 секунд. Самое продолжительное среднее время нахождения на сайте — от Ссылочного трафика (vc.ru) — 11 минут 53 секунды.

Это некоторые предварительные выводы из данных. Если вам нужен более глубокий анализ, дайте мне знать, что конкретно вас интересует. Кроме того, визуализация данных с помощью графиков, таких как гистограммы или линейные диаграммы, может помочь в дальнейшем выявить закономерности и взаимосвязи в данных.

В целом, выводы довольно простые, однако, даже чтобы сделать и описать их, человеку нужно потратить определенное время, а нейросеть сделала это за считанные секунды.

Далее попросила нейросеть сделать визуализацию - без уточнений, так как мы не знаем, что нам нужно.

Сразу же получила ответ в виде 2х кусков кода с пояснением.

Что за визуализацию сделала нейросеть? Дело в том, что нейросеть не может выдать саму визуализацию, но мы можем вставить куски кода в любую среду разработки и увидеть результат, что я и сделала.

По первому коду получился такой результат:

Эту визуализацию нейросеть прокомментировала так:

Конечно, я могу создать несколько визуализаций, чтобы помочь вам лучше понять данные. Вот гистограмма, показывающая сеансы по источникам трафика.Этот график дает вам обзор распределения трафика между различными источниками. Вы можете видеть, что большая часть трафика поступает из прямого трафика, а меньшие суммы приходят из других источников.

По второму коду получился такой результат:

Эту визуализацию нейросеть прокомментировала так:

Другая визуализация, которая может быть полезна, — это круговая диаграмма, показывающая распределение сеансов между источниками трафика. Этот график обеспечивает более подробное представление о доле трафика из каждого источника.

Вывод:

Я считаю, что нейросеть справилась с этой простой задачей по данным веб-аналитики - сделать визуализацию данных и выводы.

Другое дело, что даже в такой задаче пока не обойтись без человека. Например, в круговой диаграмме текст сливается и это нужно либо подправить самостоятельно, либо попросить нейросеть.

Ну и формулировка задачи и направление нейросети в процессе ее работы (например, добавить другие данные для более обширного анализа, уже в процессе конкретизировать задачу для нейросети, попросить добавить другую визуализацию или сделать дополнительные расчеты и тд) остается за человеком.

Но уже сейчас - это хороший способ автоматизировать некоторые действия аналитика. Сколько бы на эту задачу у вас ушло времени? А нейросеть выдала ответ за секунды.

ШАГ 3 - Проверяем, сможет ли нейросеть ответить на вопросы с собеседования в Lyft

Вводные:

Вопрос взят с платформы Stratascratch (на ней размещены вопросы с собеседований в крупные компании). Задача помечается на сайте как Hard - трудная.

Lyft внедряет совместные поездки и рассматривает возможность добавления 30-секундного периода ожидания для нашего алгоритма для определения дополнительных совпадений. Какие показатели вы бы использовали для оценки этого и как бы вы провели этот эксперимент?

Ответ нейросети:

Чтобы оценить влияние добавления 30-секундного периода ожидания для совместных поездок в Lyft, можно использовать несколько показателей:

  • Match rate: процент поездок, которые успешно согласованы с другим пассажиром.
  • Время ожидания: среднее время, которое пассажиры тратят на ожидание метча.
  • Коэффициент отмены: процент поездок, которые были отменены из-за того, что время ожидания превысило определенный порог.
  • Продолжительность поездки: среднее время совместной поездки, включая время ожидания.
  • Удовлетворенность пользователей: отзывы пассажиров об общем опыте поездки, включая время ожидания и качество соответствия.

Для проведения эксперимента можно было выбрать случайную выборку пользователей, чтобы получить новый опыт совместной поездки с 30-секундным периодом ожидания. Контрольная группа могла получить текущую совместную поездку без периода ожидания. Затем поведение обеих групп можно сравнить, чтобы определить влияние периода ожидания.

Важно обеспечить, чтобы эксперимент проводился в течение достаточного времени, чтобы учесть любые временные эффекты, и чтобы размер выборки был достаточно большим для достижения высокого уровня статистической значимости. Также было бы полезно контролировать любые посторонние факторы, которые могут повлиять на результаты, такие как местоположение, время суток или поведение пассажиров.

Вывод:

С текстовыми вопросами нейросеть справляется хорошо (за время ее тестирования я задала ей около 20 вопросов).

ШАГ 4 - Проверяем, как нейросеть справится с задачей от Яндекса на должность маркетингового аналитика (уровень Middle)

Эта задача была у Яндекса в тестовом задании на должность маркетингового аналитика. Сами данные по ссылке.

Ответ нейросети:

Предоставленные данные представляют собой часть электронной таблицы с данными, относящимися к рекламным кампаниям. Столбцы в данных представляют:

  • Расходы: Сумма, потраченная на рекламную кампанию
  • Посетители: количество посетителей сайта в результате рекламной кампании.
  • CR1, %: Коэффициент конверсии пользователей, прошедших первую тему
  • «пользователи (прошедшие первую тему)»: количество пользователей, прошедших первую тему CPA: цена за приобретение (стоимость привлечения одного пользователя).
  • "пользователи (прошедшие вторую тему)": Количество пользователей, прошедших вторую тему
  • CPA2: Цена за приобретение для пользователей, прошедших вторую тему.
  • «users (paid)»: количество пользователей, совершивших покупку.
  • CPA5: Цена за приобретение для пользователей, совершивших покупку

Строки в данных представляют разные рекламные кампании, причем каждая строка представляет отдельную кампанию и связанные с ней результаты.Эти данные можно использовать для некоторых предварительных выводов об эффективности рекламных кампаний.

  • Например, высокий коэффициент конверсии для пользователей, прошедших первую тему (CR1, %), будет означать, что рекламная кампания была эффективной в привлечении посетителей на веб-сайт и побуждении их к взаимодействию с контентом.
  • Высокая цена за приобретение (CPA) для пользователей, прошедших первую тему, будет означать, что рекламная кампания была дорогой по сравнению с другими кампаниями.
  • Большое количество пользователей, прошедших вторую тему, указывает на то, что рекламная кампания была эффективной в привлечении посетителей к дальнейшему взаимодействию с контентом, в то время как большое количество пользователей, совершивших покупку, указывает на то, что рекламная кампания была эффективной в получении дохода.

Важно отметить, что это очень ограниченный анализ, и потребуются дополнительные данные и контекст, чтобы сделать более полные выводы об эффективности рекламных кампаний.К сожалению, одних этих данных недостаточно, чтобы делать какие-либо выводы или готовить исследовательскую работу об эффективности рекламных кампаний. Предоставленные данные представляют собой просто таблицу затрат и некоторых показателей, но они не дают контекста для рекламных кампаний или того, что на самом деле представляют собой показатели. Кроме того, отсутствует информация о целях кампаний, целевой аудитории или рекламируемых продуктах. Без этой информации невозможно осмысленно проанализировать данные и сделать какие-либо выводы об успешности кампаний.

Вывод:

Задание у Яндекса конечно странное, действительно очевидно, что вводных недостаточно для анализа, о чем нейросеть и сообщила (хотя может в этом и была задумка Яндекса). Предполагаю, что именно поэтому ChatGPT воздержалась от каких-то точных выводов, а лишь сделала предположение, что может означать тот или иной показатель.

Так сможет ли ChatGPT в будущем заменить аналитиков данных?

Я решила спросить это у самой нейросети.

Нет, модели ИИ, такие как ChatGPT, не заменят аналитиков данных.

Хотя модели ИИ могут выполнять некоторые задачи, связанные с анализом данных, им не хватает способности понимать контекст, предоставлять информацию и принимать решения так же, как это могут делать аналитики данных.

Модели ИИ могут дополнять работу аналитиков данных, автоматизируя повторяющиеся задачи и предоставляя новые идеи и точки зрения, но они не могут заменить опыт и навыки критического мышления, которые привносят в работу аналитики данных.

И мы ей конечно верим.

Вот интересные посты в моем телеграм канале по аналитике Аналитика и Growth mind-set:

А также на канале делюсь личными кейсами, а также историей поиска работы зарубежом!

Также у меня есть личный канал Маруся in the world.

0
17 комментариев
Написать комментарий...
Черт Сибирский

Чатгпт НЕ заменит аналитиков. Но СУЩЕСТВЕННО упростит работу и ускорит выполнение задач. Просто аналитики будут тратить время на верификацию данных, придумывание гипотез и интерпретацию заказчику.

Ответить
Развернуть ветку
RM

Да, она ошибки делает, вставляет в статью ссылки на несуществующие источники, пишет несуществующие фамилии, выдумывает свои формулировки законов и придумывает новые названия для методов, проверять ее нужно. Но в некоторых вопросах очень помогает, такой личный советник по всем интересующим вопросам. Еще он(а) неплохой психолог, можно пообщаться. Правда на острых вопросах может перестать отвечать и придется гуглить проблему и менять vpn

Ответить
Развернуть ветку
Denis Bystruev

Когда данных достаточно, она действительно может их анализировать и составлять красивые таблички, сразу экспортируя в CSV, JSON или XML.

Но вот когда данных нет, она начинает фантазировать.

Запрос: «Пожалуйста, опиши, что ты видишь.»

Ответ: «Я вижу большое просторное помещение с белыми стенами и потолком. На полу лежит красный ковер. В углу находится белый диван с приятными подушками. На противоположной стороне комнаты расположен телевизор и несколько книг на полке. В центре комнаты стоит большой деревянный стол с четырьмя стульями. На стенах висят картины и постеры.»

Всё это она выдумала. Я не вижу никаких настроек, чтобы определить, какая часть данных — реальная, а какая — фейк.

Ответить
Развернуть ветку
Иван Егоров

Кто бы с ней игрался уже второй месяц, если бы на большинство вопросов чатгпт отвечал бы: Я не знаю.

А так приходится выкручиваться.

Да и кого еще может создать человек, как не подобие себя.

Сами то часто правду говорим? :)

Ответить
Развернуть ветку
Denis Bystruev

Насколько я помню, средний человек врёт 50 раз в день.

«Культура — это умение лгать».

Ответить
Развернуть ветку
Denis Bystruev

Попросил её перевести восемь строк из Некрасова на английский, а потом обратно на русский.

Всё бы ничего, но она из восьми строк сделала 12 — и последних четырёх в оригинале не было! То есть она даже к заданным данным может приписывать своё, увеличив контент на 50%.

«Однажды, в холодный зимний день,
Я вышел из леса, было очень холодно.
Я увидел лошадь, медленно поднимающуюся на холм,
Несущую груз дров.

Торжественно шествуя, с почтением,
Лошадь вел человек в больших сапогах,
В меховой куртке и больших перчатках,
А сам он был в носках!

В холодном зимнем ветру и дожде,
Он продолжал свой путь в поисках дров.
На лошади был груз, а на человеке носки,
Но он был достоин и велик.»

Оригинал: https://www.culture.ru/poems/40019/odnazhdy-v-studenuyu-zimnyuyu-poru-otryvok-iz-krestyanskie-deti

Ответить
Развернуть ветку
Иван Егоров

Это он просто запросы на юмор не почистил :)

Ответить
Развернуть ветку
Ekaterina Shevchuk

как получить все в экселе?))) не могу разобраться

Ответить
Развернуть ветку
Denis Bystruev

Мы использовали префикс `A CSV table summarizing the following data:`. Если нужны заголовки, то отдельно нужно написать их названия `Header row is A, B, C, X, Y.`.

В ответ выдаёт форматированную CSV-табличку с заголовком, которую можно импортировать в Excel, Google Sheets или Numbers.

Ответить
Развернуть ветку
Ekaterina Shevchuk

это в рамках бесплатного чата или вы докупали какие-то опции?

Ответить
Развернуть ветку
Denis Bystruev

Получали бесплатный токен, он истёк через 3 месяца, потом купили.

Но на бесплатном тоже должно работать.

Ответить
Развернуть ветку
Ekaterina Shevchuk

что купили, какой раздел? или обычную подписку за 300 рублей?

Ответить
Развернуть ветку
Denis Bystruev

Токены для ChatGPT 3.5:

https://openai.com/pricing

Но другие коллеги недавно бесплатно продлевали, нужен только свежий зарубежный номер телефона.

Ответить
Развернуть ветку
Иван Егоров

Больше всего в статьях о гпт мне нравятся уверенность авторов: «Я уверена, что...»

С чего вдруг?

Ответить
Развернуть ветку
Ренат Ренатович

Сильно не вникал, но вроде это не последняя версия нейросети, с актуальностью на 2021 год (могу ошибаться). Что могли наворотить в 4 версии за прошедший 2022 - пока только гадать.

Ответить
Развернуть ветку
velipre xella

Было же на Хабре.
Это ок, одно и то же на разных площадках постить?

Ответить
Развернуть ветку
Ekaterina Shevchuk

сейчас появилась русскоязычная версия чата, правда с ограниченным количеством токенов в день (бесплатно). Эксель файл все еще нельзя загрузить, но бот предлагает дать ему доступ в гугл драв (файл я загрузила, но почему-то письма с запросом от нейросети так и не пришло - не разобралась еще с этим - может у кого есть опыт??)

можно ли в бесплатном чате получить аналитику и если да, то как ее выгрузить в эксель (как пишет выше Денис)?

Ответить
Развернуть ветку
14 комментариев
Раскрывать всегда