Задача для аналитиков: повысить эффективность поиска

С объявлением итогов конкурса.

Материал подготовлен при поддержке сервиса Юла

«Юла» — это сервис, где пользователи выкладывают свои объявления. На нём продаются квартиры и самодельные украшения, готовый бизнес или услуги — практически что угодно.

Поиск — один из самых важных продуктов сервиса. К поисковой выдаче относятся как запросы с текстовым поиском, так и запросы на выдачу объявлений в определённой категории и подкатегории.

Большинство запросов делается без дополнительных фильтров, но существенная часть пользователей их использует — отсеивают выдачу по цене или расстоянию, например.

Взглянуть, как это работает, можно на сайте или приложениях iOS и Android.

В чём задача

Предложить изменения в поисковой выдаче, чтобы увеличить количество контактов по объявлениям. Контакт — это нажатие на кнопку «Позвонить» или отправка сообщения продавцу в чат.

В архиве — три CSV-таблицы. Это сырые логи запросов пользователей: как они искали объявления, какими фильтрами пользовались и связались ли с продавцами.

Аналитика может помочь вам решить задачу, но этот этап не является обязательным.

Расшифровка столбцов в таблицах

Условия и призы

На решение есть две недели: закончим принимать работы 28 октября в 23:59. Оценивать работы будет Егор Данилов, директор по продукту «Юлы». Он определит три лучших решения, прокомментирует свой выбор, а их авторы разделят призовой фонд следующим образом:

  • Первое место — 300 тысяч рублей.
  • Второе место — 200 тысяч рублей.
  • Третье место — 100 тысяч рублей.

Что конкретно делать

В этой задаче нет правильного ответа. Вам нужно представить собственное видение в виде текста на одну-две страницы. Можете добавить в него таблицы или иллюстрации, дать ссылки на код, а затем загрузить в эту форму:

или
Приём работ завершён
(function(d, w, ver) { var s = d.createElement('script'); s.src = 'https://www.google.com/recaptcha/api.js?' + ver; s.async = true; var container = d.getElementById('ula-form-wrapper'); if (container) { s.onload = function() { var ulaForm = d.querySelector('[data-ula-form]'), ulaFile = d.querySelector('[data-ula-file]'); if (!ulaForm) return false; var ulaInputs = [].slice.call(ulaForm.querySelectorAll('input')).slice(0, 3), ulaSubmitBtn = ulaForm.querySelector('[type="submit"]'); ulaInputs.forEach(function(ulaInput) { ulaInput.addEventListener('change', function(e) { ulaInput.parentElement.classList.remove('is-error'); }); }); ulaFile.addEventListener('change', function(e) { var textSpan = ulaFile.parentElement.children[1].children[0], svgIcon = ulaFile.parentElement.querySelector('svg'); textSpan.innerText = getFileName(ulaFile); if (svgIcon) svgIcon.remove(); }); ulaForm.addEventListener('submit', function(e) { e.preventDefault(); var response = (grecaptcha) ? grecaptcha.getResponse() : ''; if (!response.length) return false; if (ulaSubmitBtn.className.indexOf('is-loading') !== -1) { return false; } if (ulaSubmitBtn.innerText === 'Готово!') { ulaSubmitBtn.innerText = 'Отправить'; return false; } for (let i = 0; i < ulaInputs.length; i++) { ulaInputs[i].parentElement.classList.remove('is-error'); if (ulaInputs[i].value.length === 0) { ulaInputs[i].parentElement.classList.add('is-error'); ulaInputs[i].focus(); return false; } } ulaSubmitBtn.classList.add('is-loading'); var formData = new FormData(ulaForm); Promise.all([wait(), ajax(ulaForm.getAttribute('action'), formData)]).then(function(data) { var res = data[1]; ulaSubmitBtn.classList.remove('is-loading'); if (res && res.rm === 'Success') { ulaSubmitBtn.innerText = 'Готово!'; } else { } }).catch(function() { ulaSubmitBtn.classList.remove('is-loading'); }); }); function ajax(url, data) { return new Promise(function(resolve, reject) { var request = new XMLHttpRequest(); request.open('POST', url, true); request.setRequestHeader('X-This-Is-CSRF', 'THIS IS SPARTA!'); request.onload = function() { if (this.status >= 200 && this.status < 400) { var resp = this.response; resolve(JSON.parse(resp)); } else { reject(); } }; request.onerror = function() { reject(); }; request.send(data); }); } function getFileName(input) { var fullPath = input.value; if (fullPath) { var startIndex = (fullPath.indexOf('\\') >= 0 ? fullPath.lastIndexOf('\\') : fullPath.lastIndexOf('/')); var filename = fullPath.substring(startIndex); if (filename.indexOf('\\') === 0 || filename.indexOf('/') === 0) { filename = filename.substring(1); } return filename.slice(0, ); } } function wait() { return new Promise(function(resolve, reject) { setTimeout(function() { resolve(); }, 1000); }); } }; } d.body.appendChild(s); })(document, window, 5);

Помимо изменений, опишите, как будете оценивать результат эксперимента — на какие метрики будете смотреть и почему. Ещё нужно рассказать, что вы предпримите, если эксперимент уменьшит количество контактов по объявлениям.

Огромное спасибо всем, кто принял участие в нашем конкурсе. Мы не ожидали, что получим больше сотни работ.

Было сложно выбрать победителей: многие решения вращались вокруг схожих идей. Например, что нужно направить больше трафика на фильтры, которые лучше конвертируют поиски в контакты.

Как и говорилось в задаче конкурса, мы не оценивали предложенные решения с точки зрения вероятности их успеха. Мы выбрали победителей исходя из комплексной оценки работ по нескольким параметрам:

  • Анализ данных.
  • Умение построить гипотезы на основе данных.
  • Аргументация решения, исходя из данных.
  • Визуализация предложенного решения.
  • Решение на случай, если предложенный эксперимент уменьшит количество контактов.

В результате в конкурсе победили:

Мы свяжемся с победителями по почтовому адресу, указанному в заявке.

Несколько комментариев по присланным работам:

  • Задача была для аналитиков. Отличных идей было много, но предпочтение отдавалось решениям, где данные стали основой. Неважно, это анализ датасета или опрос знакомых — приоритет таких работ был выше, чем у построенных на личном опыте.
  • Не все предложили сценарий на случай просадки метрик: часто озвучивался простой откат эксперимента. Но анализ неудачного эксперимента может дать хорошую пищу для дальнейших размышлений.
  • Многие справедливо писали, что ключевая метрика успеха – сделки, а не контакты. Но для анализа влияния на сделки участникам нужно было бы потратить значительно больше времени, поэтому мы упростили задание.
  • Многие уделили внимание технической стороне, но не менее важно понятно защитить свое решение: визуализировать его или логично вывести из анализа данных.

Общий срок проведения конкурса: с 14.10.19 по 18.11.2019 (регистрация участников до 28.10.19). Информация об организаторе, правилах, количестве призов, сроках, месте и порядке их получения — на этой странице.

0
239 комментариев
Написать комментарий...
Виталий Стрельников

Легальный способ раскрыть коммерческую тайну поиска в Авито?)

Ответить
Развернуть ветку
Evgeny Filippov

Кому-то нравится, как ищет Авито?!

Ответить
Развернуть ветку
1 комментарий
К

Ну и ладно.

Ответить
Развернуть ветку
Кирилл Вечкасов - Маркетолог

Я за тебя могу отправить и бабки забрать, моя комиссия 50% 😊

Ответить
Развернуть ветку
9 комментариев
Ice Jumping

М-да, только граждане РФ(

Ответить
Развернуть ветку
4 комментария
Хантер

Добавлю 1% к призу в случае победы

Ответить
Развернуть ветку
Дмитрий Тарасенко

10%

Ответить
Развернуть ветку
Alexander Vysotskiy

Зачем вообще писать, что использовать данные не обязательно. Если потом это главный критерий?

Ответить
Развернуть ветку
Егор Данилов

Александр, для решения задачи действительно необязательно было анализировать приложенный датасет. Например, один из участников конкурса провел опрос среди своих знакомых и на основе этих данных строил гипотезы. Он не вошел в список призеров, но как один из вариантов решения задачи это подходит.

Ответить
Развернуть ветку
Alexander Vysotskiy

При этом у победителей данные противоречат друг другу. Абсурд короче :) топовая оценка работ. 

Ответить
Развернуть ветку
2 комментария
Цой жив

Срочных покупок обычно не бывает, скорее всего процесс похож на охоту за вещами. Искать должна система, юзер вообще не должен ничего искать, он должен только ЖЕЛАТЬ.

Выдачу предложений нужно делать на основе wish-листов. Каждый создает список того что хочет купить, любимые бренды и на каких условиях. Удобство локации и минимальная цена сразу поднимают коэффициент. Юзеру предалагают варианты,  а затем через ML отсеиваются нерелевантные предложения.

KPIs 1. покупка в минимум кликов 2.Увеличение wish-листа 3. Burn rate wish-листа

Но это все равно тупиковое нарпалевление, т.к. Юла и Avito изначально спроектированы с концептуальной и системной ошибкой. Наймите лучше нормально CPO, который не будет пыжиться с data-driven шнягой для ложного продуктка, а сконцентрируется на создании ценностей для пользователей и выстраивании прогрессивной цифровой платформы.

Ответить
Развернуть ветку
Дмитрий Старков

Кто-то так делает из барахолок?

Ответить
Развернуть ветку
3 комментария
Nice Man

С какой концептуальной и системной ошибкой? Что ищет юзер?

Ответить
Развернуть ветку
2 комментария
Alexander Vysotskiy

Наконец 18ое! :) Ждать эту неделю было сложнее, чем неделю между двумя сериями игры престолов. 

Ответить
Развернуть ветку
Антон Романов

Как оцениваете свои шансы?)

Ответить
Развернуть ветку
8 комментариев
Данил Черепанов

Интересно было бы посмотреть запросы которые задают пользователи, но 1) ексель пишет что файл слишком большой и открывается только его часть, и 2)
вот так выглядят строки в файле "D09AD180D0B0D181D0BDD0BED0B4D0B0D180D181D0BAD0B8D0B920D0BAD180D0B0D0B9 30313632666265376337646262666661 6637303136663335373937336235666230306430396564313862383039646332 5 1F6 other 1,0 1,0 " - так и должно быть?

Ответить
Развернуть ветку
Vladimir Galler

Ох, сколько открытий Вас ждет

Ответить
Развернуть ветку
2 комментария
Vladimir Galler

1) запросы обезличены, но запрос '123' == '123', и '23133324234534' != '12123', больше вам не хотят показывать
2) У  csv  фаилов надо обозначать разделитель, может у вас сбилось это 
3) Измените использование памяти excel или воспользуйтесь другими инструментами, чтобы открыть этот фаил

Ответить
Развернуть ветку
5 комментариев
Родион Поляков

Почему только РФ?

Ответить
Развернуть ветку
Цой жив

думаю, не возможности перевести выплаты в другие страны

Ответить
Развернуть ветку
Bender Rodriguez

Возможно, потому что Юла — это российский сервис для жителей Российской Федерации.

И если с Белоруссией проблем нету, то у Украины зарублены все платёжные системы, так что физически не получится как-то легально «выслать» приз. Не говоря уже об геморрое с уплатой налога.

А еще, в посте сказано, мол, «с возможностью заработать 300 тысяч рублей», то есть «победителю» могут предложить работу в Юле с зп до 300к после испытательного и без вычета НДФЛ :'D

Это же мылору, я бы не ждал от них полной прозрачности.

Ответить
Развернуть ветку
1 комментарий
Anton Tolkachev

Как на счет промежуточной аналитики для аналитиков для подогревания интереса? )

"Поступило 100 заявок, отсмотренно 60%. Средний уровень - выше ошидаемого. Пока есть 5 однозначных лидеров. Кто? - не скажем. В сроки укладываемся."

Ответить
Развернуть ветку
Егор Данилов

Антон, лучше сразу объявим результаты :)

Ответить
Развернуть ветку
Сергей Суровцев

Проблема то не в поиске, а в нескольких моментах.
По факту размещая объявление метро Щелковская продавец указывает это место встречи как предпочтительное. Покупатель находясь около метро Щелковская получает выдачу "Куплю слона" в порядке от ближнего к дальнему.

Момент, которые не учтены:
1. Покупатель не может по фильтру выбрать место нахождение. Например завтра он едет в Рассказовку, и он хотел бы посмотреть объявления в Рассказовке и на щелковской для сравнения. На Авито как раз такая возможность есть, поиск товара по зонам метро;

2. Продавец продавая товар в районе метро Щелковская может там встретиться только после 19:00 по будням придя с работы, а задать промежуток и новую точку гео данных не может. Например, что он будет с 9 до 18 в Рассказовке. 

p.s: уже давно писал в тех поддержку, чтобы сделали возможность отключения объявлений массово на время отпуска и массовое включение обратно, некая Пауза в работе. У меня на Юле десятки товаров, и рейтинг приближается 100 отзывам на 5 звезд.

Последнее нововведение огорчило, теперь за каждое поднятие объявы надо платить, пусть рубль но платить.... таким образом вы задушили свое преимущество перед авито, где именно активные пользователи, которые постоянно на связи, которые часто в приложение и были со своими объявлениями как можно выше.

Мнение ни как аналитика, а как пользователя) поэтому прошу без яростной критики.

Вот сижу я на работе, а мне звонят по объявлениям те, кто видит мой домашний адрес для встречи. А указываю рабочий, начинают звонить те, кто едет вечером с работы, а я в это время уже уехал домой.

И нам не встретиться никак (с)

Ответить
Развернуть ветку
Nice Man

На кой любому сервису ваша активность без заработка на вас, рекламу хотите больше смотреть? 

Ответить
Развернуть ветку
3 комментария
Эдуард Балагуров

Егор Данилов просто потерял закладку на эту тему )))

Ответить
Развернуть ветку
Anton Tolkachev

Глядя на работу победителя понимаю, что шансов не было. 

У меня получилось, что формами с фильтрами пользуются мало, на контакты с продавцом это не влияет и я в эту сторону даже и не копал. К тому же данные неоднородные, чехарда с идентификаторами, которые не уникальные идентификаторы вовсе, несогласованность таблиц - строить какие-то гипотезы на таких данных, глубокое имхо, неприемлемо. Garbage in, garbage out. Для меня это повод сделать step back и посмотреть на систему сбору данных. И противоречивые выводы относительно одного и того же фильтра в работах победителей доказательство этому. Разве не задача аналитика сказать "Хей! Данные - мусор. Я не могу строить на их основе какие-либо гипотезы"? 

Еще момент, что все эти "фильтры улучшайзеры" не дадут существенного эффекта. (ну а гистограмма цен, которую неподготовленный человек может и не прочитать и почувствовать себя идиотом - и вовсе очень спорный момент для широкой аудитории Юлы). И точку роста я искал в улучшении характеристик продукта, а не отдельных атомарных функций. Кажется, и Егор Данилов писал про "улучшательства" путем перекрашивание кнопок из одного цвета в другой. 

Я уверен что ошибусь, если скажу, что работы были просмотрены по диагонали в последний момент, но на секунду мелькнула такая мысль и я ее мужественно прогнал. ) 

Но ребята все равно молодцы! Видно, что вложили душу и кучу времени! Поздравляю победителей! ) 

ps: ну и моя работа https://drive.google.com/open?id=1j2zHk9pJd-8rczZVRQXCTnWlRFal4zkA

Ответить
Развернуть ветку
Vl Al

Фильтрация на юла - вырвиглазная.

Ответить
Развернуть ветку
Александр Казанский
У меня получилось, что формами с фильтрами пользуются мало, на контакты с продавцом это не влияет 

Странно как это у вас получилось, потому что влияет и очень сильно.

Пользуются мало, потому что многие просматривают по умолчанию. Вообще сложилось впечатление, что Юла превратилось в некий развлекательный сервис "а что там у соседей" из за своего позиционирование "товары рядом". Люди от скуки открывают и смотрят ближайшие предложения. Если интересно вот разбивка данных что получилось у меня

https://docs.google.com/spreadsheets/d/19xLnP6LJYpjA5zH0NlQLF7fcsqhIQMmVAH_s_CRN8TA/edit?usp=sharing

Ответить
Развернуть ветку
1 комментарий
Huntt Ext

Первый говорит, что "Из данных видно, что те, кто совершают
контакт чаще пользуются сортировкой по дистанции. Также видно, что
те, кто пользуется данным типом сортировки, совершают большее количество контактов в среднем" а второй, что ""сортировка по удаленности негативно связана с финальной конверсией"
Получаются разные выводы из одних и тех же данных.

Ответить
Развернуть ветку
Эдуард Балагуров

"Интернет-опрос выявил, что 100% населения пользуются интернетом."
или
"Ставим таракана на стол, свистим - таракан убегает. Отрываем таракану все лапы, свистим - таракан остается на месте. Вывод: таракан без ног не слышит"

Согласно заданию есть система поиска, которая в рамках конкурса по результативности признана неудовлетворительной. И есть статистические данные, которые собраны из неудовлетворительной системы. Победили те, кто доказал, что таракан без ног не слышит. Иное уважаемые организаторы отнесли к категории "личный опыт".

Ответить
Развернуть ветку
Александр Казанский

Я вот тоже не понял, потому что сортировка по дистанции режет конверсию поиска в контакт.

АПД. Вернее не режет, а хуже относительно той же сортировки по цене в 1.5 раза

А вообще судя по результатам, организаторы больше ждали про цифры чем про продукт, ну по сути для аналитиков же) Главное, что бы за своими цифрами не забыли про живых людей)

Ответить
Развернуть ветку
Stas Kostenkov

11 ноября 2019 года хотели огласить результаты голосования. Подскажите где их посмотреть. Спасибо

Ответить
Развернуть ветку
Stas Kostenkov

Увидел в заголовке- перенос на 18 ноября

Ответить
Развернуть ветку
1 комментарий
Jevgeni Simanski

Здравствуйте!
Проживаю в Эстонии, очень хотелось бы поучаствовать. Как-то возможно это решить?

Ответить
Развернуть ветку
Stas Kostenkov

Наверное найти честного парнера в России, который будет представлять интересы в РФ, организаторы не хотят заморачиваться на международные договора и авторские права на решение. Или второй способ - участвовать без приза))

Ответить
Развернуть ветку
Алексей Свирин

Максимум 5000 знаков — это обязательно требование? 

Я что-то не укладываютсь... Тем более, что нужно представить результаты аналитики, описать гипотезы, выбрать метрики для оценки, описать что делать при неудачном исходе.

Ответить
Развернуть ветку
Егор Данилов

Алексей, необязательное.

Ответить
Развернуть ветку
2 комментария
Daria Yakovleva

Привет! Нет, необязательное. Вы всегда можете прикрепить ссылку на гуглдок с подробным описанием без ограничения по количеству символов)

Ответить
Развернуть ветку
1 комментарий
Эдуард Балагуров

Уважаемые участники конкурса. У меня лично сложилось впечатление, что работы предложенные в качестве победителей прям далеко не самые сильные. Безусловно это не отменяет итоги конкурса - не мы его судьи. 
Но мой профессиональный уровень не позволяет согласиться с итогами. 
Поэтому не для массового срача, а для удовлетворения любопытства каждого из нас (всё-таки участников было много) предлагаю здесь разместить ссылку на собственный вариант решения задания. Плюс минус, но наверняка есть что-то поинтереснее. 

Вот для начала мой вариант: https://cloud.mail.ru/public/4AAe/LCKrgfCNU 
Критикуйте на здоровье. Жду ваши варианты.

Ответить
Развернуть ветку
Александр Казанский

У Вас больше про продукт чем про цифры)

Ответить
Развернуть ветку
18 комментариев
Alex Yeskov
Ответить
Развернуть ветку
Nice Man

На первом месте предложения:

отсекать слишком низкие цены (не релевантные товары),

и по у молчанию активировать фильтр дистанции до продавца (что и так было).

Юла, вам просто хотелось понять, что вы и так сделали что могли. Ну это мизерные предложения, конверсию они вам мало изменят, очевидно)

Ответить
Развернуть ветку
Егор Данилов

Сергей, мы не оценивали предложения. Без проверки в продукте невозможно понять, какое из них хорошее, а какое плохое. Мы оценивали умение проанализировать данные, построить гипотезы на основе них, предложить решения и обработать случай если гипотеза не подтвердилась.

Ответить
Развернуть ветку
6 комментариев
Александр Казанский

Если честно я вот это не понял. Это будет только во вред, потому что цена является краеугольным камнем бу вещей. Что значит не релевантные? Типа смотришь телефон Самсунг ноуи тебе показывает чехол? Или что? Если мой вариант, тогда надо дорабатывать текстовый поиск и только

Ответить
Развернуть ветку
Daria Yakovleva

Так как это csv файл, совсем необязательно открывать его именно в excel. И выбор инструментов зависит только от вас. Кроме того, даже в самом задании написано, что файлы можно смотреть, а можно и не смотреть...

Ответить
Развернуть ветку
Эдуард Балагуров

Вечерело

Ответить
Развернуть ветку
Эдуард Балагуров

Прочитал работы победителей и сложилось впечатление, что моя работа по каким-то техническим причинам до конкурса не дошла.

Ответить
Развернуть ветку
Егор Данилов

Эдуард, ваша работа участвовала в конкурсе. В этот раз победили другие участники, но в любом случае большое спасибо, что прислали свое решение.

Ответить
Развернуть ветку
1 комментарий
Антон Романов

Друзья, то же пробовал себя в этом конкурсе, интересное данное направление, выкладываю свою работу, буду признателен вашему мнению.

Ответить
Развернуть ветку
Антон Романов

Можно пояснить что значит количество контактов по объявлениям, это связь с продавцом по телефону/в переписке или количество продаж?

Ответить
Развернуть ветку
Vladimir Galler

Скорее без продажи, контакт с продавцом. (Подозреваю, что имеется ввиду нажатие на кнопку посмотреть контакты, или связь на сайте) 

Ответить
Развернуть ветку
Цой жив

юзер хочет купить, например Samsung s8.. а в поиске показывают несколько тысяч продавцов. Юзеру пофигу у кого покупать. Скольким он напишет, прежде чем совершить покупку?

На практике, нужно написть всем, естественно, предложить скинуть, т.к. их тысячи на продаже. Из ответов примерно следующаю статистика:
70% - окажется китайской репликой
5% - да я лучше его сожгу, чем скину
5% - да ты охренел, знаешь сколько он вообще стоил 5-ть лет назад?
5% - никогда, ни за что не скину.. это очень крутой телефон
5% - Как новый, только стекло разбито и батарея сдохла
5% - не ответят
5% - начнут оскарблять

Ответить
Развернуть ветку
Daria Yakovleva

Это контакт с продавцом. Данных о продажах в датасете нет

Ответить
Развернуть ветку
Huntt Ext

Шляпа какая-то:
Первый пишет о "большей важности сортировки по дистанции", второй что "сортировка по удаленности негативно связана с финальной конверсией", третий что "Ранжирование выдачи по расстоянию, особенно для некоторых категорий, может увеличить конверсию" . 
Сложилось впечатление, что выбрали тех, кто не поленился и просто написал побольше текста.

Ответить
Развернуть ветку
Эдуард Балагуров

Ну что значит "не поленился"? Константин, объективно говоря, написал красиво. Только я не понимаю как это укладывается в условие конкурса "одна-две страницы текста". 

Ответить
Развернуть ветку
Алексей Скуратов

После сабмита формы приходит какое-нибуд подтверждение на почту? Дважды отравлять результаты по правилам нельзя, а форма после клика на "отправить" визуально не изменилась. И... теперь интересно) 

UPD: ребята из поддержки быстро ответили, спасибо.

Ответить
Развернуть ветку
vc.ru

Это может быть связано с расширениями браузера или его версией. 

Всем, кто сталкивается с проблемой: не бойтесь загрузить решение дважды и, по возможности, напишите нам на [email protected] — попробуем разобраться, почему не срабатывает уведомление об успешной отправке. 

Ответить
Развернуть ветку
23 комментария
Larisa Fernandez

@Daria Yakovleva 

1. Поискала блузки в женском гардеробе )) и поняла, что фильтр по умолчанию - это когда все фильтры отключены, верно?
2. filter_explore_views ['cnt'] - это сколько раз покупатель зашел по разным объявлениям, которые выдались по его запросу в filter_explore_searches?
3. Количество контактов по объявлениям в filter_explore_contacts - это по скольким объявлениям (из тех, что ему выдались в filter_explore_views) он связался с продавцом?

Ответить
Развернуть ветку
Daria Yakovleva

1. Верно!

2. Да)

3. Это неуникальные контакты.

Ответить
Развернуть ветку
Stas Kostenkov

из анализа файла filter_explore_searches.csv фильт sorting_distance включен по умолчанию (около 3% значений Nan)

Ответить
Развернуть ветку
2 комментария
Mikhail Korolkevich

Разве поиск "блузки в женском гардеробе" это не фильтр search_text? вы отфильтровали товары поисковой строкой, по умолчанию, это по всей видимости рыться вообще в той куче вещей, что на главной

Ответить
Развернуть ветку
1 комментарий
Michael Pavlov

Подскажите пожалуйста, за какой интервал времени сняты логи? 

Ответить
Развернуть ветку
Daria Yakovleva

Привет! Время не имеет значения в данной задаче. Это случайная выборка запросов за период в несколько месяцев и действия по ним.

Ответить
Развернуть ветку
1 комментарий
Stas Kostenkov

На таргет это не влияет.

Если предположить, что это одинаковый временной срез, то выход на открытие контакта составляет 0,92% от всех запросов, а выход на карточку – 30,8% от запросов. Таком образом, около трети объявлений открывается, чтобы посмотреть их подробнее, но потенциально удовлетворяют (потребитель открывает контакт) только около 3% открываемых объявлений.

Ответить
Развернуть ветку
7 комментариев
Alexander Vysotskiy

1) Выводы победителей противоречат друг-другу
2) Данные изначально было использовать не обязательно, а теперь главный критерий
3) Победители не соблюдали правила про 1-2 страницы.

Не знаю, возможно, это лично мое мнение. Но я теперь точно не пойду в мейл, хоть меня и звали и был у вас в офисе на неделе. 
Сорри, если это чисто мне не зашло. Но выглядит, словно лучше бы еще неделю взяли и нормально определились :)

Ответить
Развернуть ветку
Егор Данилов

Александр, у задачи нет правильного ответа. На основе данных выдвигаются гипотезы, которые можно проверить только экспериментом. Решения победителей имеют недочеты, но они лучше всех справились с заданием.

В любом случае, спасибо за ваше решение. По нему видно, что вы разбираетесь в теме.

Ответить
Развернуть ветку
Эдуард Балагуров

Александр, можно Ваш вариант посмотреть?

Ответить
Развернуть ветку
Александр

Согласен с Александром... На счет 1-2 страниц. Получается выбор победителей не был основан на  каких-то объективных показателях. Но что поделать) Организатор имеет право. А для меня это был дополнительный опыт. Судя по победителю получившему 1 место я двигался в верном направлении, однако было бы здорово получить обратную связь от организаторов и понять, чего мне не хватило. Дело кстати не в победе, а чего не хватило, чтобы так сказать продать идею ) 

Ответить
Развернуть ветку
Anton Tolkachev

Поле search_id - это вроде id сессии?
Если я набирают в поиске "диваны". Получаю запись в таблице searches с search_id. Если я потом уточняю поиск "с доставкой" при сохранении исходного поискового запроса, то запись в таблице searches будет с тем же search_id?

Ответить
Развернуть ветку
Daria Yakovleva

search_id – это уникальный идентификатор запроса, в таблице filter_explore_searches он может выступать как первичный ключ.

search_id не может повторяться у разных пользователей и при любом изменении поискового запроса у одного пользователя генерируется новый search_id

Ответить
Развернуть ветку
12 комментариев
Vladimir Galler

Нет, это другой поисковый запрос. 
Но если я напишу в поиске 'диваны'
 
То в таблице у нас с вами будут разные user_id, но в поле search_id у нас с вами будет один айдишник

Ответить
Развернуть ветку
14 комментариев
Alex Yeskov

уважаемый, вы кто вообще? вопрос адресован представителям организатора, а вы сюда (и не только сюда) суетесь с не очень полезными комментариями, можно не спамить хотя бы в моей ветке?

Ответить
Развернуть ветку
Stas Kostenkov

На третьей итерации Вы, уважаемый, скатились в хамство. Вас никто спамить не пытается - если Вы обращаетесь к организаторам, то потрудитесь к ним обращаться (примеров этого выше предостаточно)

Ответить
Развернуть ветку
4 комментария
Посторонний

"Позвонить" включают меньшинство, насколько могу судить. Это и "написать" конкурируют со звоноком со своего телефона на указанный продавцом. В чем причина стремления повысить использование внутренних способов коммуникации, продавцы при этом что-то платят?

Ответить
Развернуть ветку
Alex Yeskov

наверное имеется в виду кнопка "показать номер", номера по умолчанию не видны - чтобы позвонить, надо ее нажать, и есть допущение что раз кнопку нажали то позвонили

Ответить
Развернуть ветку
6 комментариев
Pavel Gusev

Так и должно быть: в searches есть запросы с пустыми category_id и subcategory_id ,а во views для этого же запроса появляются заполненные category_id и subcategory_id? Т.е. при открытии какого-либо объявления, найденного без фильтров и категорий, этому поиску присваивается категория и под категория?

Ответить
Развернуть ветку
Larisa Fernandez

Да, ведь всем объявлениям при публикации присваивается какая-то категория. И когда открываешь объявление, найденное любым путем, в карточке объявления эта информация присутствует.
Я не официальный представитель Юла))

Ответить
Развернуть ветку
1 комментарий
Daria Yakovleva

Да, всё так)

Ответить
Развернуть ветку
Stas Kostenkov

Воронка продаж для приложения Юла выглядит следующим образом
1. Запрос (дефаулт или текст)
2. Открытие карточки
3. Открытие контакта.

Таким образом, мы можем сформировать датасет, описывающий данную воронку продаж. Начиная с filter_explore_contact, определяем карточку из базы filter_explore_views, потому что контакт можно открыть только из карточки. Далее к базе viewes добавляем базу searchers, где не входящие номера запросов будут иметь cnt_views=0 , cnt_contacts=0

Далее убираем все строки где user_id = Na

result = pd.merge(views,contacts, how = 'outer', on=['region_id', 'user_id', 'search_id',
'category_id', 'subcategory_id'])
all_data = pd.merge(result, searchers, how = 'outer', on=['region_id', 'user_id', 'search_id',
'category_id', 'subcategory_id'])
Таким образом, получаем базу для моделирования)))

Ответить
Развернуть ветку
Алексей Свирин

А почему в файле filter_explore_searches 25 уникальных категорий, а в остальных по 8? Я понимаю, что не по всем категорям могли открыть карточку товара, но чтобы по 2/3 не открывали, кажется достаточно подознительным.

Это особенности выгрузки или происходит какая-то магия?

Ответить
Развернуть ветку
Stas Kostenkov

Суть данного конкурса - это "предложить изменения в поисковой выдаче, чтобы увеличить количество контактов по объявлениям". Нам выдали данные в виде зашифрованных текстовок из поиска, их привязка к фильтам, открытиям карточек и открытия контактов. Как эти данные могут быть коррелированы с сутью данного конкурса. Мое мнение - НИКАК. Если кто-то другого мнения, то можно отписать. 1. На первом месте нашего поиска стоит уровень релевантности запроса и текста карточки (мы видим в выдаче только заголовки - соответственно на нас действует насколько удачно сделано главное фото и удачность формулировки заголовка, только после этого мы принимаем решение дальше (по фильтрам и прочему). Таким образом, суть задачи должна заключаться в оценке релевантности текстовых блоков и предложение по повышению их релевантности (например, повышению уровня синонимизации. Объясняю если ввести в поиск "видюха", то должны быть выданы видеокарты). 2. Далее задача успешности главного фото - это задача  проанализировать (через машинное обучение) какие фото (соотношение вещи к размеру фото, яркость, цветность, в каком месте находится, яркость и цветность фона) влияют на успешность, то есть на сколько данное фото привлекательно.
Для решения этих задач нужны другие данные.
ПС. Я проанализировал на основе вышеупомянутого датасета логистическую регрессию с бинарным признаком по метрике log-loss, у меня выдала 0,76. Но смысл этого анализа - бесмыслица, который говорит, что такой-то (какой?) зашифрованный вопрос при сочетании фильтров с такой-то вероятностью может привести к открытию карточки или открытию контакта.
Если Вам понравилась точка зрения - давайте ее разовьем)))

Ответить
Развернуть ветку
Денис Мамаев

Product Kaggle
Браво!

Ответить
Развернуть ветку
Alex Yeskov

А как работает поисковая выдача по дефолту на данный момент? об этом ничего в задании не сказано, а как улучшить если непонятен текущий механизм?

Ответить
Развернуть ветку
Stas Kostenkov

В чём задача

Предложить изменения в поисковой выдаче, чтобы увеличить количество контактов по объявлениям. Смотрите шире - это может не иметь связи с данными)))

Ответить
Развернуть ветку
3 комментария
Alexandr Pakshin

А я не совсем понял, получается search_id - по сути содержит в себе комбинацию всех используемых фильтров и сортировок?
 А search_text это чисто ключевое слово?

Ответить
Развернуть ветку
Denis Sevastyanov

28го днем поздно заслать? вырубает))

Ответить
Развернуть ветку
Daria Yakovleva

Не поздно) Принимаем ответы сегодня до 23:59! После чего начнем проверку работ

Ответить
Развернуть ветку
Михаил Бобков

Ввел в поле поиска на их сайте слово "Юла" и без дополнительных фильтров нажал поиск, он нашел мне все, кроме искомого )

Ответить
Развернуть ветку
Оксана Я

Ребята, админ.... А где прямая связь с вами??? Ресурс может и норм, но при прямых вопросах куда писать? Мне надо удалить фото из комментария и кому написать то?

Ответить
Развернуть ветку
Daria Yakovleva

Оксана, напишите на [email protected]

Ответить
Развернуть ветку
Цой жив

Вот этой формы раньше вроде не было

Ответить
Развернуть ветку
Цой жив

.

Ответить
Развернуть ветку
Сергей Михайленко

Думал попробовать свои силы в этой задаче, но понял, что в аналитике не силен и не смогу быстро разобраться. Но глядя на работы, особенно первое место, кажется что я смог бы сделать что-то конкурентоспособное. Я понимаю, что все субъективно, но думаю среди сотни работ было много тех, кто выложился лучше и на выходе получился не только сухой текст (как вероятный пример — Эдуард Балагуров, который активно комментировал выше).

Только вот обидно думаю многим, что сначала заявляли, что использовать данные из таблиц или нет — это остается на усмотрение участника. А по факту вышло наоборот — не сделал глубокую аналитику цифр, не получай ничего, даже если хорошие идеи были. 

Ответить
Развернуть ветку
Павел Гуров

Лихачев заставил их сделать это.

Ответить
Развернуть ветку
236 комментариев
Раскрывать всегда