Stas Kostenkov

+4
с 2019
0 подписчиков
28 подписок

Не вижу проблемы в том, что уезжают специалисты. Они уезжают, чтобы не оторваться от технологических связей. Не вижу проблемы использовать этих специалистов для создания российской экосистемы. ИТ-мир не ограничивается территорией, он ограничивается технологиями

11 ноября 2019 года хотели огласить результаты голосования. Подскажите где их посмотреть. Спасибо

1

На третьей итерации Вы, уважаемый, скатились в хамство. Вас никто спамить не пытается - если Вы обращаетесь к организаторам, то потрудитесь к ним обращаться (примеров этого выше предостаточно)

Дефолт - это когда мы смотрим на заглавную страницу без ввода в поиск и соответственно без списка и фильтров. Что мы видим? Мы видим картинки и к ним заголовки. По этим 2 параметрам мы оцениваем релевантность нашего интереса к этой вещи. Поэтому мы можем улучшить каждый из этих параметров.))) Удачи)))

В чём задача

Предложить изменения в поисковой выдаче, чтобы увеличить количество контактов по объявлениям. Смотрите шире - это может не иметь связи с данными)))

Суть данного конкурса - это "предложить изменения в поисковой выдаче, чтобы увеличить количество контактов по объявлениям". Нам выдали данные в виде зашифрованных текстовок из поиска, их привязка к фильтам, открытиям карточек и открытия контактов. Как эти данные могут быть коррелированы с сутью данного конкурса. Мое мнение - НИКАК. Если кто-то другого мнения, то можно отписать. 1. На первом месте нашего поиска стоит уровень релевантности запроса и текста карточки (мы видим в выдаче только заголовки - соответственно на нас действует насколько удачно сделано главное фото и удачность формулировки заголовка, только после этого мы принимаем решение дальше (по фильтрам и прочему). Таким образом, суть задачи должна заключаться в оценке релевантности текстовых блоков и предложение по повышению их релевантности (например, повышению уровня синонимизации. Объясняю если ввести в поиск "видюха", то должны быть выданы видеокарты). 2. Далее задача успешности главного фото - это задача  проанализировать (через машинное обучение) какие фото (соотношение вещи к размеру фото, яркость, цветность, в каком месте находится, яркость и цветность фона) влияют на успешность, то есть на сколько данное фото привлекательно.
Для решения этих задач нужны другие данные.
ПС. Я проанализировал на основе вышеупомянутого датасета логистическую регрессию с бинарным признаком по метрике log-loss, у меня выдала 0,76. Но смысл этого анализа - бесмыслица, который говорит, что такой-то (какой?) зашифрованный вопрос при сочетании фильтров с такой-то вероятностью может привести к открытию карточки или открытию контакта.
Если Вам понравилась точка зрения - давайте ее разовьем)))

Воронка продаж для приложения Юла выглядит следующим образом
1. Запрос (дефаулт или текст)
2. Открытие карточки
3. Открытие контакта.

Таким образом, мы можем сформировать датасет, описывающий данную воронку продаж. Начиная с filter_explore_contact, определяем карточку из базы filter_explore_views, потому что контакт можно открыть только из карточки. Далее к базе viewes добавляем базу searchers, где не входящие номера запросов будут иметь cnt_views=0 , cnt_contacts=0

Далее убираем все строки где user_id = Na

result = pd.merge(views,contacts, how = 'outer', on=['region_id', 'user_id', 'search_id',
'category_id', 'subcategory_id'])
all_data = pd.merge(result, searchers, how = 'outer', on=['region_id', 'user_id', 'search_id',
'category_id', 'subcategory_id'])
Таким образом, получаем базу для моделирования)))

Наверное найти честного парнера в России, который будет представлять интересы в РФ, организаторы не хотят заморачиваться на международные договора и авторские права на решение. Или второй способ - участвовать без приза))

1

правильно ли мне понятно что default == main - это когда пользователь расматривает предложения с главного экрана, а ввод любого запроса - это default == other

обычно это делаем в Юпитере, который работает в Докере, но можно установить все и на комп. Что непонятно - можно гуглить))
import pandas as pd
searchers = pd.read_csv('ula_dataset/searches/filter_explore_searches.csv', header=0, sep='\t', nrows=10**5)

@Daria Yakovleva
Как так получается, что  search_id со значением 6236343631633764316361353535616661663864313534383433396637336436 в таблице filter_explorer_views встречается 54 раза и при том что имеет одинаковый user_id, но разные category_id, subcategory_id, cnt. Значения cnt имеют разброс от 1 до 18. Что обозначает search_id. Мне логика его совершенно непонятна и не объясняет Ваше пояснение выше. Прошу ответить.

1

На таргет это не влияет.

Если предположить, что это одинаковый временной срез, то выход на открытие контакта составляет 0,92% от всех запросов, а выход на карточку – 30,8% от запросов. Таком образом, около трети объявлений открывается, чтобы посмотреть их подробнее, но потенциально удовлетворяют (потребитель открывает контакт) только около 3% открываемых объявлений.

из анализа файла filter_explore_searches.csv фильт sorting_distance включен по умолчанию (около 3% значений Nan)

разделитель в файлах - знак таббуляции, в pandas будет sep='\t'

1