Суть данного конкурса - это "предложить изменения в поисковой выдаче, чтобы увеличить количество контактов по объявлениям". Нам выдали данные в виде зашифрованных текстовок из поиска, их привязка к фильтам, открытиям карточек и открытия контактов. Как эти данные могут быть коррелированы с сутью данного конкурса. Мое мнение - НИКАК. Если кто-то другого мнения, то можно отписать. 1. На первом месте нашего поиска стоит уровень релевантности запроса и текста карточки (мы видим в выдаче только заголовки - соответственно на нас действует насколько удачно сделано главное фото и удачность формулировки заголовка, только после этого мы принимаем решение дальше (по фильтрам и прочему). Таким образом, суть задачи должна заключаться в оценке релевантности текстовых блоков и предложение по повышению их релевантности (например, повышению уровня синонимизации. Объясняю если ввести в поиск "видюха", то должны быть выданы видеокарты). 2. Далее задача успешности главного фото - это задача проанализировать (через машинное обучение) какие фото (соотношение вещи к размеру фото, яркость, цветность, в каком месте находится, яркость и цветность фона) влияют на успешность, то есть на сколько данное фото привлекательно. Для решения этих задач нужны другие данные. ПС. Я проанализировал на основе вышеупомянутого датасета логистическую регрессию с бинарным признаком по метрике log-loss, у меня выдала 0,76. Но смысл этого анализа - бесмыслица, который говорит, что такой-то (какой?) зашифрованный вопрос при сочетании фильтров с такой-то вероятностью может привести к открытию карточки или открытию контакта. Если Вам понравилась точка зрения - давайте ее разовьем)))
Суть данного конкурса - это "предложить изменения в поисковой выдаче, чтобы увеличить количество контактов по объявлениям". Нам выдали данные в виде зашифрованных текстовок из поиска, их привязка к фильтам, открытиям карточек и открытия контактов. Как эти данные могут быть коррелированы с сутью данного конкурса. Мое мнение - НИКАК. Если кто-то другого мнения, то можно отписать. 1. На первом месте нашего поиска стоит уровень релевантности запроса и текста карточки (мы видим в выдаче только заголовки - соответственно на нас действует насколько удачно сделано главное фото и удачность формулировки заголовка, только после этого мы принимаем решение дальше (по фильтрам и прочему). Таким образом, суть задачи должна заключаться в оценке релевантности текстовых блоков и предложение по повышению их релевантности (например, повышению уровня синонимизации. Объясняю если ввести в поиск "видюха", то должны быть выданы видеокарты). 2. Далее задача успешности главного фото - это задача проанализировать (через машинное обучение) какие фото (соотношение вещи к размеру фото, яркость, цветность, в каком месте находится, яркость и цветность фона) влияют на успешность, то есть на сколько данное фото привлекательно.
Для решения этих задач нужны другие данные.
ПС. Я проанализировал на основе вышеупомянутого датасета логистическую регрессию с бинарным признаком по метрике log-loss, у меня выдала 0,76. Но смысл этого анализа - бесмыслица, который говорит, что такой-то (какой?) зашифрованный вопрос при сочетании фильтров с такой-то вероятностью может привести к открытию карточки или открытию контакта.
Если Вам понравилась точка зрения - давайте ее разовьем)))