Оценить точность кластеризации по всему корпусу предложений невозможно. Для этого нужен размеченный образцовый корпус, а мы использовали эти алгоритмы, чтобы получить его хотя бы в минимальном приближении.
У каждого из алгоритмов разные проблемы. Кластеризатор по изображениям может по ошибке внести в кластеризованную модель предложение от другой модели, потому что фотографии были очень похожи. Текстовый кластеризатор может изредка расщеплять одну модель на две потому, что у него нет информации о семантической близости названий товаров.
Использование доступных текстовых наборов не дает нам этой информации в полной мере и значительно усложняет модель и время её работы. Поэтому мы оцениваем качество вручную и выборочно просматриваем несколько десятков моделей. Если качество удовлетворяет нашим требованиям, то оставляем модель. Если нет — меняем кластеризатор или снимаем категорию с обработки.
Алгоритмы работают отдельно по каждой категории, поэтому качество кластеризации для категорий различается. Позже мы оцениваем успешность кластеризации по показателям отказов и конверсии с разделенных на группы карточек моделей.
Если же оценивать среднюю точность алгоритмов по всем категориям, то у кластеризатора по изображениям она достигает 75-85%, а для текстового — выше 90%, а расщепление моделей наблюдается в одном из 30-50 кластеров.
Это какое-то говно в уши начальства. Я когда последний пользовался прайс ру все было засрано однотипными сайтами-однодневками без всяких реквизитов. Лучше расскажите как вы побороли это или нет
Чувствую следующий кейс будет звучать примерно так: "Как мы вытаскивали прайс.ру из под фильтра за 7 млн сгенерированных однотипных страниц благодаря прошлой команде сеошников". Я как-то доэксперементировался с генерацией страниц под все возможные и невозможные запросы, выборки и сортировки, только раздутый в 15 раз индекс в итоге снизил трафик в 3 раза( Яндекс особенно не любит генеренные однотипные страницы и выкидывает их на раз.
Региональные поддомены тоже тема мертвая. Смотрите на авито: у них города в каталогах и ничего не мешает занимать топы в региональной выдаче по геозависимым запросам. В их случае весь ссылочный вес, поведенческие и прочие факторы аккумулируются внутри одного домена, а не размываются по куче поддоменов.
Можете слать меня на хер ну или минусовать этот комментарий. Рассказываю,у меня более 70 000 доменов. Из них огромное количество доменов так называемые тайпо ( ошибочное написание доменов ). Так вот есть куча примеров,когда есть трафик на ошибочных доменах,то это говорит о реальном положении проекта,что он популярен и им пользуются,например aviasales, ozon, mediamarkt итд. Что касается Price, то у меня все тайпо их ( пропущена буква в доменах разных ). Самый интересный вариант - это Pric.ru. Так вот там 0 посетителей в год. И это не из-за того,что у нас якобы народ образованный и знает грамматику английского языка) Все гораздо проще - это просто проект не популярный и сколько бы они не орали, мы можем с легкостью показать,что этот проект не интересен пользователю.
Думаю, это говорит о том, что мало прямого трафика.
Авторы, покажите пирог с каналами.
Спасибо за любезность, не преминем воспользоваться – идите на хер! :) В 2017 году более 90% (а может и более 99%) переходов на сайты идут по ссылкам или из поисковых систем, адреса набирает вручную мало кто, разве что с визиток-буклетов, но данный сайт явно не тот случай.
А нафига держать несколько тайпо price, за продления платить, если они трафика не приносят? Price был труп ещё при Морейнисе 10 лет назад. Мне кажется, или тема с тайпо в принципе умирает, люди меняются и домены полностью уже давно не набирают, а ищут в гугле?