И, наконец, пятый момент — это сами эталонные значения. Если у вас стоит задача научить нейронку отличать котиков от собачек, тут нет проблемы, так как мы все знаем, кто как выглядит. Но когда нужно научить алгоритм прогнозировать цену аренды, встает вопрос — а что такое вообще эталонная цена? Цена, которая есть в объявлениях на площадках? Не факт, ведь она может быть и завышенной, и заниженной. Ходить по знакомым и спрашивать, за сколько они снимают/сдают квартиру? Не очень понятно, через сколько вы получите датасет нормального объема. Взять все квартиры за последние 10 лет, чтобы, так сказать, навалиться на задачу «массой», тоже не получится — ведь цены меняются и то, что было 10 лет назад на рынке, нельзя использовать в качестве эталона сегодня. В общем, определить эталонные значения в нашем случае оказалось тем еще геморроем.
Интересно но конкретики нет. Какие данные использовали для проверки точности? Часть базы цен из объявлений?
Внутренность алгоритма получается "черный ящик", т.е. нельзя сказать почему по квартире было вынесено именно такое решение. Тогда как осуществляется контроль того что алгоритм не сбоит на отдельных квартирах? Или просто принято что в 10% случаев результату верить не стоит?
И зачем сразу машинное обучение, линейные умные алгоритмы тут могут дать хороший, прогнозируемый результат.
Артем, привет!
По поводу проверки - да, брали объявления, и сильно их чистили - обрезали выбросы с краев, проходили по ключам, по сроку размещения и тд.
"Черный ящик" - отчасти, есть возможность делать визуализацию, где ты видишь, как каждый параметр внес вклад в стоимость.
"В 10% случаев результату верить не стоит?" - алгоритм в любом случае будет где-то ошибаться, так как он работает не со всеми факторами, а с какой-то частью. Но не то, что "верить не стоит" - скорее "в 10% случаем погрешность может быть больше".
"И зачем сразу машинное обучение, линейные умные алгоритмы тут могут дать хороший, прогнозируемый результат." - прогнозируемый - да, хороший - в нашем кейсе не сработало:)
Smape 12% означает, что черный ящик в среднем отклонится от цены рынка на 12%.
Это не процент прогнозов, не укладывающихся в ограничение по качеству. Тут вообще нет нормативного отклонения от факта, при котором прогноз необходимо считать неудовлетворительным.
П.с. линейные алгоритмы это так себе. Часть факторов не количественные, шкалы взаимосвязаны, это кошмар всё в явном виде приводить. Если бы они что-то реально давали, то такая скоринговая система была бы уже доступна.
Много написал а потом удалил все
Можно узнать, чье api вы используете для отображения блока «рядом есть»?
Добрый день! Используем свой алгоритм.
С расчётом времени до метро видимо есть проблемы https://themeters.ru/objects/6144a87e9b7c9e0011076a20
Написано что Хорошево 11 мин., Мнёвники 16 мин и оба пешком, а на самом деле до Народного ополчения 15 минут пешком, до Хорошево 20 минут пешком, а на машине ближе до Полежаевской и Народного ополчения.
До Мнёвники пешком 40 минут, на машине 10.
И это не единичный случай.
А где фильтр времени в пути до центра? Первое что я хотел отфильтровать