Red Cube

+1
с 2023
0 подписчиков
0 подписок

Короче я даже зарегался, чтобы оставить коммент.

Скажу сразу, что за код я не шарю, вопросы исключительно к содержательной части, но и тут не собираюсь претендовать на истину в последней инстанции, так что поправь, если не прав.

1. Во-первых, R² является плохим к-том для измерения качества модели. Ключевая проблема в том, что у тебя 13(!) переменных, а он имеет свойство расти с каждой добавленной, более того, значения около 0,8 достойные для моделей с 3-4 переменными. Если ты добавишь ещё 10 переменных, то он у тебя вообще упрется в единицу, но точность прогнозирования от этого не увеличится (а скорее, наоборот)
2. Не оч корректно сравнивать по R² модели разного типа или с разным количеством переменных, его скорее могут использовать как некоторую ориентировку на этапе отбора регрессоров
3. У тебя прям очевидно есть мультколлинеарность, это даже видно из приведенной таблички (там есть корреляции 0,6-0,7+), ну и по смыслу очевидно, что, к примеру, площадь квартиры и количество комнат связаны.

Советы:
1. Используй хотя бы скорректированный R² для сравнения модели и для понимания, есть ли эффект от изменения количества переменных
2. Реши проблему мультколлинеарности - проведи тесты на значимость переменных, попробуй поисключать разные переменные, посмотри, какая из двух связанных будет лучше объяснять (гугли VIF коэффициент и t-критерий)
3. Протестируй значимость модели в целом


Уверен, что если уменьшить количество параметров, убрать мультколлинеарность и прочие недостатки, то данный метод действительно что-то объяснит про ценообразование

1