Скажу сразу, что за код я не шарю, вопросы исключительно к содержательной части, но и тут не собираюсь претендовать на истину в последней инстанции, так что поправь, если не прав.
1. Во-первых, R² является плохим к-том для измерения качества модели. Ключевая проблема в том, что у тебя 13(!) переменных, а он имеет свойство расти с каждой добавленной, более того, значения около 0,8 достойные для моделей с 3-4 переменными. Если ты добавишь ещё 10 переменных, то он у тебя вообще упрется в единицу, но точность прогнозирования от этого не увеличится (а скорее, наоборот) 2. Не оч корректно сравнивать по R² модели разного типа или с разным количеством переменных, его скорее могут использовать как некоторую ориентировку на этапе отбора регрессоров 3. У тебя прям очевидно есть мультколлинеарность, это даже видно из приведенной таблички (там есть корреляции 0,6-0,7+), ну и по смыслу очевидно, что, к примеру, площадь квартиры и количество комнат связаны.
Советы: 1. Используй хотя бы скорректированный R² для сравнения модели и для понимания, есть ли эффект от изменения количества переменных 2. Реши проблему мультколлинеарности - проведи тесты на значимость переменных, попробуй поисключать разные переменные, посмотри, какая из двух связанных будет лучше объяснять (гугли VIF коэффициент и t-критерий) 3. Протестируй значимость модели в целом
Уверен, что если уменьшить количество параметров, убрать мультколлинеарность и прочие недостатки, то данный метод действительно что-то объяснит про ценообразование
Короче я даже зарегался, чтобы оставить коммент.
Скажу сразу, что за код я не шарю, вопросы исключительно к содержательной части, но и тут не собираюсь претендовать на истину в последней инстанции, так что поправь, если не прав.
1. Во-первых, R² является плохим к-том для измерения качества модели. Ключевая проблема в том, что у тебя 13(!) переменных, а он имеет свойство расти с каждой добавленной, более того, значения около 0,8 достойные для моделей с 3-4 переменными. Если ты добавишь ещё 10 переменных, то он у тебя вообще упрется в единицу, но точность прогнозирования от этого не увеличится (а скорее, наоборот)
2. Не оч корректно сравнивать по R² модели разного типа или с разным количеством переменных, его скорее могут использовать как некоторую ориентировку на этапе отбора регрессоров
3. У тебя прям очевидно есть мультколлинеарность, это даже видно из приведенной таблички (там есть корреляции 0,6-0,7+), ну и по смыслу очевидно, что, к примеру, площадь квартиры и количество комнат связаны.
Советы:
1. Используй хотя бы скорректированный R² для сравнения модели и для понимания, есть ли эффект от изменения количества переменных
2. Реши проблему мультколлинеарности - проведи тесты на значимость переменных, попробуй поисключать разные переменные, посмотри, какая из двух связанных будет лучше объяснять (гугли VIF коэффициент и t-критерий)
3. Протестируй значимость модели в целом
Уверен, что если уменьшить количество параметров, убрать мультколлинеарность и прочие недостатки, то данный метод действительно что-то объяснит про ценообразование