Разметка данных с USDATA: как разметка 150 000 фотографий повысила точность оценки недвижимости на 23% и сократила время экспозиции объектов

Два года назад крупная proptech-платформа (вы все ей пользуетесь, ну а мы под NDA, не можем сказать какая) столкнулась с проблемой: их AI-модель оценки ликвидности квартир ошибалась в 40% случаев. Объекты с одинаковым метражом в одном доме продавались с разницей в несколько месяцев, но алгоритм не мог предсказать какой именно уйдет быстрее.

Причина оказалась простой — модель анализировала цифры но игнорировала то, что видит покупатель: состояние ремонта, освещение, визуальную привлекательность интерьера.

Когда компания попыталась обучить AI на фотографиях из объявлений начались странности. Модель определяла квартиру премиальной из-за большой люстры в кадре. Или связывала высокую ликвидность с наличием широкоэкранного телевизора — просто потому что дорогие объекты чаще содержали такие снимки. Проблема была не в архитектуре нейросети. Проблема была в данных.

В типичном датасете для недвижимости одновременно находятся:

Профессиональные фото с HDR-обработкой
Снимки на телефон при плохом свете
Рендеры от застройщиков
Старые архивные изображения
Коллажи и скриншоты

Для человека разница очевидна. Для AI — нет. Модель начинала воспринимать стиль съемки как характеристику самого объекта.

Команда разметки данных - US DataML подключилась к проекту с задачей подготовить датасет который научит модель видеть недвижимость так, как ее оценивает покупатель.

Сначала проанализировали 80 000 объявлений и сопоставили фотографии со сроками продажи. Выяснилось, что на ликвидность влияют не только очевидные параметры вроде свежего ремонта.

Покупатели реагируют на:

Естественное освещение (даже при одинаковой площади окон)
Визуальный шум — количество мелких деталей в кадре
Ощущение свободного пространства
Состояние санузла и кухни
Наличие устаревшей мебели которая "удешевляет" восприятие

Но чтобы AI начал различать эти признаки изображения нужно размечать с учетом контекста. Старый шкаф в светлой аккуратной квартире — одна история. Та же мебель в темном помещении с облезшими стенами — совсем другая.

Уровень объектов: окна, мебель, отделка, бытовая техника с атрибутами износа и качества.

Уровень сцены: общее состояние ремонта, визуальная чистота, освещенность, ощущение пространства.

Критично важным оказалось единообразие оценок. Когда над датасетом работают несколько десятков разметчиков понятие "хороший ремонт" у каждого свое. Поэтому мы создали подробный гайд с примерами для каждого уровня состояния помещения и внедрили трехуровневую систему QA:

Повторная валидация 15% изображений другим специалистом
Автоматический поиск аномалий в датасете
Ревью конфликтных разметок senior-экспертами

После разметки 150 000 изображений и первой итерации обучения модель начала показывать результаты: точность выросла на 12% по сравнению с базовой версией.

Но при детальной проверке всплыли новые сложности.

AI слишком сильно реагировал на качество съемки. Профессиональные фото с хорошим светом завышали оценку даже проблемных квартир. Широкоугольная оптика визуально "расширяла" маленькие комнаты и модель начинала воспринимать их как более просторные.

Получалось что AI частично учился распознавать не недвижимость, а стиль фотографии.

Пришлось балансировать выборку — добавили квартиры разных сегментов с профессиональной и любительской съемкой, объекты без ремонта и после обновления студии и премиальное жилье. Отдельно размечали негативные сценарии: фото с плохим освещением не всегда означали низкую ликвидность, иногда собственники просто публиковали неудачные снимки.

Еще одна доработка — мы начали отдельно маркировать:

Рендеры (чтобы модель не считала их признаком реального премиума)
Обработанные изображения с HDR и фильтрами
Дубли объектов
Кадры с сильными искажениями

Когда систему обучили на комбинированных данных (фото + структурированные параметры объявления + история цены + геоданные) метрики изменились:

Точность прогноза ликвидности выросла на 23% относительно модели на базовых параметрах
Средняя ошибка оценки времени экспозиции снизилась с 45 до 28 дней
Процент ложных рекомендаций "быстро продаваемых" объектов упал с 38% до 16%

Для платформы это означало конкретные деньги: более точное ранжирование объявлений повысило конверсию в показы на 8%, агенты начали тратить меньше времени на неликвидные объекты, а рекламный бюджет перераспределился эффективнее.

Большинство проблем AI в proptech связаны не с "недостаточно умными" алгоритмами. Основная сложность — качество подготовки данных.

На практике хороший датасет дает больший эффект чем очередная попытка заменить модель на более модную. Именно поэтому сегодня разметка становится ключевой частью AI-проектов в недвижимости.

Мы в USDATA специализируемся на подготовке датасетов для computer vision, NLP и других ML-задач. Выстраиваем полный пайплайн: от сбора и очистки данных до многоуровневой валидации и контроля консистентности.

Работаем с форматами COCO, YOLO, Pascal VOC, поддерживаем экспорт под любые популярные фреймворки. Средний объем проектов — от 50 000 размеченных изображений, сроки зависят от сложности таксономии но обычно укладываемся в 4-8 недель на датасет среднего размера.

Куда движется рынок

Сейчас похожие системы оценки начинают использовать:

Агентства недвижимости для приоритизации работы с объектами
Банки при оценке залогового имущества
Сервисы краткосрочной аренды для прогноза конверсии объявлений
Застройщики для анализа конкурентных предложений

Модели учатся не только оценивать ликвидность но и выявлять фейковые объявления, искать визуальные дубли, прогнозировать оптимальную цену на основе состояния интерьера.

При этом качество результата все еще напрямую зависит от датасета. Если модель плохо обучена на квартирах эконом-сегмента она переоценивает минималистичные студии и недооценивает более старое но качественное жилье.

Поэтому зрелые AI-команды сегодня инвестируют не только в GPU и архитектуру моделей, но и в инфраструктуру data operations: стандартизацию разметки, QA-процессы, регулярное переобучение на свежих данных.

Рынок недвижимости меняется быстро — в моду входят новые стили интерьеров меняются визуальные предпочтения покупателей. То что модель считала современным два года назад сегодня воспринимается как устаревшее. Датасет нужно поддерживать постоянно.

Если вы разрабатываете AI-решение для proptech и столкнулись с проблемами качества данных — мы можем помочь с аудитом существующего датасета или подготовкой нового с нуля. Первая консультация и оценка объема работ — бесплатно.

Разметка данных с USDATA: как разметка 150 000 фотографий повысила точность оценки недвижимости на 23% и сократила время экспозиции объектов

Что не так с обычными датасетами

Как мы построили процесс разметки

Мы ввели двухуровневую разметку:

Первые результаты и новые проблемы

Бизнес-результат

Главный вывод: данные важнее архитектуры