Разметка данных с USDATA: как разметка 150 000 фотографий повысила точность оценки недвижимости на 23% и сократила время экспозиции объектов
Два года назад крупная proptech-платформа (вы все ей пользуетесь, ну а мы под NDA, не можем сказать какая) столкнулась с проблемой: их AI-модель оценки ликвидности квартир ошибалась в 40% случаев. Объекты с одинаковым метражом в одном доме продавались с разницей в несколько месяцев, но алгоритм не мог предсказать какой именно уйдет быстрее.
Причина оказалась простой — модель анализировала цифры но игнорировала то, что видит покупатель: состояние ремонта, освещение, визуальную привлекательность интерьера.
Когда компания попыталась обучить AI на фотографиях из объявлений начались странности. Модель определяла квартиру премиальной из-за большой люстры в кадре. Или связывала высокую ликвидность с наличием широкоэкранного телевизора — просто потому что дорогие объекты чаще содержали такие снимки. Проблема была не в архитектуре нейросети. Проблема была в данных.
Что не так с обычными датасетами
В типичном датасете для недвижимости одновременно находятся:
- Профессиональные фото с HDR-обработкой
- Снимки на телефон при плохом свете
- Рендеры от застройщиков
- Старые архивные изображения
- Коллажи и скриншоты
Для человека разница очевидна. Для AI — нет. Модель начинала воспринимать стиль съемки как характеристику самого объекта.
Команда разметки данных - US DataML подключилась к проекту с задачей подготовить датасет который научит модель видеть недвижимость так, как ее оценивает покупатель.
Как мы построили процесс разметки
Сначала проанализировали 80 000 объявлений и сопоставили фотографии со сроками продажи. Выяснилось, что на ликвидность влияют не только очевидные параметры вроде свежего ремонта.
Покупатели реагируют на:
- Естественное освещение (даже при одинаковой площади окон)
- Визуальный шум — количество мелких деталей в кадре
- Ощущение свободного пространства
- Состояние санузла и кухни
- Наличие устаревшей мебели которая "удешевляет" восприятие
Но чтобы AI начал различать эти признаки изображения нужно размечать с учетом контекста. Старый шкаф в светлой аккуратной квартире — одна история. Та же мебель в темном помещении с облезшими стенами — совсем другая.
Мы ввели двухуровневую разметку:
Уровень объектов: окна, мебель, отделка, бытовая техника с атрибутами износа и качества.
Уровень сцены: общее состояние ремонта, визуальная чистота, освещенность, ощущение пространства.
Критично важным оказалось единообразие оценок. Когда над датасетом работают несколько десятков разметчиков понятие "хороший ремонт" у каждого свое. Поэтому мы создали подробный гайд с примерами для каждого уровня состояния помещения и внедрили трехуровневую систему QA:
- Повторная валидация 15% изображений другим специалистом
- Автоматический поиск аномалий в датасете
- Ревью конфликтных разметок senior-экспертами
Первые результаты и новые проблемы
После разметки 150 000 изображений и первой итерации обучения модель начала показывать результаты: точность выросла на 12% по сравнению с базовой версией.
Но при детальной проверке всплыли новые сложности.
AI слишком сильно реагировал на качество съемки. Профессиональные фото с хорошим светом завышали оценку даже проблемных квартир. Широкоугольная оптика визуально "расширяла" маленькие комнаты и модель начинала воспринимать их как более просторные.
Получалось что AI частично учился распознавать не недвижимость, а стиль фотографии.
Пришлось балансировать выборку — добавили квартиры разных сегментов с профессиональной и любительской съемкой, объекты без ремонта и после обновления студии и премиальное жилье. Отдельно размечали негативные сценарии: фото с плохим освещением не всегда означали низкую ликвидность, иногда собственники просто публиковали неудачные снимки.
Еще одна доработка — мы начали отдельно маркировать:
- Рендеры (чтобы модель не считала их признаком реального премиума)
- Обработанные изображения с HDR и фильтрами
- Дубли объектов
- Кадры с сильными искажениями
Бизнес-результат
Когда систему обучили на комбинированных данных (фото + структурированные параметры объявления + история цены + геоданные) метрики изменились:
- Точность прогноза ликвидности выросла на 23% относительно модели на базовых параметрах
- Средняя ошибка оценки времени экспозиции снизилась с 45 до 28 дней
- Процент ложных рекомендаций "быстро продаваемых" объектов упал с 38% до 16%
Для платформы это означало конкретные деньги: более точное ранжирование объявлений повысило конверсию в показы на 8%, агенты начали тратить меньше времени на неликвидные объекты, а рекламный бюджет перераспределился эффективнее.
Главный вывод: данные важнее архитектуры
Большинство проблем AI в proptech связаны не с "недостаточно умными" алгоритмами. Основная сложность — качество подготовки данных.
На практике хороший датасет дает больший эффект чем очередная попытка заменить модель на более модную. Именно поэтому сегодня разметка становится ключевой частью AI-проектов в недвижимости.
Мы в USDATA специализируемся на подготовке датасетов для computer vision, NLP и других ML-задач. Выстраиваем полный пайплайн: от сбора и очистки данных до многоуровневой валидации и контроля консистентности.
Работаем с форматами COCO, YOLO, Pascal VOC, поддерживаем экспорт под любые популярные фреймворки. Средний объем проектов — от 50 000 размеченных изображений, сроки зависят от сложности таксономии но обычно укладываемся в 4-8 недель на датасет среднего размера.
Куда движется рынок
Сейчас похожие системы оценки начинают использовать:
- Агентства недвижимости для приоритизации работы с объектами
- Банки при оценке залогового имущества
- Сервисы краткосрочной аренды для прогноза конверсии объявлений
- Застройщики для анализа конкурентных предложений
Модели учатся не только оценивать ликвидность но и выявлять фейковые объявления, искать визуальные дубли, прогнозировать оптимальную цену на основе состояния интерьера.
При этом качество результата все еще напрямую зависит от датасета. Если модель плохо обучена на квартирах эконом-сегмента она переоценивает минималистичные студии и недооценивает более старое но качественное жилье.
Поэтому зрелые AI-команды сегодня инвестируют не только в GPU и архитектуру моделей, но и в инфраструктуру data operations: стандартизацию разметки, QA-процессы, регулярное переобучение на свежих данных.
Рынок недвижимости меняется быстро — в моду входят новые стили интерьеров меняются визуальные предпочтения покупателей. То что модель считала современным два года назад сегодня воспринимается как устаревшее. Датасет нужно поддерживать постоянно.
Если вы разрабатываете AI-решение для proptech и столкнулись с проблемами качества данных — мы можем помочь с аудитом существующего датасета или подготовкой нового с нуля. Первая консультация и оценка объема работ — бесплатно.