Парсинг адресов с ИИ — модель в открытом доступе

2024

ChatGPT и другие LLM (даже «Яндекс» и «Сбер») неплохо умеют понимать и сравнивать РФ-адреса, но когда нужно обработать большой объем (например, 150 млн адресов) — получается медленно и дорого.

Программисты выдумывают сложные велосипеды с регулярными выражениями и разделителями. Рано или поздно понимают, что это не такая простая задача, и подключают сервис DaData.

Я был уверен, что к 2024 году на Hugging Face уже существует небольшая трансформер-модель для NER под адреса. Так и есть — куча моделей, но ни одной нормальной для русского языка 😞

Пришлось сделать свою 🙂

Пользуйтесь и давайте фидбэк: https://huggingface.co/aidarmusin/address-ner-ru

Что модель делает

Строку адреса разбивает на регион, район, город, улицу, номер дома и т.д.

Это позволяет удобнее сравнивать адреса, привязывать их к ФИАС/ГАР

И делает это максимально эффективно, ведь это небольшая трансформер-модель, и она требует гораздо меньше вычислительных мощностей.

На чем обучалась

Всего лишь 5 тыс. размеченных адресов. Адреса подобраны максимально разнообразные. К тому же количество таких адресов можно легко расширить, дополнительно обучив модель на новых данных.

Можем поделиться датасетом (пишите).

Сравнение с DaData

Это не имеет смысла, так как мы всего лишь парсим строку на части, а привязка к ФИАС/ГАР - это уже другая задача. Мы для этого сделали отдельную модель, но её пока в открытый доступ не выкладываем.

Тем не менее, эту модель можно использовать для определения региона на уровне точности DaData.

Парсинг адресов с ИИ — модель в открытом доступе
44
2 комментария