Султан, это задача из NLP и тут лучше взять библиотеку для анализа текста и применить для своих нуж…

Трибуна 22.10.2021

Телеграм бот для тех, кто хочет использовать ML в работе, но не готов писать код

Я работаю менеджером продуктов. В рамках рабочих и личных проектов время от времени делаю аналитику данных. Одни из самых популярных задач для меня во время анализа — поиск зависимостей, прогнозирование, деление клиентов на группы, поиск аномалий/инсайтов. То есть стандартные задачи ML. Для этого я беру готовые ML-библиотеки немного причесываю данн…

1111

Султан Кадыркеш

23.10.2021

Антон, подскажите пожалуйста как лучше реализовать. Есть задача проверки корректности имён. В базе есть 10000 клиентов, но не все из них корректно заполнены.

К примеру, одно из некорректных имен: Ирина Красные волосы
Андрей Мелочный
ИРина ДОБрова

Пример из корректных:
Александр
Ирина Доброва

Какие нужны будут параметры?
Кол-во букв, наличие мат слов, более 2ух заглавных, более 2ух слов и т.д.

Ответить

John Doe

23.10.2021

наличие мат словНаличие математических терминов? ;)

Ответить

Andrey Shevtsov

23.10.2021

Тут ML не нужен

Ответить

Anton

23.10.2021

Автор

Султан, это задача из NLP и тут лучше взять библиотеку для анализа текста и применить для своих нужд. Рекомендую обратить внимание на Spacy. Примерно полгода назад сам на ней написал несложный анализатор текстов для своих задач. Там можно доставать часть речи и, если это прилагательное или глагол, то отсеивать. Но надо тестировать и дотачивать решение так как, кажется, что многие фамилии очень похожи на прилагательные и, как вариант, надо добавлять специальные шаблоны для дополнительной проверки.

Если нужна реализация "под ключ" - пишите в личку, попробуем что-нибудь придумать.

Ответить