Я работаю менеджером продуктов. В рамках рабочих и личных проектов время от времени делаю аналитику данных. Одни из самых популярных задач для меня во время анализа — поиск зависимостей, прогнозирование, деление клиентов на группы, поиск аномалий/инсайтов. То есть стандартные задачи ML. Для этого я беру готовые ML-библиотеки немного причесываю данн…
Антон, подскажите пожалуйста как лучше реализовать. Есть задача проверки корректности имён. В базе есть 10000 клиентов, но не все из них корректно заполнены.
К примеру, одно из некорректных имен: Ирина Красные волосы
Андрей Мелочный
ИРина ДОБрова
Пример из корректных:
Александр
Ирина Доброва
Какие нужны будут параметры?
Кол-во букв, наличие мат слов, более 2ух заглавных, более 2ух слов и т.д.
наличие мат словНаличие математических терминов? ;)
Тут ML не нужен
Султан, это задача из NLP и тут лучше взять библиотеку для анализа текста и применить для своих нужд. Рекомендую обратить внимание на Spacy. Примерно полгода назад сам на ней написал несложный анализатор текстов для своих задач. Там можно доставать часть речи и, если это прилагательное или глагол, то отсеивать. Но надо тестировать и дотачивать решение так как, кажется, что многие фамилии очень похожи на прилагательные и, как вариант, надо добавлять специальные шаблоны для дополнительной проверки.
Если нужна реализация "под ключ" - пишите в личку, попробуем что-нибудь придумать.