Я работаю менеджером продуктов. В рамках рабочих и личных проектов время от времени делаю аналитику данных. Одни из самых популярных задач для меня во время анализа — поиск зависимостей, прогнозирование, деление клиентов на группы, поиск аномалий/инсайтов. То есть стандартные задачи ML. Для этого я беру готовые ML-библиотеки немного причесываю данн…
Чтобы довести до идеала нужно будет много времени и средств. Что если это будет классификация текста, что если будет много пропущенных значений или данные максимально грязные, что если вам нужно будет создавать новые фичи и далее можно продолжать «что если» сколько угодно. Да есть плюс минус шаблоны, но все данные уникальны и разбираться в них тоже нужно индивидуально. Не все есть «кагловский Титаник».
Плюс, если проект будет рабочий, вам будут присылать кучу информации, возможно кто-то, будет присылать корпоративную информацию с выгрузкам из своих же баз данных (и не всегда форматы csv - просто к слову)) ). А это уже есть нарушение трудового договора сотрудника, да в этом виноват будет уже сам сотрудник, но что вы будете со всем этим делать? Хранить информацию или нет, использовать как-то в дальнейших целях. В общем - «вопросов много, реальных ответов только три…»
Дмитрий, вы абсолютно правы. Но своим сервисом я не пытаюсь полностью заменить ручную работу с данными. Я хочу автоматизировать базовые задачи и дать доступ к ML тем, кто не готов писать код. Мы пока еще на пути решения этой задачи. И конечно я понимаю, что высок шанс, что ничего не получится. Но попробовать хочется