Аналитики данных регулярно сталкиваются с дилеммой, которую невозможно решить: либо использовать все данные для анализа и ждать вечность, пока он завершится, либо выбросить часть ненужных данных, рискуя, что их может быть недостаточно для точного анализа.
При 95% от точности - погрешность получается небольшая, а какая выйдет от 70%? И можно ли как-то повысить точность получаемых данных?
Речь идёт о точности результатов использования данных, а не точности получаемых данных. Если считается, что даже получаемые данные верны только в 70%, то итоговая точность моделирования будет очень низкой. Лучший способ повысить точность получаемых данных – ввести строгие определения данных и стандартизировать механизм их получения.