Реальные данные часто содержат некоторое количество шума. В большинстве случаев практически невозможно собрать данные без шума. Следовательно, для алгоритмов машинного обучения становится важным выдерживать шум и изучать основные закономерности, присутствующие в данных. То есть модель должна быть способна хорошо обобщать зашумленные обучающие данные, чтобы она могла делать удовлетворительные прогнозы на заведомо зашумленных производственных данных. Но синтетические данные часто создаются для отражения идеальных данных, свободных от шума, а не для отражения реальных данных, которые в большинстве случаев содержат шум. Если ваша модель была обучена на синтетических (без шума) данных, она пытается соответствовать всем точкам обучающих данных и не будет обобщать, а когда она питается реальными (зашумленными) данными, она не сможет хорошо работать с ними,