显然,如果您的训练数据充满了错误、异常值和噪声(例如,由于质量较差的度量),系统检测出潜在规律的难度就会变大,性能就会降低。花时间清理训练数据是很值得的。事实是,大多数数据科学家花了很大一部分时间来做这些事情。例如:

  • 如果某些实例是明显的异常值,最好删掉它们或尝试手工修改错误。

  • 如果一些实例缺少特征(比如,你的5%的顾客没有说明年龄),你必须决定是否忽略这个属性、忽略这些实例、填入缺失值(比如,年龄中位数),或者训练一个含有这个特征的模型和一个不含有这个特征的模型,等等。

results matching ""

    No results matching ""