现在是为您的机器学习算法准备数据的时候了。您应该编写函数来实现这一点,而不是手工操作,原因如下:
这将允许您轻松地在任何数据集上复用这些转换(例如,下一次您获得一个新的数据集)。
您将逐步构建一个转换函数库,您可以在将来的项目中重用它
您可以在您的实时系统中使用这些函数来转换新数据,然后再将其添加到您的算法中。
这将使您能够轻松地尝试各种转换,并查看哪些转换组合最有效。
但首先让我们回归到一个干净的训练集(通过再一次复制strat_train_set),让我们分离预测因素和标签,因为我们并不一定要对预测因素和目标值(即label)应用相同的转换(请注意,drop()创建了数据的副本,并且不影响strat_train_set).
housing = strat_train_set.drop("median_house_value", axis=1)
housing_labels = strat_train_set["median_house_value"].copy()