俗话说:进来的是辣鸡,出来的也是垃圾。如果训练数据包含了足够多的相关特性,而不是太多的不相关的特性,才能够用来学习。机器学习项目成功的一个关键部分就是用好的特征进行训练。这个过程称作特征工程[ feature engineering],包括:
- 特征选择[Feature selection]:在所有存在的特征中选择最有用的特性来训练。
- 特征抽取[Feature extraction]:结合现有的特性来生成更有用的特性(正如我们前面看到的,降维算法可以提供帮助)
- 通过收集新数据来创建新特性。
现在我们已经看到了许多糟糕数据的例子,让我们来看看一些糟糕的算法的例子。