为了更好地进行泛化,让训练数据对新数据具有代表性是非常重要的。无论你用的是基于实例学习或基于模型学习,这点都很重要。

例如,我们之前用来训练线性模型的国家集合不够具有代表性:缺少了一些国家。图1-21展示了添加这些缺失国家之后的数据。

图1-21 一个更具代表性的训练样本

如果你用这份数据训练线性模型,得到的是实线,旧模型用虚线表示。可以看到,添加几个国家不仅可以显著地改变模型,它还说明如此简单的线性模型可能永远不会达到很好的性能。貌似非常富裕的国家没有中等富裕的国家快乐(事实上,非常富裕的国家看起来更不快乐),相反的,一些贫穷的国家看上去比富裕的国家还幸福。

使用了没有代表性的数据集,我们训练了一个不可能得到准确预测的模型,特别是对于非常贫穷和非常富裕的国家。

使用具有代表性的训练集对于泛化到新案例是非常重要的。但是做起来比说起来要难:如果样本太小,就会有样本噪声(即,会有一定概率包含没有代表性的数据),但是即使是非常大的样本也可能没有代表性,如果取样方法错误的话。这叫做样本偏差。

一个样本偏差的著名案例

也许关于样本偏差最有名的案例发生在1936年兰登和罗斯福的美国大选:《文学文摘》做了一个非常大的民调,给1000万人邮寄了调查信。得到了240万回信,非常有信心地预测兰登会以57%赢得大选。然而,罗斯福赢得了62%的选票。错误发生在《文学文摘》的取样方法:

  • 首先,为了获取发信地址,《文学文摘》使用了电话黄页、杂志订阅用户、俱乐部会员等相似的列表。所有这些列表都偏向于富裕人群,他们都倾向于投票给共和党(即兰登)。
  • 第二,只有25%的回答了调研。这就又一次引入了样本偏差,它排除了不关心政治的人、不喜欢《文学文摘》的人,和其它关键人群。这种特殊的样本偏差称作无应答偏差。

下面是另一个例子:假如你想创建一个能识别疯克音乐视频的系统。建立训练集的方法之一是在YouTube上搜索“疯克音乐”,使用搜索到的视频。但是这样就假定了YouTube的搜索引擎返回的视频集,是对YouTube上的所有疯克音乐有代表性的。事实上,搜索结果会偏向于人们歌手(如果你居住在巴西,你会得到许多“疯克卡瑞欧卡”视频,它们和James Brown的截然不同)。另一方面,怎么还能得到一个大的训练集呢?

results matching ""

    No results matching ""