对于一个蹒跚学步的孩子来说,要知道苹果是什么样子,你只需指着一个苹果说“apple”(可能重复这个过程几次)。现在这个孩子就能认识所有形状和颜色的苹果。真是个天才!

机器学习还达不到这个程度;大多数机器学习算法都需要大量的数据才能正常工作。即使对于非常简单的问题,您通常需要数以千计的样本,对于像图像或语音识别这样的复杂问题,您可能需要数以百万计的示例(除非您可以重用现有模型的部分)。

数据不合理的有效性

在一篇2001年发表的著名论文(goo.gl/R5enIE)中,微软研究员Michele Banko和Eric Brill展示了不同的机器学习算法,包括非常简单的算法,一旦有了大量数据进行训练,在进行去除语言歧义的测试中几乎有相同的性能(见图1-20)

图1-20 数据与算法的重要性。

正如作者所说:“结果说明,我们可能需要重新考虑在算法开发vs语料库发展上花费时间和金钱的取舍。

这些结果表明,我们可能需要重新考虑在算法开发上花费时间和金钱之间,以及在语料库上花费时间和金钱的的权衡。

Peter Norvig等人在2009年发表的题为《数据不合理的有效性》的论文中进一步推广了数据比复杂问题的算法更重要的观点。然而,应该指出的是,小型和中型数据集仍然很常见,获得额外的训练数据并不总是容易或廉价,所以不要放弃算法。

results matching ""

    No results matching ""