当你学习机器学习的时候,最好是用真实世界的数据,而不仅仅是人工数据集。幸运的是,有数以千计的开放数据集可供选择,范围涵盖各种领域。以下是一些可以获得数据的地方:

  • 流行的开放数据存储库:

    • 加州大学欧文分校机器学习资料库

    • Kaggle数据集

    • Amazon AWS数据集

  • 综合门户网站(他们列出了开放的数据仓库):

  • 其他列出了许多流行的开放数据存储库的页面:

    • 维基百科的机器学习数据列表。

    • Quora.com

    • 数据集subreddit

在本章中,我们从StatLib存储库中选择了加州房价数据集(参见图2-1)。这个数据集基于1990年加州人口普查的数据。这并不是最近的(你在旧金山湾区还能买到一栋漂亮的房子),但它有很多学习的特质,所以我们会假装它是最近的数据。我们还添加了一个分类属性,并删除了一些用于教学目的的功能。

results matching ""

    No results matching ""