当你学习机器学习的时候,最好是用真实世界的数据,而不仅仅是人工数据集。幸运的是,有数以千计的开放数据集可供选择,范围涵盖各种领域。以下是一些可以获得数据的地方:
流行的开放数据存储库:
加州大学欧文分校机器学习资料库
Kaggle数据集
Amazon AWS数据集
综合门户网站(他们列出了开放的数据仓库):
其他列出了许多流行的开放数据存储库的页面:
维基百科的机器学习数据列表。
Quora.com
数据集subreddit
在本章中,我们从StatLib存储库中选择了加州房价数据集(参见图2-1)。这个数据集基于1990年加州人口普查的数据。这并不是最近的(你在旧金山湾区还能买到一栋漂亮的房子),但它有很多学习的特质,所以我们会假装它是最近的数据。我们还添加了一个分类属性,并删除了一些用于教学目的的功能。