到目前为止,我们所面对的机器学习模型和他们的训练算法就像黑匣子一样。如果你亲身经历了前几章的一些练习,你可能会惊讶于不知道什么是引擎盖下的东西,你竟能做这么多事情:你优化了一个回归系统,你改进了一个数字图像分类器,你甚至从头开始构建了垃圾分类器-----所有这些都不知道它们是如何工作的。实际上,在许多情况下,您并不需要真正了解实现细节。

但是,理解事物的工作原理,可以帮助您快速地了解适当的模型、使用正确的训练算法以及为您的任务提供一组好的超参数。了解框架下的内容还可以帮助您调试问题并更有效地执行错误分析。最后,本章讨论的大部分主题将对理解、构建和训练神经网络(本书第二部分所讨论的)至关重要。

在这一章,我们将从线性回归模型开始,它最简单的模型之一。我们将讨论两种非常不同的训练方法:

  • 使用直接的“closed-form”方程直接计算最适合模型训练集的模型参数(比如:在训练集上最小化代价函数[cost function]的模型参数)

  • 使用迭代优化方法,也称为梯度下降(GD),逐渐调整模型参数,在训练集上最小化代价函数,最终收敛到与第一种方法相同的参数集上。我们将研究一些梯度下降的变体,我们将在第II部分研究神经网络时反复使用:Batch GD、 Mini-batch GD和Stochastic GD。

接下来我们将讨论多项式回归,一个更复杂的模型,它可以适用于非线性数据集。因为这个模型相较于线性回归有更多的参数,它更容易过拟合训练数据,所以我们会利用学习曲线,研究如何检测会否过拟合,然后,我们将研究几种正则化技术,以降低过度拟合训练集的风险。

最后,我们将讨论两个通常用于分类任务的模型:逻辑回归[Logistic Regression]和Softmax回归。

本章将会有相当多的数学方程式,需要运用线性代数和微积分的基本概念。为了理解这些方程,你需要知道向量和矩阵是什么,如何转置它们,点积是什么,矩阵的逆是什么,以及偏导数是什么。如果你不熟悉这些概念,请浏览线性代数和微积分入门教程以及作为在线补充材料中的Jupyter笔记本。对于那些真正对数学过敏的人,你应该继续阅读这一章,简单地跳过这些方程式;希望文本能够帮助您理解大多数概念。

results matching ""

    No results matching ""