到目前为止，我们所面对的机器学习模型和他们的训练算法就像黑匣子一样。如果你亲身经历了前几章的一些练习，你可能会惊讶于不知道什么是引擎盖下的东西，你竟能做这么多事情:你优化了一个回归系统，你改进了一个数字图像分类器，你甚至从头开始构建了垃圾分类器-----所有这些都不知道它们是如何工作的。实际上，在许多情况下，您并不需要真正了解实现细节。

但是，理解事物的工作原理，可以帮助您快速地了解适当的模型、使用正确的训练算法以及为您的任务提供一组好的超参数。了解框架下的内容还可以帮助您调试问题并更有效地执行错误分析。最后，本章讨论的大部分主题将对理解、构建和训练神经网络(本书第二部分所讨论的)至关重要。

在这一章，我们将从线性回归模型开始，它最简单的模型之一。我们将讨论两种非常不同的训练方法:

使用直接的“closed-form”方程直接计算最适合模型训练集的模型参数（比如：在训练集上最小化代价函数[cost function]的模型参数）
使用迭代优化方法，也称为梯度下降(GD)，逐渐调整模型参数，在训练集上最小化代价函数，最终收敛到与第一种方法相同的参数集上。我们将研究一些梯度下降的变体，我们将在第II部分研究神经网络时反复使用:Batch GD、 Mini-batch GD和Stochastic GD。

接下来我们将讨论多项式回归，一个更复杂的模型，它可以适用于非线性数据集。因为这个模型相较于线性回归有更多的参数,它更容易过拟合训练数据，所以我们会利用学习曲线，研究如何检测会否过拟合，然后，我们将研究几种正则化技术，以降低过度拟合训练集的风险。

最后，我们将讨论两个通常用于分类任务的模型:逻辑回归[Logistic Regression]和Softmax回归。

本章将会有相当多的数学方程式，需要运用线性代数和微积分的基本概念。为了理解这些方程，你需要知道向量和矩阵是什么，如何转置它们，点积是什么，矩阵的逆是什么，以及偏导数是什么。如果你不熟悉这些概念，请浏览线性代数和微积分入门教程以及作为在线补充材料中的Jupyter笔记本。对于那些真正对数学过敏的人，你应该继续阅读这一章，简单地跳过这些方程式;希望文本能够帮助您理解大多数概念。

第四章训练模型

results matching ""

No results matching ""