下一步是选择性能度量。回归问题的典型性能度量是均方根误差(RMSE)。它测量了系统在预测中所犯错误的标准偏差。例如,RMSE等于50000,意味着系统预测的68%的预测值低于实际值的5万美元以内,而大约95%的预测值低于实际值在10万美元以内。方程2-1给出了计算RMSE的数学公式:
方程2 - 1 均方根误差(RMSE)
Notations(符号)
这个方程介绍了几种常见的机器学习符号,我们将在本书中使用:
m是你正在度量RMSE的数据集中的样本数:例如,如果您正在对2000个地区的验证集进行RMSE评估,那么m = 2000。
x (i)是数据集中第i个实例的所有特征值(不包括标签)的向量,y (i)是它的标签(该样本的期望输出值):
- 例如,如果数据集的第一个地区位于东经-118.29°,纬度33.91°,它有1416人口,收入中值是38372美元,和房价中值是156400美元(暂时忽略了其他特性),那么:
,并且
X是一个矩阵,它包含数据集中所有实例的所有特征值(不包括标签)。每行有一个实例,第i行等于x(i)的转置,记为(x (i) )T :
- 例如,如果第一个地区如刚才所描述的,那么矩阵X是这样的:
h是系统的预测函数,也称为假设(hypothesis)。当你的系统被给定一个样本的特征向量x(i)?,它输出预测值ŷ(i)= h(x(i))的实例(ŷ是预测值,与真实的y相对)。
- 例如,如果您的系统预测,第一个地区的房价中值是158400美元,然后ŷ(1)= h(x(1))= 158400。这个地区的预测误差是ŷ(1)- y(1)= 2000。
RMSE(X,h)是用你的假设h来计算样本的代价函数/成本函数。
尽管RMSE通常是回归任务首选的性能度量,在某些情况下,您可能更喜欢使用另一个函数。例如,假设有许多偏远地区。在这种情况下,您可以考虑使用平均绝对误差(Mean Absolute Error,也称为平均绝对偏差;看方程2 - 2)。
方程2 - 2 平均绝对误差
RMSE和MAE都是测量两个向量之间距离的方法:预测向量和目标值向量。各种距离测量或规范是可能的:
计算一个平方和的根(RMSE)对应于欧几里德准则:它是你熟悉的距离的概念。它也被称为ℓ2规范,记为∥·∥2(或者只是∥·∥)。
计算绝对值的总和(MAE)对应于于ℓ1规范,记为∥·∥1。它有时被称为曼哈顿规范,因为如果你只能沿着正交的城市街区旅行,它可以测量一个城市的两点之间的距离。
更普遍的是一个包含n个元素的v向量的ℓk规范,它被定义为:
,ℓ
0只是给出了向量的基数(即元素数量),而 ℓ ∞则给出向量的最大绝对值。标准指数越高,越注重大的值,忽略小的值。这就是为什么RMSE对离群值比MAE更敏感的原因。但是当离群值呈指数级罕见(呈钟形曲线)时,RMSE表现得很好,通常是首选。