请注意,本文编写于 124 天前,最后修改于 124 天前,其中某些信息可能已经过时。
线性回归
假设空间:连续值输入、连续值输出的线性函数(linear function)
y=w1x+w0
其中w0和w1是待学习的系数
预测误差
若记学习到的函数为hw(xj),单个样本上的误差定义为
yj−hw(xj)
所有样本上的误差则是
j∑(yj−hw(xj))
显然不能用这个作为损失函数,引入最小化平方损失函数L2,它是所有样本误差的平方和
Note
j∑[yj−hw(xj)]2
为了使其最小,应当使得权重参数为极值点
∂w0∂Loss=−2j∑[yj−(w0+w1xj)]=0∂w1∂Loss=−2j∑[yj−(w0+w1xj)]xj=0
求解该方程即可得到参数
w1=N∑jxj2−(∑jxj)2N∑jxjyj−(∑jxj)(∑jyj), w0=N1(j∑yj−w1j∑xj)
对于多变量的线性回归,将数据一行一行拼成一个矩阵X,权重记为一个列向量w,则预测的输出为
平方误差损失为
L(w)=∣∣Xw−y∣∣2
令其梯度为零
∇wL(w)=2XT(Xw−y)=0
解的
w=(XTX)−1XTy
梯度下降
梯度下降法是指在参数空间中朝着Loss下降最快的方向前进,即进行迭代
Note
wi=wi−α∂wi∂Loss(w)
其中α称为学习率
若进行梯度计算时使用所有训练样例进行迭代,称为批梯度下降,遍历了所有训练样例的一步更新称为轮(epoch)
批梯度下降也称确定性梯度下降,其损失曲面是凸函数,可以达到全局最小值。但由于使用所有的样例进行训练,资源消耗比较大,因而引入随机梯度下降,在每一步中随机选择少量训练样例进行迭代。不过小批量的随机梯度下降会在最小值附近波动而不收敛。不过它被证明了可以有效找到接近全局最小值的性质良好的局部最小值
过拟合与正则化
高维空间中进行多变量回归时可能会导致过拟合,因而添加一个惩罚项,选取要最小化的函数为
Loss(w)+λ⋅penalty(w)
惩罚项称为正则化函数,可以选取
penalty(w)=j=1∑∣wj∣q 本文作者:GBwater
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA
许可协议。转载请注明出处!