线性回归

假设空间：连续值输入、连续值输出的线性函数（linear function）

y=w_1x+w_0

其中 $w_0$ 和 $w_1$ 是待学习的系数

预测误差

若记学习到的函数为 $h_w(x_j)$ ，单个样本上的误差定义为

y_j-h_w(x_j)

所有样本上的误差则是

\sum_j(y_j-h_w(x_j))

显然不能用这个作为损失函数，引入最小化平方损失函数 $L_2$ ，它是所有样本误差的平方和

Note

\sum_j[y_j-h_w(x_j)]^2

为了使其最小，应当使得权重参数为极值点

\dfrac{\partial Loss}{\partial w_0}=-2\sum_j[y_j-(w_0+w_1x_j)]=0\\ \dfrac{\partial Loss}{\partial w_1}=-2\sum_j[y_j-(w_0+w_1x_j)]x_j=0

求解该方程即可得到参数

w_1=\dfrac{N\sum_jx_jy_j-\left(\sum_j x_j\right)\left(\sum_j y_j\right)}{N\sum_jx_j^2-\left(\sum_jx_j\right)^2},~ w_0=\dfrac{1}{N}\left(\sum_jy_j-w_1\sum_jx_j\right)

对于多变量的线性回归，将数据一行一行拼成一个矩阵 $X$ ，权重记为一个列向量 $w$ ，则预测的输出为

y'=Xw

平方误差损失为

L(w)=||Xw-y||^2

令其梯度为零

\nabla_wL(w)=2X^T(Xw-y)=0

解的

w=(X^TX)^{-1}X^T y

梯度下降

梯度下降法是指在参数空间中朝着 $Loss$ 下降最快的方向前进，即进行迭代

Note

w_i=w_i-\alpha\dfrac{\partial}{\partial w_i}Loss(w)

其中 $\alpha$ 称为学习率

若进行梯度计算时使用所有训练样例进行迭代，称为批梯度下降，遍历了所有训练样例的一步更新称为轮(epoch)

批梯度下降也称确定性梯度下降，其损失曲面是凸函数，可以达到全局最小值。但由于使用所有的样例进行训练，资源消耗比较大，因而引入随机梯度下降，在每一步中随机选择少量训练样例进行迭代。不过小批量的随机梯度下降会在最小值附近波动而不收敛。不过它被证明了可以有效找到接近全局最小值的性质良好的局部最小值

过拟合与正则化

高维空间中进行多变量回归时可能会导致过拟合，因而添加一个惩罚项，选取要最小化的函数为

Loss(w)+\lambda\cdot penalty(w)

惩罚项称为正则化函数，可以选取

penalty(w)=\sum_{j=1}|w_j|^q

目录

线性回归

预测误差

梯度下降

过拟合与正则化