线性回归

Linear Regression
是一种通过属性的线性组合来进行预测的线性模型。其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真实值之间的误差最小化。

\begin{array}{r} \hat{y} = h (x) = w_{0} x_{0} + w_{1} x_{1} + \dots + w_{n} x_{n} = w^{T} x \end{array}

\begin{array}{r} J (w) = \frac{1}{2} \sum_{i = 1}^{m} (h (x)_{i} - y_{i})^{2} \end{array}

不需要选择学习率,需要计算 $(X^{T} X)^{- 1}$ ,只适用于线性模型，不适合逻辑回归模型等其他模型
算法流程：知 $h (x)$ ，寻找一组 $w (w_{0}, w_{1}, \dots, w_{n})$ 使得残差平方和 $J (w)$ 最小

\begin{array}{r} \sum z_{i}^{2} = z^{T} z \frac{\partial X^{T} X}{\partial X} = 2 X \frac{\partial A X}{\partial X} = A^{T} \frac{\partial X^{T} A X}{\partial X} = (A + A^{T}) X \end{array}

\begin{array}{r} \frac{\partial J (w)}{\partial w} = \frac{1}{2} \frac{\partial}{\partial w} (X w - Y)^{T} (X w - Y) = \frac{1}{2} \frac{\partial}{\partial w} (w^{T} X^{T} X w - 2 w^{T} X^{T} Y + Y^{T} Y) = \frac{1}{2} (2 X^{T} X w - 2 X^{T} Y + 0) = 0 \end{array}

$X^{T} X w - X^{T} Y = 0 \Rightarrow w = (X^{T} X)^{- 1} X^{T} Y$

需要选择学习率 $α$ ，需要多次迭代，当特征数量𝑛大时也能较好适用，适用于各种类型的模型

批量梯度下降（Batch Gradient Descent,BGD）：梯度下降的每一步中，都用到了所有的训练样本
随机梯度下降（Stochastic Gradient Descent,SGD）：梯度下降的每一步中，用到一个样本，在每一次计算之后便更新参数，而不需要首先将所有的训练集求和
小批量梯度下降（Mini-Batch Gradient Descent,MBGD）：梯度下降的每一步中，用到了一定批量的训练样本

均方误差 MSE（Mean Square Error）：

\frac{1}{m} \sum_{i = 1}^{m} (y_{i} - {\hat{y}}_{i})^{2}

均方根误差 RMSE (Root Mean Square Error):

\sqrt{\frac{1}{m} \sum_{i = 1}^{m} (y_{i} - {\hat{y}}_{i})^{2}}

平均绝对误差MAE（Mean Absolute Error):

\frac{1}{m} \sum_{i = 1}^{m} | y_{i} - {\hat{y}}_{i} |

RSquare $R^{2} = \frac{S S R}{S S T} = 1 - \frac{S S E}{S S T} = 1 - \frac{M S E}{V a r}$ , 越接近于 1, 说明模型拟合得越好

\begin{array}{r} S S R = \sum_{i = 1}^{m} ({\hat{y}}_{i} - \bar{y})^{2} S S E = \sum_{i = 1}^{m} ({\hat{y}}_{i} - y)^{2} S S T = \sum_{i = 1}^{m} (y_{i} - \bar{y})^{2} \end{array}