Linear Regression

标签

字数

412 字

阅读时间

2 分钟

本节来介绍基于最小二乘法的线性回归。

情景描述

真实的x，y存在这样的关系：

y = f (x, ω) + ϵ

其中，f(x,w) 是基准的线性，epsilon是固有噪音，这玩意没法确定。有了这个噪音，你的真实标签看起来就是这样的：

degree为1，说明w只有一个，外带一个截距。所以我们假设目标函数是这样的：

{\hat{y}}_{i} = ω_{0} + ω_{1} x_{i}

那么损失如果用MSE的话，就是这样的：

R (ω) = \sum_{i = 1}^{N} r_{i}^{2} = \sum_{i = 1}^{N} (y_{i} - {\hat{y}}_{i} (x_{i}, ω))^{2}

为了最小化损失，所以求导：

\begin{aligned} \frac{\partial R (ω_{0}, ω_{1})}{\partial ω_{0}} & = 0 \\ \frac{\partial R (ω_{0}, ω_{1})}{\partial ω_{1}} & = 0 \end{aligned}

求导得到的结果如下：

\begin{matrix} \sum_{i = 1}^{N} x_{i} y_{i} = ω_{0} \sum_{i = 1}^{N} x_{i} + ω_{1} \sum_{i = 1}^{N} x_{i}^{2} \\ \sum_{i = 1}^{N} y_{i} = ω_{0} N + ω_{1} \sum_{i = 1}^{N} x_{i} \end{matrix}

写成矩阵形式就是这样：

(\begin{matrix} \sum_{i}^{N} x_{i} y_{i} \\ \sum_{i}^{N} y_{i} \end{matrix}) = (\begin{array}{cc} \sum_{i}^{N} x_{i} & \sum_{i}^{N} x_{i}^{2} \\ N & \sum_{i}^{N} x_{i} \end{array}) (\begin{matrix} ω_{0} \\ ω_{1} \end{matrix})

解就是这样：

(\begin{matrix} ω_{0} \\ ω_{1} \end{matrix}) = {(\begin{array}{cc} \sum_{i}^{N} x_{i} & \sum_{i}^{N} x_{i}^{2} \\ N & \sum_{i}^{N} x_{i} \end{array})}^{- 1} (\begin{matrix} \sum_{i}^{N} x_{i} y_{i} \\ \sum_{i}^{N} y_{i} \end{matrix})

定义目标函数为这样：

{\hat{y}}_{i} (x_{i}, ω) = \sum_{i = 0}^{M} ω_{j} ϕ_{j} (x_{i}) = ω^{T} ϕ (x_{i})

ω = (\begin{matrix} ω_{0} \\ ω_{1} \\ ω_{M} \end{matrix}), ϕ = (\begin{matrix} ϕ_{0} (x_{i}) \\ ϕ_{1} (x_{i}) \\ ϕ_{M} (x_{i}) \end{matrix})

其中phi是非线性变化，phi0(xi) = 1。求导为0得到结果：

\begin{aligned} \frac{\partial R (ω)}{\partial ω} & = \sum_{i = 1}^{N} (y_{i} - ω^{T} ϕ (x_{i})) ϕ (x_{i})^{T} = 0, \\ \sum_{i = 1}^{N} y_{i} ϕ^{T} (x_{i}) & = ω^{T} (\sum_{i = 1}^{N} ϕ (x_{i}) ϕ^{T} (x_{i})) \end{aligned}

如果我们记 design matrix $Φ$ 为：

Φ = (\begin{array}{cccc} ϕ_{0} (x_{1}) & ϕ_{1} (x_{1}) & \dots & ϕ_{M} (x_{1}) \\ ϕ_{0} (x_{2}) & ϕ_{1} (x_{2}) & \dots & ϕ_{M} (x_{2}) \\ ϕ_{0} (x_{N}) & ϕ_{1} (x_{N}) & \dots & ϕ_{M} (x_{N}) \end{array})

那么上面的带求和的式子就可以写为：

ω_{O L S} = (Φ^{T} Φ)^{- 1} Φ^{T} y

然而，由于 $Φ$ 很大的时候，其逆很难算。所以在适当时你应该使用 梯度下降。 当梯度下降时，你可以用这些cost function:

这里介绍四种非线性嵌入：

最后编辑于 3 个月前查看完整历史