Neural Network and Backpropagation

标签

NLP

字数

333 字

阅读时间

2 分钟

比较基础，只是挑一些比较有意思的拿出来看看。

Activation Function

仍然使用logistic和tanh 然而最先使用的肯定是ReLU，然而，由于ReLU有个负dead zone，所以有Swish和GELU可以用 GELU/Swish经常在BERT，RoBERTa中用

首先我们定义一下Jacobian矩阵。其实就是偏导大矩阵。矩阵形状是 m * n, 函数数 by 变量数

f (x) = [f_{1} (x_{1}, x_{2}, . . ., x_{n}), . . ., f_{m} (x_{1}, x_{2}, . . ., x_{n})]

\frac{\partial f}{\partial x} = [\begin{matrix} \frac{\partial f_{1}}{\partial x_{1}} & \dots & \frac{\partial f_{1}}{\partial x_{n}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial f_{m}}{\partial x_{1}} & \dots & \frac{\partial f_{m}}{\partial x_{n}} \end{matrix}]

我们来一个简单的例子来说明为什么有形状问题。

这个例子中，w的梯度这么算：

\frac{\partial s}{\partial W} = \frac{\partial s}{\partial h} \frac{\partial h}{\partial z} \frac{\partial z}{\partial W}

这么算出来，s/w梯度是 1 by nm，而W是n by m，所以我们还得reshape 所以计算的时候，你可以一直用jacobian算，算到最后reshape，也可以边算变整形。

最后编辑于 3 个月前查看完整历史