Transformer 中的前馈神经网络

学习

81

0

0

2023-03-28

Transformer 中的前馈神经网络

在Transformer模型中，前馈神经网络（Feed-Forward Neural Network，FFN）是模型架构的关键组成部分之一，它通常位于每个自注意力层（self-attention layer）之后。以下是前馈神经网络在Transformer模型中的具体实现和作用：

结构

前馈神经网络在Transformer中是一个简单的全连接神经网络，对于每个输入位置，它独立地应用相同的网络。这意味着每个token都会通过一个相同结构的前馈网络，但参数是共享的。

前馈神经网络通常由两个线性变换组成，中间有一个ReLU（Rectified Linear Unit）激活函数或其它非线性的激活函数。其结构可以描述为：

第一个线性变换：将输入向量从维度dmodeldmodel映射到一个更大的维度dffdff（通常是dmodeldmodel的4倍）。
FFNin=W1x+b1FFNin=W1x+b1
其中，W1W1是权重矩阵，b1b1是偏置向量，xx是输入向量。
ReLU激活函数：对第一个线性变换的输出应用ReLU激活函数。
FFNrelu=max⁡(0,FFNin)FFNrelu=max(0,FFNin)
第二个线性变换：将ReLU激活后的向量从维度dffdff映射回原始维度dmodeldmodel。
FFNout=W2FFNrelu+b2FFNout=W2FFNrelu+b2
其中，W2W2是另一个权重矩阵，b2b2是相应的偏置向量。

作用

前馈神经网络在Transformer中的作用包括：

非线性变换：自注意力层输出的是一个线性组合，前馈网络通过引入非线性激活函数（如ReLU），增加了模型的非线性能力，使其能够学习更复杂的函数。
参数和计算分离：由于前馈网络在所有位置上都是独立作用的，因此它可以并行计算，这有助于提高计算效率。
表达能力增强：通过增加隐藏层的大小（dffdff），前馈网络能够捕捉到输入序列中更复杂的特征和模式。

在Transformer中的位置

在标准的Transformer模型中，前馈神经网络位于每个编码器（Encoder）和解码器（Decoder）层中的自注意力层之后。每个自注意力层处理完输入序列后，其输出将作为前馈神经网络的输入，经过前馈网络处理后，再传递给下一个自注意力层或模型的其它部分。

#深度学习 ⁴⁰

为什么 Decoder 需要做 Mask

Transformer 输出结果