Self Attention

30
0
0
2023-03-17

Self Attention

Self-Attention(自注意力)是一种在序列任务处理中广泛使用的机制,尤其是在自然语言处理(NLP)领域。它是Transformer模型的核心组成部分,能够让模型在处理序列数据时自动捕捉到序列内部的长距离依赖关系。以下是Self-Attention的基本概念和工作原理:

基本概念

Self-Attention,也称为内部注意力(intra-attention),是一种注意力机制,它允许模型中的每个位置都能够同时关注序列中的所有其他位置,并对其进行加权表示。

工作原理

Self-Attention的核心思想可以概括为以下几个步骤:

  1. 查询(Query)、键(Key)和值(Value)的计算

    • 对于序列中的每个元素(例如,一个句子中的每个单词),我们通过三个不同的线性变换得到它的Query(Q)、Key(K)和Value(V)表示。这三个变换分别由可学习的权重矩阵W_Q、W_K和W_V实现。

  2. 计算注意力得分

    • 对于序列中的任意两个元素i和j,我们计算它们的Query Q_i 和 Key K_j 的点乘,得到一个注意力得分(attention score),表示元素i对元素j的关注程度。

    • 计算公式为:Score(i, j) = Q_i · K_j / d_k,其中d_k是Key向量的维度,通常进行缩放以防止梯度消失。

  3. 应用Softmax函数

    • 为了使注意力得分能够被解释为概率分布,我们对所有得分应用Softmax函数。

    • Softmax公式为:α(i, j) = exp(Score(i, j)) / Σ(exp(Score(i, _)))

  4. 计算加权的Value

    • 使用Softmax得到的概率分布α(i, j)对Value向量V_j进行加权求和,得到加权后的Value表示。

    • 计算公式为:Weighted Value(i) = Σ(α(i, j) * V_j)

  5. 输出

    • 最终,Self-Attention的输出是所有元素加权Value的集合,这些输出可以进一步被用于构建序列的表示。

优点

  • 并行计算:Self-Attention允许序列中的所有元素同时进行计算,这有助于提高计算效率。

  • 长距离依赖:它可以捕捉序列中任意两个位置之间的依赖关系,而不受它们之间距离的限制。

  • 参数共享:在处理不同位置时,Self-Attention使用相同的权重矩阵,这减少了模型的参数数量。

怎么将单词转化为Q K V?

将单词转化为Query(Q)、Key(K)和Value(V)表示涉及到以下几个步骤:

1. 词嵌入(Word Embedding)

首先,每个单词需要被转换成一个固定大小的向量,这个过程称为词嵌入。词嵌入可以通过预训练的词向量(如Word2Vec、GloVe)或者通过模型训练过程中的学习得到。

2. 线性变换

一旦我们有了词嵌入向量,我们就可以通过三个不同的线性变换来得到Query、Key和Value向量。这些线性变换是通过权重矩阵实现的,具体步骤如下:

a. 初始化权重矩阵

我们为Query、Key和Value分别初始化三个权重矩阵W_Q、W_K和W_V。这些矩阵的维度通常是d_model × d_embedding,其中d_model是输出的维度(即Q、K、V向量的维度),d_embedding是输入词嵌入的维度。

b. 应用线性变换

对于序列中的每个单词,其词嵌入向量与权重矩阵相乘,得到对应的Q、K、V向量。具体计算如下:

  • Query向量:Q = W_Q × Embedding

  • Key向量:K = W_K × Embedding

  • Value向量:V = W_V × Embedding

这里的"×"表示矩阵乘法。每个单词的词嵌入向量与W_Q、W_K和W_V分别相乘,得到该单词的Q、K、V向量。

3. 示例

假设我们有一个单词的词嵌入向量是[embedding],维度为d_embedding × 1,我们的权重矩阵是W_Q、W_K和W_V,维度分别为d_model × d_embedding。那么计算过程如下:

  • Q = W_Q × [embedding]

  • K = W_K × [embedding]

  • V = W_V × [embedding]

每个单词都会通过这种方式转换成一组Q、K、V向量,这些向量随后将被用于Self-Attention的计算。