深度学习

BERT 之输入表示

BERT 之输入表示 BERT的输入序列构造如下: [CLS] Token: 输入序列的开始是一个特殊的分类token([CLS]),其最终的隐藏状态被用作分类任务的聚合序列表示。 Token Embeddings: 接下来是句子中每个token的WordPiece tokenization结果。
2023-04-13

BERT之语言掩码模型(MLM)

BERT之语言掩码模型(MLM) BERT 作者认为,使用自左向右编码和自右向左编码的单向编码器拼接而成的双向编码器,在性能、参数规模和效率等方面,都不如直接使用深度双向编码器强大,这也是为什么 BERT 使用 Transformer Encoder 作为特征提取器,而不使用自左向右编码和自右向左编
2023-04-05

BERT 的结构:强大的特征提取能力

BERT 的结构:强大的特征提取能力 如下图所示,我们来看看 ELMo、GPT 和 BERT 三者的区别 ELMo 使用自左向右编码和自右向左编码的两个 LST
2023-04-05

为什么 Encoder 给予 Decoders 的是 K、V 矩阵

为什么 Encoder 给予 Decoders 的是 K、V 矩阵 我们在讲解 Attention 机制中曾提到,Query 的目的是借助它从一堆信息中找到重要的信息。 现在 Encoder 提供了 Ke、VeKe、Ve 矩阵,Decoder 提供了 QdQd 矩阵,通过 “我爱中国” 翻译为 “I
2023-03-31

为什么 Decoder 需要做 Mask

为什么 Decoder 需要做 Mask 训练阶段:我们知道 “je suis etudiant” 的翻译结果为 “I am a student”,我们把 “I am a student” 的 Embedding 输入到 Decoders 里面,翻译第一个词 “I” 时 如果对 “I am a st
2023-03-29

Transformer 中的前馈神经网络

Transformer 中的前馈神经网络 在Transformer模型中,前馈神经网络(Feed-Forward Neural Network,FFN)是模型架构的关键组成部分之一,它通常位于每个自注意力层(self-attention layer)之后。以下是前馈神经网络在Transformer模
2023-03-28

Transformer 输出结果

Transformer 输出结果 以上,就讲完了 Transformer 编码和解码两大模块,那么我们回归最初的问题,将 “机器学习” 翻译成 “machine learing”,解码器的输出是一个浮点型的向量,怎么转化成 “machine learing” 这两个词呢?让我们来看看 Encoder
2023-03-26

Encoder

Encoder Encoder 有了上述那么多知识的铺垫,我们知道 Eecoders 是 N
2023-03-22

Self Attention

Self Attention Self-Attention(自注意力)是一种在序列任务处理中广泛使用的机制,尤其是在自然语言处理(NLP)领域。它是Transformer模型的核心组成部分,能够让模型在处理序列数据时自动捕捉到序列内部的长距离依赖关系。以下是Self-Attention的基本概念和工
2023-03-17

Transformer

Transformer Transformer架构是一种深度学习模型,它在2017年由Google的研究者提出,并在自然语言处理(NLP)领域取得了重大突破。下面我会尽量用简单的话来解释Transformer的构架。 上图所示的整体框架乍一眼一看非常复杂,由于 Transformer 起初是作为翻译
2023-03-08