MaXiaoTiao
Always like this.
Home
Archives
Categories
Label
Moments
Photos
Link
About
学习
默认分类
随笔
学习
生活
旅行
工作
随机森林和Bagging算法区别
随机森林和Bagging算法区别 随机森林(Random Forest)和Bagging(Bootstrap Aggregating)算法都是机器学习中用于提高模型稳定性和准确率的集成学习方法,但它们之间存在一些区别: Bagging算法: 基础概念:Bagging是一种通过对原始数据集进行多次重采
学习
2023-05-01
BERT 之下句预测(NSP)
BERT 之下句预测(NSP) 下一句预测(Next Sentence Prediction,NSP)是 BERT(Bidirectional Encoder Representations from Transformers)预训练过程中的第二个任务,旨在帮助模型理解句子之间的关系。 工作原理 数
学习
2023-04-14
BERT 之输入表示
BERT 之输入表示 BERT的输入序列构造如下: [CLS] Token: 输入序列的开始是一个特殊的分类token([CLS]),其最终的隐藏状态被用作分类任务的聚合序列表示。 Token Embeddings: 接下来是句子中每个token的WordPiece tokenization结果。
学习
2023-04-13
BERT之语言掩码模型(MLM)
BERT之语言掩码模型(MLM) BERT 作者认为,使用自左向右编码和自右向左编码的单向编码器拼接而成的双向编码器,在性能、参数规模和效率等方面,都不如直接使用深度双向编码器强大,这也是为什么 BERT 使用 Transformer Encoder 作为特征提取器,而不使用自左向右编码和自右向左编
学习
2023-04-05
BERT 的结构:强大的特征提取能力
BERT 的结构:强大的特征提取能力 如下图所示,我们来看看 ELMo、GPT 和 BERT 三者的区别 ELMo 使用自左向右编码和自右向左编码的两个 LST
学习
2023-04-05
为什么 Encoder 给予 Decoders 的是 K、V 矩阵
为什么 Encoder 给予 Decoders 的是 K、V 矩阵 我们在讲解 Attention 机制中曾提到,Query 的目的是借助它从一堆信息中找到重要的信息。 现在 Encoder 提供了 Ke、VeKe、Ve 矩阵,Decoder 提供了 QdQd 矩阵,通过 “我爱中国” 翻译为 “I
学习
2023-03-31
为什么 Decoder 需要做 Mask
为什么 Decoder 需要做 Mask 训练阶段:我们知道 “je suis etudiant” 的翻译结果为 “I am a student”,我们把 “I am a student” 的 Embedding 输入到 Decoders 里面,翻译第一个词 “I” 时 如果对 “I am a st
学习
2023-03-29
Transformer 中的前馈神经网络
Transformer 中的前馈神经网络 在Transformer模型中,前馈神经网络(Feed-Forward Neural Network,FFN)是模型架构的关键组成部分之一,它通常位于每个自注意力层(self-attention layer)之后。以下是前馈神经网络在Transformer模
学习
2023-03-28
Transformer 输出结果
Transformer 输出结果 以上,就讲完了 Transformer 编码和解码两大模块,那么我们回归最初的问题,将 “机器学习” 翻译成 “machine learing”,解码器的输出是一个浮点型的向量,怎么转化成 “machine learing” 这两个词呢?让我们来看看 Encoder
学习
2023-03-26
Encoder
Encoder Encoder 有了上述那么多知识的铺垫,我们知道 Eecoders 是 N
学习
2023-03-22
上一页
下一页