MaXiaoTiao
Always like this.
Home
Archives
Categories
Label
Moments
Photos
Link
About
学习
默认分类
随笔
学习
生活
旅行
工作
Self Attention
Self Attention Self-Attention(自注意力)是一种在序列任务处理中广泛使用的机制,尤其是在自然语言处理(NLP)领域。它是Transformer模型的核心组成部分,能够让模型在处理序列数据时自动捕捉到序列内部的长距离依赖关系。以下是Self-Attention的基本概念和工
学习
2023-03-17
88.合并两个有序数组
88.合并两个有序数组 给定两个按非递减顺序排列的整数数组 nums1 和 nums2,其中 nums1 有足够的空间容纳 nums2 的元素。请你将 nums2 合并到 nums1 中,使得合并后的数组同样按非递减顺序排列。 注意: 最终,合并后数组不应由函数返回,而是存储在数组 nums1 中。
学习
2023-03-13
Transformer
Transformer Transformer架构是一种深度学习模型,它在2017年由Google的研究者提出,并在自然语言处理(NLP)领域取得了重大突破。下面我会尽量用简单的话来解释Transformer的构架。 上图所示的整体框架乍一眼一看非常复杂,由于 Transformer 起初是作为翻译
学习
2023-03-08
位置编码
位置编码 位置编码(Positional Encoding)是Transformer模型中用来引入序列中词语位置信息的一种技术。由于Transformer模型本身不包含循环神经网络的递归结构或卷积神经网络的层次结构,因此它本身无法捕捉到序列数据中的顺序信息。位置编码就是为了解决这个问题而设计的。 位
学习
2023-03-03
Position Embedding
Position Embedding Position Embedding 是一种在序列模型中引入位置信息的方法,特别是在 Transformer 模型中,因为它不像传统的循环神经网络(RNN)或卷积神经网络(CNN)那样天然具有对序列位置的感知能力。Position Embedding 的目的是给
学习
2023-03-02
Multi-head Self Attention
Multi-head Self Attention Multi-head Self-Attention 是 Transformer 架构中的一个核心组成部分,它允许模型在不同的表示子空间中并行地学习信息,这有助于捕获输入序列中的复杂关系。以下是 Multi-head Self-Attention 的
学习
2023-03-01
Masked Self Attention
Masked Self Attention Masked Self-Attention,即掩码自注意力,是一种在Transformer模型中使用的自注意力机制的变体。它的主要目的是在训练过程中防止模型看到未来的信息,这在处理序列数据时非常重要,尤其是在语言模型中,我们希望模型在预测下一个词时只能依赖
学习
2023-02-24
Self Attention 和 RNN、LSTM 的区别
Self Attention 和 RNN、LSTM 的区别 Self-Attention(自注意力)和RNN(循环神经网络)、LSTM(长短期记忆网络)是不同的神经网络架构,它们在处理序列数据时有着各自的特点和优势。以下是它们之间的主要区别: 1. 结构和复杂性 RNN和LSTM: RNN和LSTM
学习
2023-02-22
Attention
Attention 注意力机制的本质思想 注意力机制模拟了人类视觉系统的工作方式,即能够在大量的信息中聚焦于某些重要的部分,而忽略其他不重要的部分。在机器学习领域,这意味着模型能够在处理输入数据时,根据当前的任务需求,更加关注某些关键的信息。 注意力机制的作用 解决长距离依赖问题:与LSTM相比,注
学习
2023-02-10
LSTM(Long Short-Term Memory,长短期记忆网络)
LSTM(Long Short-Term Memory,长短期记忆网络) STM(长短期记忆网络)是一种特殊的循环神经网络(RNN),它通过特殊的网络结构设计来有效地解决传统RNN在处理长序列数据时遇到的梯度消失和梯度爆炸问题。以下是LSTM的工作原理的详细解释: 1. 循环神经网络的问题 在传统的
学习
2023-02-08
上一页
下一页