学习

估算大模型需要多大的显存

估算大模型需要多大的显存 目前模型的参数绝大多数都是float32类型, 占用4个字节。所以一个粗略的计算方法就是,每10亿个参数,占用4G显存</
2023-10-15

知识图谱

知识图谱 知识图谱(Knowledge Graph)是一种结构化的语义知识库,它可以用来以图形的形式表达实体(事物)之间各种复杂的关系。知识图谱由节点(实体)和边(关系)组成,每个节点代表一个实体,而边则代表实体之间的某种联系或属性。 以下是知识图谱的几个主要特点: 实体:知识图谱中的基本单元,可以
2023-09-23

常见的机器算法原理及优缺点

常见的机器算法原理及优缺点 算法 基础原理 优点 缺点
2023-09-16

什么是无监督学习?

#什么是无监督学习? 顾名思义,“无监督”学习发生在没有监督者或老师并且学习者自己学习的情况下。 例如,考虑一个第一次看到并品尝到苹果的孩子。她记录了水果的颜色、质地、味道和气味。下次她看到一个苹果时,她就知道这个苹果和之前的苹果是相似的物体,因为它们具有非常相似的特征。她知道这和橙子很不一样。但是
2023-08-16

BERT 之无监督训练

BERT 之无监督训练 和 GPT 一样,BERT 也采用二段式训练方法: 第一阶段:使用易获取的大规模无标签余料,来训练基础语言模型; 第二阶段:根据指定任务的少量带标签训练数据进行微调训练。 不同于 GPT 等标准语言模型使用 P(wi|w1,⋯,wi−1)P(wi|w1,⋯,wi−1) 为目标
2023-05-27

embedding

embedding Embedding是一种将离散数据(如单词、图片、物品等)映射到连续向量空间的技术。在这个连续向量空间中,数据的相似性可以通过计算向量之间的距离来表示。以下是关于embedding的一些详细信息和用途: 什么是Embedding? 向量表示:Embedding将数据转换成固定长度
2023-05-24

微调

微调 微调(Fine-tuning): 微调是在预训练的基础上进行的,它是针对特定任务(如情感分析、问答、文本分类等)对模型进行进一步训练的过程。微调通常使用较少量的标注数据来完成,这些数据与特定任务直接相关。 微调阶段的关键点包括: 在预训练模型的基础上添加一个或多个输出层,以适应特定任务。 使用
2023-05-24

注意力机制(Attention Mechanism)

注意力机制(Attention Mechanism) 注意力机制(Attention Mechanism)是一种在深度学习中模拟人类视觉注意力的方法,它能够帮助模型集中于输入数据中最重要的部分,从而提高处理效率和准确性。注意力模型在自然语言处理(NLP)、图像识别和语音识别等多个领域都有广泛的应用。
2023-05-20

端到端模型指什么?

端到端模型指什么? 端到端的模式是什么意思?如何理解? 理解:端到端的模型本质是解决复杂问题的一种方法、思路。 端到端的模型解决问题的办法和非端到端模型解决复杂问题的区别 端到端 VS 流程化处理的区别 非端到端解决办法 在处理复杂任务的时候,倾向于将复杂任务拆解成多个子模块,分布的解决问题 比如:
2023-05-16

Lora微调(Lora Fine-tuning)

Lora微调(Lora Fine-tuning) LoRA(Low-Rank Adaptation)是一种用于大型预训练模型(如Transformer模型)的微调方法,旨在通过引入低秩矩阵来高效地适应特定任务,而不需要全面微调整个模型。这种方法在保持预训练模型大部分参数不变的同时,只对一小部分参数进
2023-05-04