AIGC

一、构建知识图谱(实体识别)

一、构建知识图谱(实体识别) 实体识别(Entity Recognition),也称为命名实体识别(Named Entity Recognition, NER),是知识图谱构建过程中的关键步骤之一。它的目的是从非结构化文本中识别出具有特定意义或指代性强的实体,如人名、地名、组织名、时间表达式等。以下
2024-05-01

在问答系统中知识图谱的应用

在问答系统中知识图谱的应用 在问答系统中使用知识图谱可以提高系统的回答准确性和丰富度。以下是使用知识图谱构建问答系统的一般步骤: 1. 知识图谱构建 在问答系统之前,首先需要构建知识图谱。这包括以下几个步骤: 数据收集:从各种数据源(如书籍、文章、数据库等)收集信息。 实体识别:从文本中识别出关键实
2024-04-30

RAG的一个坑之相似度不准

RAG的一个坑之相似度不准 Embedding相似度不准 问题: 希望命中的,往往不是相似度最高的那个匹配出来的结果,有时候预期中最LLM 生成的时候,都有 token上限 为了不超过上限,需要对匹配结果安照相似度选前 K个匹配结果 最终希望命中的那一个,没有成功进入入到LLM Prompt 里 解
2024-03-07

搭建并使用向量数据库

搭建并使用向量数据库 一、前序配置 本节重点为搭建并使用向量数据库,因此读取数据后我们省去数据处理的环节直入主题,数据清洗等步骤可以参考第三节 In [1]: import os from dotenv import load_dotenv, find_dotenv # 读取本地/项目的环境变量。
2024-02-13

数据处理

数据处理 为构建我们的本地知识库,我们需要对以多种类型存储的本地文档进行处理,读取本地文档并通过前文描述的 Embedding 方法将本地文档的内容转化为词向量来构建向量数据库。在本节中,我们以一些实际示例入手,来讲解如何对本地文档进行处理。 一、源文档选取 我们选用 Datawhale 一些经典开
2024-01-16

向量及向量知识库

向量及向量知识库 一、词向量与向量 1. 什么是词向量 在机器学习和自然语言处理(NLP)中,词向量(word emb
2024-01-13

项目问题

面试问题? 为什么选择 chatGLM 6B 作为模型? 首先,模型规模相对较小,但它在训练时可能专注于对话和文本生成的特定领域,因此在这些领域可能更为高效和精准。 其次,采用了GLM模型结构,这种结构在处理中文文本时可能更具优势,尤其是在处理成语、俗语和复杂语言结构方面。 在快速响应和特定领域任务
2023-12-27