最新文章

RAG的一个坑之相似度不准

RAG的一个坑之相似度不准 Embedding相似度不准 问题: 希望命中的,往往不是相似度最高的那个匹配出来的结果,有时候预期中最LLM 生成的时候,都有 token上限 为了不超过上限,需要对匹配结果安照相似度选前 K个匹配结果 最终希望命中的那一个,没有成功进入入到LLM Prompt 里 解
2024-03-07

Docker

Docker Docker是什么? Docker 是一个开源的应用容器引擎,它允许开发者打包他们的应用以及应用的依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app)而且更轻量级。 Do
2024-03-06

RAG 效果评估

RAG 效果评估 RAG模块拆分 代入产品经理需求沟通的视角回顾下: 改写(Query Rewriting):优化查询以便更好地与检索系统交互。机器人也需要做需求分析,改写约等于产品经理的需求分析,让你更好的理解用户的需求,需要做背景调研等工作。 检索(Retrieval):从一个大型的文档集合中找
2024-03-06

自己在做RAG项目时,遇到的问题

自己在做RAG项目时,遇到的问题 文档的读取和处理 (PDF PPT EXCEL等各种格式的文档) 如何把文档合理的分割成不同的 chunks 段落 如何合理的 embedding 向量化 ,使用什么样的向量数据库 对问题做一个扩充或重新改写(用户问题比较简段或与上下文
2024-02-17

搭建并使用向量数据库

搭建并使用向量数据库 一、前序配置 本节重点为搭建并使用向量数据库,因此读取数据后我们省去数据处理的环节直入主题,数据清洗等步骤可以参考第三节 In [1]: import os from dotenv import load_dotenv, find_dotenv # 读取本地/项目的环境变量。
2024-02-13

数据处理

数据处理 为构建我们的本地知识库,我们需要对以多种类型存储的本地文档进行处理,读取本地文档并通过前文描述的 Embedding 方法将本地文档的内容转化为词向量来构建向量数据库。在本节中,我们以一些实际示例入手,来讲解如何对本地文档进行处理。 一、源文档选取 我们选用 Datawhale 一些经典开
2024-01-16

向量及向量知识库

向量及向量知识库 一、词向量与向量 1. 什么是词向量 在机器学习和自然语言处理(NLP)中,词向量(word emb
2024-01-13