基于知识图谱和知识库的大模型对话系统(一)

40
0
0
2024-05-08

基于知识图谱和知识库的大模型对话系统(一)

数据预处理

data_process.png

  1. 文本提取:首先从原始扫描版PDF文件开始,通过OCR(光学字符识别)技术将其转换为可编辑的粗粒度文本格式。这一步是必要的,因为直接处理扫描版的PDF文件会面临许多问题,如无法进行有效的搜索、复制或进一步的数据分析等。

  2. 数据分析:对提取出的粗粒度文本进行分析,以评估其质量是否符合要求。这个步骤可能包括检查文本的完整性、准确性以及是否包含了所有必要的信息等方面。

  3. 质量评估:根据数据分析的结果,判断文本的质量是否合格。如果不合格,则需要对其进行修正;如果合格,则可以直接进入下一步骤——数据清洗。

  4. 文本纠正:对于不合格的文本,需要进行人工干预或利用特定的算法进行修正。这可能涉及更正错别字、调整格式、补充缺失的内容等操作,以确保最终得到的文本准确无误且符合标准。

  5. 数据清洗:在文本经过修正后,还需要对其进行进一步的清洗和处理。这通常包括去除重复项、异常值以及其他不符合规范的数据点,以提高数据的整体质量和可靠性。

  6. 输出结果:最后,将清洗后的文本保存为文本数据格式,以便后续的使用和分析。