项目问题
面试问题?
为什么选择 chatGLM 6B 作为模型?
首先,模型规模相对较小,但它在训练时可能专注于对话和文本生成的特定领域,因此在这些领域可能更为高效和精准。
其次,采用了GLM模型结构,这种结构在处理中文文本时可能更具优势,尤其是在处理成语、俗语和复杂语言结构方面。
在快速响应和特定领域任务上可能更具优势,更加高效,更适合用于客服机器人、虚拟助手、内容创作等交互式应用。
讲下知识图谱? 知识图谱的作用? 怎么构建的? 你的模型对比过了嘛? 准确率多少? 用了哪些评价指标
知识图谱是一种结构化的语义知识库,它以图形的形式存储关于实体、概念及其之间关系的信息。知识图谱通常由节点(实体)和边(关系)组成,其中节点代表实体(如人、地点、物品等),边代表实体之间的各种关系(如“属于”、“位于”、“创造”等)。
知识图谱的构建
知识图谱的构建通常包括以下几个步骤:
数据采集:从各种数据源(如文本、数据库、网页等)收集数据。
数据预处理:清洗数据,去除噪声,统一实体名称等。
实体识别与链接:识别文本中的实体,并将它们与知识库中的相应实体链接起来。
关系抽取:从数据中提取实体之间的关系。
知识融合:整合来自不同来源的知识,解决实体和关系的冲突和冗余。
存储与查询:将构建好的知识图谱存储在图数据库中,并提供查询接口。
spn4RE 模型? 信息抽取?
用pandas做什么? 怎么做
Pandas 是一个强大的 Python 数据分析库,主要用于数据处理和数据分析。
数据导入和导出
导入数据:
读取 CSV 文件:
pd.read_csv('file.csv')
读取 Excel 文件:
pd.read_excel('file.xlsx')
读取 SQL 数据库:
pd.read_sql(query, connection_object)
导出数据:
导出到 CSV 文件:
df.to_csv('file.csv', index=False)
导出到 Excel 文件:
df.to_excel('file.xlsx', index=False)
数据清洗
删除缺失值:
df.dropna()
填充缺失值:
df.fillna(value)
删除重复行:
df.drop_duplicates()
重命名列名:
df.rename(columns={'old_name': 'new_name'})
深度学习中的批次
在深度学习中,“批次”(Batch)是一个核心概念,它指的是在训练过程中同时输入到神经网络中的样本集合。以下是关于批次的一些详细信息:
批次(Batch)的定义:
批次:在单次迭代中,同时通过神经网络前向传播和反向传播的样本集合。
批次大小(Batch Size):一个批次中包含的样本数量。
Epoch 的定义:
Epoch:模型在训练过程中对整个训练数据集进行一次完整的遍历和训练。
Epoch 的作用:
学习过程:每个 epoch 都代表了模型学习过程中的一个周期,模型通过这个周期对数据进行学习并更新权重。
性能衡量:通常在每个 epoch 结束后,会使用验证集来评估模型的性能,以监控训练进度和避免过拟合。
Epoch 与 Batch 的关系:
一个 epoch 包含多个 batch 的训练。
Batch size 决定了每个批次中样本的数量,而 epoch 决定了模型对整个数据集的遍历次数。
在深度学习实践中,通常会设置一个足够大的 epoch 数量来训练模型,但实际的训练过程可能会通过早停(early stopping)策略来提前终止,以防止过拟合并节省计算资源。早停策略通常是基于验证集的性能来决定的。
你怎么加快训练的过程?如果数据集很大的话。
GLM模型架构