项目问题

25
0
0
2023-12-27

面试问题?

为什么选择 chatGLM 6B 作为模型?

  • 首先,模型规模相对较小,但它在训练时可能专注于对话和文本生成的特定领域,因此在这些领域可能更为高效和精准。

  • 其次,采用了GLM模型结构,这种结构在处理中文文本时可能更具优势,尤其是在处理成语、俗语和复杂语言结构方面。

  • 在快速响应和特定领域任务上可能更具优势,更加高效,更适合用于客服机器人、虚拟助手、内容创作等交互式应用。

讲下知识图谱? 知识图谱的作用? 怎么构建的? 你的模型对比过了嘛? 准确率多少? 用了哪些评价指标

知识图谱是一种结构化的语义知识库,它以图形的形式存储关于实体、概念及其之间关系的信息。知识图谱通常由节点(实体)和边(关系)组成,其中节点代表实体(如人、地点、物品等),边代表实体之间的各种关系(如“属于”、“位于”、“创造”等)。

知识图谱的构建

知识图谱的构建通常包括以下几个步骤:

  1. 数据采集:从各种数据源(如文本、数据库、网页等)收集数据。

  2. 数据预处理:清洗数据,去除噪声,统一实体名称等。

  3. 实体识别与链接:识别文本中的实体,并将它们与知识库中的相应实体链接起来。

  4. 关系抽取:从数据中提取实体之间的关系。

  5. 知识融合:整合来自不同来源的知识,解决实体和关系的冲突和冗余。

  6. 存储与查询:将构建好的知识图谱存储在图数据库中,并提供查询接口。

spn4RE 模型? 信息抽取?

用pandas做什么? 怎么做

Pandas 是一个强大的 Python 数据分析库,主要用于数据处理和数据分析。

数据导入和导出

  • 导入数据

    • 读取 CSV 文件:pd.read_csv('file.csv')

    • 读取 Excel 文件:pd.read_excel('file.xlsx')

    • 读取 SQL 数据库:pd.read_sql(query, connection_object)

  • 导出数据

    • 导出到 CSV 文件:df.to_csv('file.csv', index=False)

    • 导出到 Excel 文件:df.to_excel('file.xlsx', index=False)

数据清洗

  • 删除缺失值:df.dropna()

  • 填充缺失值:df.fillna(value)

  • 删除重复行:df.drop_duplicates()

  • 重命名列名:df.rename(columns={'old_name': 'new_name'})

深度学习中的批次

在深度学习中,“批次”(Batch)是一个核心概念,它指的是在训练过程中同时输入到神经网络中的样本集合。以下是关于批次的一些详细信息:

批次(Batch)的定义:

  • 批次:在单次迭代中,同时通过神经网络前向传播和反向传播的样本集合。

  • 批次大小(Batch Size):一个批次中包含的样本数量。

Epoch 的定义:

  • Epoch:模型在训练过程中对整个训练数据集进行一次完整的遍历和训练。

Epoch 的作用:

  1. 学习过程:每个 epoch 都代表了模型学习过程中的一个周期,模型通过这个周期对数据进行学习并更新权重。

  2. 性能衡量:通常在每个 epoch 结束后,会使用验证集来评估模型的性能,以监控训练进度和避免过拟合。

Epoch 与 Batch 的关系:

  • 一个 epoch 包含多个 batch 的训练。

  • Batch size 决定了每个批次中样本的数量,而 epoch 决定了模型对整个数据集的遍历次数。

在深度学习实践中,通常会设置一个足够大的 epoch 数量来训练模型,但实际的训练过程可能会通过早停(early stopping)策略来提前终止,以防止过拟合并节省计算资源。早停策略通常是基于验证集的性能来决定的。

你怎么加快训练的过程?如果数据集很大的话。

  1. GLM模型架构