结合大语言模型的训练样本构建方法、系统、设备及介质

申请号: CN202410238783.0

申请人: 国网山东省电力公司信息通信公司; 国网山东省电力公司

申请日期: 2024/3/4

摘要文本

本发明属于大数据技术领域，为了解决问法训练样本数据少的问题，提出了结合大语言模型的训练样本构建方法、系统、设备及介质，通过利用所获取的库表结构化知识数据构建Prompt模板，所述Prompt模板中库表结构和库表中知识数据相对应；根据所构建的Prompt模板，基于第一大语言模型得到包含问法和查询意图的推理结果；对所得到的推理结果构建扩充问法清单，并对所述扩充问法清单基于第二大语言模型获取问句中关键信息的预标注结果；将所述扩充问法清单以及对应的预标注结果作为问法训练数据用于训练问答模型，帮助在模板生成SQL方案中解决问法训练数据不足，以及扩充问法标注耗时导致方案可实施性降低的难题。

申请人信息

申请人:国网山东省电力公司信息通信公司; 国网山东省电力公司
申请人地址:250000 山东省济南市市中区经三路17号
发明人: 国网山东省电力公司信息通信公司; 国网山东省电力公司

专利详细信息

项目	内容
专利名称	结合大语言模型的训练样本构建方法、系统、设备及介质
专利类型	发明申请
申请号	CN202410238783.0
申请日	2024/3/4
公告号	CN117827847A
公开日	2024/4/5
IPC主分类号	G06F16/22
权利人	国网山东省电力公司信息通信公司; 国网山东省电力公司
发明人	孙岗; 梁云丹; 严莉; 黄怡; 赵鹏; 曲延盛; 朱朝阳; 常英贤; 王高洲; 呼海林; 朱亚运; 杨坤; 牛德玲; 刘新; 樊静雨; 胡恒瑞; 管荑; 梁天; 王中龙; 朱尤祥; 肖沈阳; 张金国; 王雨晨; 刘保臣; 胡斌浩
地址	山东省济南市市中区经三路17号; 山东省济南市市中区经二路150号

专利主权项内容

1.一种结合大语言模型的训练样本构建方法，其特征在于，包括：获取场景问答对应的库表结构化知识数据；利用所获取的库表结构化知识数据构建Prompt模板，所述Prompt模板中库表结构和库表中知识数据相对应；根据所构建的Prompt模板，基于第一大语言模型得到包含问法和查询意图的推理结果；对所得到的推理结果构建扩充问法清单，并对所述扩充问法清单基于第二大语言模型获取问句中关键信息的预标注结果；将所述扩充问法清单以及对应的预标注结果作为问法训练数据用于训练问答模型。

结合大语言模型的训练样本构建方法、系统、设备及介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

结合大语言模型的训练样本构建方法、系统、设备及介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种粉煤灰砖块运输装置

一种桥梁支座调节机构

天然气管道安装辅助装置

一种自卸式半挂车

一种双红一紫火灾爆炸二合一火焰探测器

含气量自动解吸装置

热门技术领域

快速入口

专利技术资料