← 返回列表

大语言模型训练方法、装置、电子设备和计算机可读介质

申请号: CN202311605055.0
申请人: 中关村科学城城市大脑股份有限公司
申请日期: 2023/11/28

摘要文本

本公开的实施例公开了大语言模型训练方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取初始大语言模型和无标注文本信息集;对无标注文本信息集进行去重处理;对去重后文本信息集中的各个去重后文本信息进行质量过滤处理;对于过滤后文本信息集中的每个过滤后文本信息,执行如下处理步骤:对过滤后文本信息进行领域分类处理,以生成分类后文本信息;获取通用文本信息;将通用文本信息和分类后文本信息进行合并处理;根据所生成的各个训练文本信息,对初始大语言模型进行训练。该实施方式减少了对大语言模型训练的时间,避免了训练资源的浪费,提高了训练效率,并且提升了大语言模型在某一领域的表现效果。

专利详细信息

项目 内容
专利名称 大语言模型训练方法、装置、电子设备和计算机可读介质
专利类型 发明申请
申请号 CN202311605055.0
申请日 2023/11/28
公告号 CN117540021A
公开日 2024/2/9
IPC主分类号 G06F16/35
权利人 中关村科学城城市大脑股份有限公司
发明人 张聪聪; 郭宝松; 孙华东; 韩文博; 马亚中
地址 北京市海淀区中关村南大街5号1区689号楼海淀科技大厦6层

专利主权项内容

1.一种大语言模型训练方法,包括:获取初始大语言模型和无标注文本信息集;对所述无标注文本信息集进行去重处理,以生成去重后文本信息集;对所述去重后文本信息集中的各个去重后文本信息进行质量过滤处理,以生成过滤后文本信息集;对于所述过滤后文本信息集中的每个过滤后文本信息,执行如下处理步骤:对所述过滤后文本信息进行领域分类处理,以生成分类后文本信息,其中,所述分类后文本信息对应有领域信息;获取通用文本信息;将所述通用文本信息和所述分类后文本信息进行合并处理,以生成合并后文本信息作为训练文本信息;根据所生成的各个训练文本信息,对所述初始大语言模型进行训练。 来自马-克-数-据