文本指令数据生成方法、装置、电子设备及存储介质
摘要文本
本发明涉及人工智能技术领域,本发明提供一种文本指令数据生成方法、装置、电子设备及存储介质,所述方法包括:获取待处理语言任务数据,其中,待处理语言任务数据包括问题、多模态指示信息以及回复,回复基于问题和多模态指示信息共同确定,回复为具有预设字数且具有噪声的回复答案;将问题、多模态指示信息以及回复输入至语言改写模型,得到语言改写模型输出的与回复对应的去噪后回复,其中,语言改写模型通过训练得到,去噪后回复不具有噪声且采用自然语言表达方式进行表述;基于去噪后回复、问题和多模态指示信息得到文本指令数据,实现了自动、准确、低成本生成文本指令数据。
申请人信息
- 申请人:北京红棉小冰科技有限公司
- 申请人地址:100080 北京市海淀区北四环西路67号6层608房间
- 发明人: 北京红棉小冰科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 文本指令数据生成方法、装置、电子设备及存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311633399.2 |
| 申请日 | 2023/12/1 |
| 公告号 | CN117332860B |
| 公开日 | 2024/3/19 |
| IPC主分类号 | G06N5/04 |
| 权利人 | 北京红棉小冰科技有限公司 |
| 发明人 | 刘剑锋; 陈德龙; 王宝元 |
| 地址 | 北京市海淀区北四环西路67号6层608房间 |
专利主权项内容
1.一种文本指令数据生成方法,其特征在于,所述方法包括:获取待处理语言任务数据,其中,所述待处理语言任务数据包括问题、多模态指示信息以及回复,所述回复基于所述问题和所述多模态指示信息共同确定,所述回复为具有预设字数且具有噪声的回复答案,所述预设字数小于或等于字数阈值;将所述问题、所述多模态指示信息以及所述回复输入至语言改写模型,得到所述语言改写模型输出的与所述回复对应的去噪后回复,其中,所述语言改写模型通过训练得到,所述去噪后回复不具有噪声且采用自然语言表达方式进行表述;基于所述去噪后回复、所述问题和所述多模态指示信息,得到文本指令数据,以使经过所述文本指令数据训练后的语言模型能够以自然语言表述方式与用户进行互动,其中,所述语言改写模型采用以下方式训练得到:获取参考文本指令数据,其中,所述参考文本指令数据包括参考问题、参考多模态指示信息以及参考回复,其中,所述参考回复基于所述参考问题和参考多模态指示信息共同确定,所述参考回复不具有噪声且采用自然语言表达方式进行表述;对所述参考回复进行加噪处理,得到与所述参考回复对应的加噪后回复,其中,所述加噪后回复为具有预设字数且具有噪声的回复答案,所述预设字数小于或等于字数阈值;基于所述加噪后回复、所述参考回复、所述参考问题,以及所述参考多模态指示信息,构建语言改写模型训练集;基于所述语言改写模型训练集对语言改写模型进行训练,得到训练后语言改写模型。