← 返回列表

医疗大语言模型的训练及推理的方法、装置、设备及介质

申请号: CN202311548939.7
申请人: 北京壹永科技有限公司
申请日期: 2023/11/20

摘要文本

本发明提供了医疗大语言模型的训练及推理的方法、装置、设备及介质。该训练方法包括获取医疗文本数据;基于正则表达式来提取医疗文本数据中的关键词,其中关键词被分类为一个或多个主题;基于关键词对医学知识库进行索引以获得相关联医学知识,其中相关联医学知识根据关键词所属的主题被分类成相关联医学知识集合;对医疗文本数据与相关联医学知识集合进行聚类分析,以标识医疗文本数据和相关联医学知识集合的相关性;基于医疗文本数据和相关联医学知识集合的相关性,过滤相关联医学知识集合中与医疗文本数据的相关性低于阈值的相关联医学知识集合;以及基于经过滤的相关联医学知识集合以及医疗文本数据训练医疗大语言模型LLM以更新医疗LLM的参数。

专利详细信息

项目 内容
专利名称 医疗大语言模型的训练及推理的方法、装置、设备及介质
专利类型 发明申请
申请号 CN202311548939.7
申请日 2023/11/20
公告号 CN117577350A
公开日 2024/2/20
IPC主分类号 G16H70/60
权利人 北京壹永科技有限公司
发明人 张程剀; 刘泽恩; 刘晓华; 陈小梅
地址 北京市朝阳区广顺北大街33号院1号楼5层1单元601室

专利主权项内容

1.一种医疗大语言模型LLM的训练方法,包括:获取与用户相关联的医疗文本数据;基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词,其中所述关键词被分类为一个或多个主题;基于所确定的所述医疗文本数据中的关键词对医学知识库进行索引以获得所述医学知识库中的相关联医学知识,其中所述医学知识库中的相关联医学知识根据所述关键词所属的一个或多个主题被分类成与所述一个或多个主题相对应的一个或多个相关联医学知识集合;对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析,以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性;基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性,过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合;以及基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数。