← 返回列表

一种适用于医疗语境的中文拼写纠错方法

申请号: CN202410120343.5
申请人: 安徽省立医院(中国科学技术大学附属第一医院)
申请日期: 2024/1/29

摘要文本

本发明涉及人工智能领域,具体涉及一种适用于医疗语境的中文拼写纠错方法,包括将句子转换为汉字标号序列后输入到BERT预训练中文语言模型中,得到语境信息特征,将语境信息特征进行线性变换使其尺寸对齐词表;计算每一个位置的前个候选项的归一化置信度,得到每一个位置的前个候选项的置信度;计算每一个位置的前个候选项对应汉字与输入汉字的视觉相似度和语音相似度,并将二者加权,得到相似度;融合相似度与置信度计算每一个位置的前个候选项的综合权重;以每一个位置综合权重最高的汉字作为纠错后的汉字。本发明通过对汉字的视觉相似度和语音相似度进行建模,解决了相似字错误的问题。。马-克-数据

专利详细信息

项目 内容
专利名称 一种适用于医疗语境的中文拼写纠错方法
专利类型 发明申请
申请号 CN202410120343.5
申请日 2024/1/29
公告号 CN117648923A
公开日 2024/3/5
IPC主分类号 G06F40/232
权利人 安徽省立医院(中国科学技术大学附属第一医院)
发明人 高敏; 陈恩红; 刘昌春; 蒋浚哲; 张凯; 王慕秋; 李京秀; 宋雪莉; 丁蓓蓓; 张梦云
地址 安徽省合肥市庐阳区庐江路9号

专利主权项内容

1.一种适用于医疗语境的中文拼写纠错方法,其特征在于,包括以下步骤:步骤一,将待纠错的句子以汉字为单位划分得到个汉字,第/>个汉字为/>,/>,将/>个汉字通过词表进行映射得到序列,在序列之前加上/>,在序列之后加上/>,得到待纠错的句子的汉字标号序列/>;步骤二,将汉字标号序列输入到BERT预训练中文语言模型中得到语境信息特征,将语境信息特征/>的维度转换为/>,得到置信度预测/>;步骤三,定义置信度预测中对应汉字/>的置信度预测为汉字置信度预测/>,将汉字置信度预测/>中所有值从大到小排序后选取前/>个值作为待纠错的句子中第/>个位置处的候选汉字概率集合,将候选汉字概率集合进行归一化处理,其中待纠错的句子中第/>个位置处的第/>个候选汉字的归一化置信度为/>;步骤四,基于编辑距离算法计算待纠错的句子中第个汉字/>与待纠错的句子中第/>个位置处的第/>个候选汉字之间的语音相似度/>;步骤五,基于编辑距离算法计算待纠错的句子中第个汉字/>与待纠错的句子中第/>个位置处的第/>个候选汉字之间的视觉相似度/>;步骤六,基于语音相似度与视觉相似度/>计算汉字/>与待纠错的句子中第/>个位置处的第/>个候选汉字之间的相似度/>,基于相似度/>与归一化置信度计算待纠错的句子中第/>个位置处的第/>个候选汉字的综合权重/>,根据综合权重/>计算待纠错的句子中第/>个位置处纠错后的汉字/>。