← 返回列表

文本纠错方法及装置

申请号: CN201811215941.1
申请人: 北京嘀嘀无限科技发展有限公司
申请日期: 2018年10月18日

摘要文本

本发明涉及文本处理技术领域,提供一种文本纠错方法及装置。其中,文本纠错方法包括:确定可用于替换待纠错文本中的疑似错字的候选词组的集合;分别利用候选词组的集合中的每个候选词组替换待纠错文本中的疑似错字,获得与每个候选词组对应的候选纠错文本;计算每个候选纠错文本的合理程度,将合理程度最高的候选纠错文本确定为对疑似错字进行纠错后的文本。在该方法的纠错过程中,纠错后的文本是根据候选纠错文本的合理程度从多个候选纠错文本中选择的,因此有极大的概率就是正确的纠错结果,从而显著提高了文本纠错的效果。

专利详细信息

项目 内容
专利名称 文本纠错方法及装置
专利类型 发明授权
申请号 CN201811215941.1
申请日 2018年10月18日
公告号 CN111079412B
公开日 2024年1月23日
IPC主分类号 G06F40/232
权利人 北京嘀嘀无限科技发展有限公司
发明人 张占秋; 李帅; 王伟玮; 王杰
地址 北京市海淀区东北旺西路8号院34号楼

专利主权项内容

1.一种文本纠错方法,其特征在于,包括:确定用于替换待纠错文本中的疑似错字的候选词组的集合;分别利用所述候选词组的集合中的每个候选词组替换所述待纠错文本中的所述疑似错字,获得与每个候选词组对应的候选纠错文本;计算每个候选纠错文本的合理程度,将合理程度最高的候选纠错文本确定为对所述疑似错字进行纠错后的文本,其中,所述候选纠错文本的合理程度表示将所述候选纠错文本确定为所述纠错后的文本的合理性;所述候选纠错文本的合理程度为所述候选纠错文本出现的概率与概率调整项的乘积,其中,所述概率调整项用于表示除所述候选纠错文本出现的概率以外的对所述候选纠错文本的合理程度的影响因素;所述概率调整项包括与所述候选纠错文本对应的所述候选词组的权重,所述候选词组的权重为与所述候选词组的获得方式对应的预设数值,若所述候选词组同时具有多种获得方式,则所述候选词组的权重为不同获得方式的权重相加。