← 返回列表

文字识别纠错方法、装置、设备及计算机可读存储介质

申请号: CN201810430989.8
申请人: 北京第一因科技有限公司
申请日期: 2018年5月7日

摘要文本

本发明公开一种文字识别纠错方法、装置、设备及计算机可读存储介质,所述方法包括:当接收到待纠错文件时,读取待纠错文件的扩展名,并根据扩展名确定待纠错文件的属性;判断待纠错文件的属性是否为只读文件,若待纠错文件的属性是只读文件,则对待纠错文件进行属性转换,生成可编辑文件;读取可编辑文件中的多个关键词,形成关键词组,并根据关键词组确定可编辑文件的目标文件类型;根据可编辑文件的文件类型与纠错库的预设映射关系,确定与目标文件类型对应的目标纠错库,并调用目标纠错库对可编辑文件纠错。本方案根据不同文件类型设定不同纠错库,使用与文件类型对应的目标纠错库进行纠错,可使纠错更为准确,提高纠错效率。 关注公众号马 克 数 据 网

专利详细信息

项目 内容
专利名称 文字识别纠错方法、装置、设备及计算机可读存储介质
专利类型 发明授权
申请号 CN201810430989.8
申请日 2018年5月7日
公告号 CN108664471B
公开日 2024年1月23日
IPC主分类号 G06F40/232
权利人 北京第一因科技有限公司
发明人 张远
地址 北京市大兴区北京经济技术开发区文化园西路6号院16号楼11层1104

专利主权项内容

1.一种文字识别纠错方法,其特征在于,所述文字识别纠错方法包括以下步骤:当接收到待纠错文件时,读取待纠错文件的扩展名,并根据所述扩展名确定待纠错文件的属性;判断待纠错文件的属性是否为只读文件,若待纠错文件的属性是只读文件,对待纠错文件进行属性转换,生成可编辑文件;读取可编辑文件中的多个关键词,形成关键词组,并根据关键词组确定可编辑文件的目标文件类型;根据各可编辑文件类型与纠错库的预设映射关系,确定与目标文件类型对应的目标纠错库,并调用所述目标纠错库对可编辑文件纠错;所述对待纠错文件进行属性转换,生成可编辑文件的步骤包括:对待纠错文件进行扫描,根据待纠错文件中各文字之间的大小关系以及间隔关系确定待纠错文件中的标题和段落;逐一扫描标题和段落中的文字,根据预设文字库对所扫描的文字进行识别,并对识别的标题文字添加标题标识符;将所识别的标题文字和段落文字传输到预设编辑器中,生成可编辑文件;所述读取可编辑文件中的多个关键词,形成关键词组的步骤包括:读取可编辑文件中的词组,并统计各词组所出现的频次,将频次大于预设值的词组作为关键词;根据标题标识符获取标题中的词组,将标题中的词组与关键词一并形成关键词组,其中,文件中的标题内容或者标题类型反映文件类型。