← 返回列表

提取目标词的方法和装置

申请号: CN201711485402.5
申请人: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
申请日期: 2017年12月29日

摘要文本

本发明公开了一种提取目标词的方法和装置,涉及计算机技术领域。其中,该方法包括:将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果;根据训练得到的机器学习模型对所述字典标注结果进行重新标注,以获取再标注结果;根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词。通过以上步骤,能够克服基于字典匹配的分词标注方法时效性低和第三方分词标注工具缺乏灵活性的缺点,提高分词标注的准确性和时效性。

专利详细信息

项目 内容
专利名称 提取目标词的方法和装置
专利类型 发明授权
申请号 CN201711485402.5
申请日 2017年12月29日
公告号 CN109992766B
公开日 2024年2月6日
IPC主分类号 G06F40/284
权利人 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
发明人 师晋平; 谢群群; 邵荣防; 郝晖; 李萧萧
地址 北京市海淀区知春路76号8层; 北京市大兴区北京经济技术开发区科创十一街18号C座2层201室

专利主权项内容

1.一种提取目标词的方法,其特征在于,所述方法包括:将待识别文本切分成多个分词,并根据字典对所述多个分词进行标注,以获取字典标注结果;所述待识别文本为搜索词或商品标题;根据训练得到的机器学习模型对所述字典标注结果进行重新标注,以获取再标注结果;根据所述字典标注结果和所述再标注结果提取所述待识别文本中的目标词;其中包括:判断一个分词是否满足:字典标注为目标词标注,且再标注也为目标词标注;如果是,将该分词添加至目标词列表;否则再判断所述分词是否满足:包括特定后缀集中的任一后缀,且具有包括目标词标注在内的多个字典标注,以及再标注为目标词标注的概率大于第一阈值;如果是,将该分词添加至目标词列表;其中,所述特定后缀集为:字典标注为目标词标注的分词的后缀组成的集合;所述目标词包括产品词。