一种多语言产品包装说明书文字识别查询方法及系统
摘要文本
本发明涉及人工智能计算机视觉和自然语言处理领域,尤其涉及一种多语言产品包装说明书文字识别查询方法及系统。通过对不规整文本图片上难检测和易检测的文本区域设置不同的惩罚系数,有效区分难检测和易检测的文本区域,提高损失估计准确度,有效检测出文本区域;应用TPS空间变换网络和Transformer网络将不规整的文本或图像部分映射到规则的形状上,提高后续的特征提取和识别性能。用户通过手机客户端扫描产品包装或产品说明书,云端平台生产厂商数据库查询得到产品说明书清晰详细内容并反馈给用户;用户通过手机客户端进行提问,多语言翻译查询基于多语言大模型和向量数据库,使用用户选择的语言回答。
申请人信息
- 申请人:腾讯烟台新工科研究院
- 申请人地址:264000 山东省烟台市开发区业达智慧谷创业园B栋
- 发明人: 腾讯烟台新工科研究院
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种多语言产品包装说明书文字识别查询方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410051603.8 |
| 申请日 | 2024/1/15 |
| 公告号 | CN117573810A |
| 公开日 | 2024/2/20 |
| IPC主分类号 | G06F16/33 |
| 权利人 | 腾讯烟台新工科研究院 |
| 发明人 | 徐永龙; 马昊; 段瑛琛; 徐思思; 刘志强; 李高健; 王德建 |
| 地址 | 山东省烟台市开发区业达智慧谷创业园B栋 |
专利主权项内容
1.一种多语言产品包装说明书文字识别查询方法,其特征在于:包括:S1文本检测算法,检测输入图片中的文本区域,本算法基于卷积神经网络模型,采用带不同调节因子变体损失函数;
;
是该网络模型的损失;x是模型训练图片检测输出结果;y表示标注的训练图片数据;
是训练图片的像素集合;
、/>是调节因子,用于调整损失函数聚焦度;
使用背景的损失函数进行反向传播:
;
使用前景的损失函数进行反向传播:
;S2文字识别算法,基于Transformer构建,对S1输出进行识别计算,输出纯文本数据,送给产品关键信息检索子模块提取产品特征信息;S2.1利用TPS空间变换网络对S1输出进行预处理,将不规则的文本或图像部分映射到规则的形状上;S2.2通过深度残差网络ResNet提取特征信息,利用多头注意力和标准化技术,将图像特征数据进行编码,转换为序列数据并输入到多层感知机网络生成文本识别结果。