表格信息换行识别方法、电子设备及计算机可读存储介质
摘要文本
本发明公开了一种表格信息换行识别方法,该方法包括步骤:获取指定文档中每行文字的位置信息;定位该指定文档中的特定表格,获取该特定表格的位置信息;根据该特定表格的位置信息依次读取该特定表格中的一行文字,并根据该行文字的位置信息从该行文字中识别出行内换行的单元格。本发明可以准确识别出PDF年报表格中的单元格存在的换行情形。。来自:
申请人信息
- 申请人:平安科技(深圳)有限公司
- 申请人地址:518000 广东省深圳市福田区八卦岭工业区平安大厦六楼
- 发明人: 平安科技(深圳)有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 表格信息换行识别方法、电子设备及计算机可读存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN201710975407.X |
| 申请日 | 2017年10月16日 |
| 公告号 | CN107832676B |
| 公开日 | 2024年2月2日 |
| IPC主分类号 | G06V30/412 |
| 权利人 | 平安科技(深圳)有限公司 |
| 发明人 | 王鸿滨; 王晓伟; 汪伟; 肖京 |
| 地址 | 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 |
专利主权项内容
1.一种电子设备,其特征在于,所述电子设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的表格信息换行识别系统,所述表格信息换行识别系统被所述处理器执行时实现如下步骤:获取指定文档中每行文字的位置信息;定位该指定文档中的特定表格,获取该特定表格的位置信息;及根据该特定表格的位置信息依次读取该特定表格中的一行文字,获取该行文字中每个单元格的文字内容位置信息,其中,每个单元格的文字内容位置信息包括每个单元格的文字内容的上边沿坐标;及从文字内容上边沿坐标相同的单元格中,获取第一次出现的单元格位置和最后一次出现的单元格位置,将第一次出现的单元格位置到最后一次出现的单元格位置的所有单元格确定为同一行,及判定第一次出现的单元格位置与最后一次出现的单元格位置之间文字内容上边沿坐标不同的单元格为行内换行的单元格;若行内换行识别后当前行文字中存在剩余单元格,则获取所述剩余单元格的文字内容位置信息,其中,所述剩余单元格的文字内容位置信息包括所述剩余单元格的文字内容的上边沿坐标;计算所述剩余单元格的文字内容上边沿坐标与当前行及下一行所有单元格的文字内容上边沿坐标的距离;及若距离最小值出现在当前行,则将所述剩余单元格的文字内容并入当前行,并判定所述剩余单元格为当前行的行尾换行单元格;若距离最小值出现在下一行,则将所述剩余单元格的文字内容并入下一行,并判定所述剩余单元格为下一行的行尾换行单元格。