← 返回列表
一种基于强化学习的Web信息抽取方法及系统
摘要文本
本申请涉及互联网技术领域,公开了一种基于强化学习的Web信息抽取方法及系统。该方法包括:获取目标网页的HTML文件,并转换为DOM树;从DOM树中有文本的节点中提取样本特征;构建基于语义特征、结构特征及样式特征的信息抽取模型,将信息抽取模型视为智能体,使用样本特征对智能体进行有监督训练;构建环境模型,使用无标记的样本及环境模型对有监督训练完成的信息抽取模型进行强化训练,将智能体对无标记的样本进行抽取的结果作为与环境模型交互的行为,通过环境模型对行为作出反馈;使用强化训练完成的信息抽取模型抽取Web信息。采用本方法能够提升信息抽取模型的泛化性,在同领域及跨领域网站达到较好的抽取效果。
申请人信息
- 申请人:北京数立得科技有限公司
- 申请人地址:100082 北京市海淀区西直门北大街32号院1号楼9层1011
- 发明人: 北京数立得科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于强化学习的Web信息抽取方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311412969.5 |
| 申请日 | 2023/10/27 |
| 公告号 | CN117407615A |
| 公开日 | 2024/1/16 |
| IPC主分类号 | G06F16/957 |
| 权利人 | 北京数立得科技有限公司 |
| 发明人 | 张舒汇; 钟云柯; 梅泳涵; 刘旋 |
| 地址 | 北京市海淀区西直门北大街32号院1号楼9层1011 |
专利主权项内容
1.一种基于强化学习的Web信息抽取方法,其特征在于,包括:获取目标网页的HTML文件,并转换为DOM树;从所述DOM树中提取出有文本的节点,并从所述有文本的节点中提取样本特征;所述样本特征包括语义特征、结构特征及样式特征;构建基于语义特征、结构特征及样式特征的信息抽取模型,将所述信息抽取模型视为智能体,使用样本特征对所述智能体进行有监督训练;构建环境模型,使用无标记的样本及所述环境模型对有监督训练完成的信息抽取模型进行强化训练,将所述智能体对所述无标记的样本进行抽取的结果作为与所述环境模型交互的行为,通过所述环境模型基于TPFB的方法对所述行为作出反馈;所述环境模型包括多个第三方数据源;使用强化训练完成的信息抽取模型抽取Web信息。