网页数据爬取方法及装置
摘要文本
本发明公开了一种网页数据爬取方法及装置,涉及网络技术领域,主要目的在于实现对设置有身份验证的网站进行网页数据爬取的功能而发明。本发明的方法包括:确定待爬取网页的目标域名信息;从域名身份数据中,获取对应所述目标域名信息的身份凭证,所述域名身份数据中包含域名信息及每一个域名信息对应的身份凭证;根据所述身份凭证对目标域名信息对应的网页进行数据爬取。本发明适用于对通过爬虫对网站中的数据进行爬取。 (来自 马克数据网)
申请人信息
- 申请人:北京国双科技有限公司
- 申请人地址:100083 北京市海淀区北四环中路229号海泰大厦4层南401号
- 发明人: 北京国双科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 网页数据爬取方法及装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN201811141618.4 |
| 申请日 | 2018年9月28日 |
| 公告号 | CN110968753B |
| 公开日 | 2024年2月13日 |
| IPC主分类号 | G06F16/951 |
| 权利人 | 北京国双科技有限公司 |
| 发明人 | 满悦 |
| 地址 | 北京市海淀区北四环中路229号海泰大厦4层南401号 |
专利主权项内容
1.一种网页数据爬取方法,其特征在于,包括:确定待爬取网页的目标域名信息;从域名身份数据中,获取对应所述目标域名信息的身份凭证,所述域名身份数据中包含域名信息及每一个域名信息对应的身份凭证;根据所述身份凭证对目标域名信息对应的网页进行数据爬取;其中,在所述从域名身份数据中,获取对应所述目标域名信息的身份凭证之前,所述方法还包括:注册网络监控接口程序;当检测到目标浏览器中执行访问操作时,通过所述网络监控接口程序获取第一访问数据,所述第一访问数据中包括所述身份凭证及域名信息,所述身份凭证包括身份标识及身份参数;根据所述身份凭证及域名信息生成域名身份数据,并将所述域名身份数据进行存储;其中,在所述根据所述身份凭证及域名信息生成域名身份数据,并将所述域名身份数据进行存储之前,所述方法还包括:确定所述域名身份数据中是否存在所述域名信息及所述身份标识;所述根据所述身份凭证及域名信息生成域名身份数据,并将所述域名身份数据进行存储,包括:若确定所述域名身份数据中不存在所述域名信息及所述身份标识,则根据所述身份凭证中的身份标识、身份参数及域名信息构建所述域名身份数据,并将所述域名身份数据进行存储;若确定所述域名身份数据中存在所述域名信息及所述身份标识,则根据所述身份参数更新所述域名身份数据,并将所述域名身份数据进行存储。