网页数据爬取方法及装置

申请号: CN201811141618.4

申请人: 北京国双科技有限公司

申请日期: 2018年9月28日

摘要文本

本发明公开了一种网页数据爬取方法及装置，涉及网络技术领域，主要目的在于实现对设置有身份验证的网站进行网页数据爬取的功能而发明。本发明的方法包括：确定待爬取网页的目标域名信息；从域名身份数据中，获取对应所述目标域名信息的身份凭证，所述域名身份数据中包含域名信息及每一个域名信息对应的身份凭证；根据所述身份凭证对目标域名信息对应的网页进行数据爬取。本发明适用于对通过爬虫对网站中的数据进行爬取。（来自马克数据网）

申请人信息

申请人:北京国双科技有限公司
申请人地址:100083 北京市海淀区北四环中路229号海泰大厦4层南401号
发明人: 北京国双科技有限公司

专利详细信息

项目	内容
专利名称	网页数据爬取方法及装置
专利类型	发明授权
申请号	CN201811141618.4
申请日	2018年9月28日
公告号	CN110968753B
公开日	2024年2月13日
IPC主分类号	G06F16/951
权利人	北京国双科技有限公司
发明人	满悦
地址	北京市海淀区北四环中路229号海泰大厦4层南401号

专利主权项内容

1.一种网页数据爬取方法，其特征在于，包括：确定待爬取网页的目标域名信息；从域名身份数据中，获取对应所述目标域名信息的身份凭证，所述域名身份数据中包含域名信息及每一个域名信息对应的身份凭证；根据所述身份凭证对目标域名信息对应的网页进行数据爬取；其中，在所述从域名身份数据中，获取对应所述目标域名信息的身份凭证之前，所述方法还包括：注册网络监控接口程序；当检测到目标浏览器中执行访问操作时，通过所述网络监控接口程序获取第一访问数据，所述第一访问数据中包括所述身份凭证及域名信息，所述身份凭证包括身份标识及身份参数；根据所述身份凭证及域名信息生成域名身份数据，并将所述域名身份数据进行存储；其中，在所述根据所述身份凭证及域名信息生成域名身份数据，并将所述域名身份数据进行存储之前，所述方法还包括：确定所述域名身份数据中是否存在所述域名信息及所述身份标识；所述根据所述身份凭证及域名信息生成域名身份数据，并将所述域名身份数据进行存储，包括：若确定所述域名身份数据中不存在所述域名信息及所述身份标识，则根据所述身份凭证中的身份标识、身份参数及域名信息构建所述域名身份数据，并将所述域名身份数据进行存储；若确定所述域名身份数据中存在所述域名信息及所述身份标识，则根据所述身份参数更新所述域名身份数据，并将所述域名身份数据进行存储。

网页数据爬取方法及装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

网页数据爬取方法及装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种焊接管路的辅助装置

一种导轨滑块刚性疲劳测试装置及其测试方法

X射线管及其阴极冷却装置、管芯组件

双歧杆菌分离培养方法

一种用于电子级硫酸生产废液的回收处理装置

自动化全内置超导磁铁磁场强度测量装置及测量方法

热门技术领域

快速入口

专利技术资料