发明

网页信息抓取方法及装置、存储介质及电子设备2025

2025-06-21 12:38:36 发布于四川 0
  • 申请专利号:CN202311766951.5
  • 公开(公告)日:2025-06-20
  • 公开(公告)号:CN120179887A
  • 申请人:北京沃东天骏信息技术有限公司|||北京京东世纪贸易有限公司
摘要:本公开提供了一种网页信息抓取方法及装置、存储介质及电子设备,涉及电数字数据处理技术领域。例如,该方法包括,获取抓取目标信息;根据抓取目标信息,配置种子;根据种子的网页URL,获取网页信息;根据种子的虚拟编号,调用规则文件对应的解析过滤链;根据种子的类型,确定解析过滤链对网页URL的层级预设的解析结果类型;根据解析过滤链与解析结果类型对网页信息解析,确定解析数据。本公开通过配置包括网页URL、虚拟编号和类型的种子,将虚拟编号对应于解析网页URL的规则文件,将类型对应于网页URL的层级,无需对不同的网站进行个性化开发就能够对多网站进行网页信息抓取,降低开发成本。

专利内容

本公开提供了一种网页信息抓取方法及装置、存储介质及电子设备,涉及电数字数据处理技术领域。例如,该方法包括,获取抓取目标信息;根据抓取目标信息,配置种子;根据种子的网页URL,获取网页信息;根据种子的虚拟编号,调用规则文件对应的解析过滤链;根据种子的类型,确定解析过滤链对网页URL的层级预设的解析结果类型;根据解析过滤链与解析结果类型对网页信息解析,确定解析数据。本公开通过配置包括网页URL、虚拟编号和类型的种子,将虚拟编号对应于解析网页URL的规则文件,将类型对应于网页URL的层级,无需对不同的网站进行个性化开发就能够对多网站进行网页信息抓取,降低开发成本。G06F16/951(2019.01);G06F16/955(2019.01);G06F16/958(2019.01);G06F16/906(2019.01);G06F16/9035(2019.01)

最新专利