一级抓取(新能源抓取1)和二级抓取(专利详情2)做了样例复制和翻页,为什么只能采集一条数据?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2022-4-26 11:02

沙发
Fuller 管理员 发表于 2022-4-26 10:45:03 | 只看该作者
在第一级规则中,你把 专利详情2 标注到了第二条信息上了,这样就错乱了
举报 使用道具
板凳
Fuller 管理员 发表于 2022-4-26 11:02:02 | 只看该作者
我测试了一下第二级规则,除了样本页面采集成功,其他都采集失败了。

第二级页面上一个class或者id都没有,爬虫规则是绝对定位html节点的,这样,万一网页上的内容顺序有变化,或者数量有增减,就会失败。为了提高适应性,可以用自定义xpath,例如,inventors: xxx ,xpath可以用contains()函数把 "Inventors"作为一个定位标志。

另外,网页上的每个信息块都是一个table,可以把这些table用独立的表进行存储。在定义规则工作台上,有个 +表 按钮,可以创建好几个表,而不是把要采集的内容都放在一个表中
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 04:30