一级抓取(新能源抓取1)和二级抓取(专利详情2)做了样例复制和翻页,为什么只能采集一条数据?

1650936581(1).png (9.37 KB, 下载次数: 394)

1650936581(1).png

1650936581(1).png (9.37 KB, 下载次数: 419)

1650936581(1).png
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2022-4-26 11:02

沙发
Fuller 管理员 发表于 2022-4-26 10:45:03 | 只看该作者
在第一级规则中,你把 专利详情2 标注到了第二条信息上了,这样就错乱了
举报 使用道具
板凳
Fuller 管理员 发表于 2022-4-26 11:02:02 | 只看该作者
我测试了一下第二级规则,除了样本页面采集成功,其他都采集失败了。

第二级页面上一个class或者id都没有,爬虫规则是绝对定位html节点的,这样,万一网页上的内容顺序有变化,或者数量有增减,就会失败。为了提高适应性,可以用自定义xpath,例如,inventors: xxx ,xpath可以用contains()函数把 "Inventors"作为一个定位标志。

另外,网页上的每个信息块都是一个table,可以把这些table用独立的表进行存储。在定义规则工作台上,有个 +表 按钮,可以创建好几个表,而不是把要采集的内容都放在一个表中
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 18:34