一级抓取（新能源抓取1）和二级抓取（专利详情2）做了样例复制和翻页。为什么都只能采集一条数据？

闻闻呀

一级抓取（新能源抓取1）和二级抓取（专利详情2）做了样例复制和翻页，为什么只能采集一条数据?

Fuller · 发表于 2022-4-26 10:45:03

在第一级规则中，你把专利详情2 标注到了第二条信息上了，这样就错乱了

Fuller · 发表于 2022-4-26 11:02:02

我测试了一下第二级规则，除了样本页面采集成功，其他都采集失败了。

第二级页面上一个class或者id都没有，爬虫规则是绝对定位html节点的，这样，万一网页上的内容顺序有变化，或者数量有增减，就会失败。为了提高适应性，可以用自定义xpath，例如，inventors: xxx ，xpath可以用contains()函数把 "Inventors"作为一个定位标志。

另外，网页上的每个信息块都是一个table，可以把这些table用独立的表进行存储。在定义规则工作台上，有个 +表按钮，可以创建好几个表，而不是把要采集的内容都放在一个表中

一级抓取（新能源抓取1）和二级抓取（专利详情2）做了样例复制和翻页。为什么都只能采集一条数据？

本帖子中包含更多资源

共 2 个关于本帖的回复最后回复于 2022-4-26 11:02

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

一级抓取（新能源抓取1）和二级抓取（专利详情2）做了样例复制和翻页。为什么都只能采集一条数据？

本帖子中包含更多资源

共 2 个关于本帖的回复 最后回复于 2022-4-26 11:02

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2022-4-26 11:02