任务名是:新报层级抓取第二级72;新加坡邮报第二级。
请问我爬取一个网页(任务“新报层级抓取第二级72”),规则几乎对所有要爬取的链接都适应,采集时长也设置了60s,但为什么还是有一部分内容无法采集成功呢?我反复爬取了三次,都是一样的结果诶,请帮忙看看(标黄的部分内容缺失) Z_FC[U3AWI~A3M}MB$DMLAK.jpg 然后我刚刚又爬取了一个一千多条链接的网页(任务“新加坡邮报第二级”),又出现了相同的情况,求教~




举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2024-3-17 22:58

Fuller 管理员 发表于 2024-3-17 22:58:12 | 显示全部楼层
我加载了你的规则,像下图这样点击测试按钮,看采集规则:
定位240317224924.png
看发布时间这个抓取内容的xpath,可以看出来,是相对于第一个抓取内容“文章标题”的xpath。如果有些网页相对关系有变化,就会采集不到。想避开这个问题的话,可以给“列表”做一个定位映射,这样做以后,所有抓取内容都会相对于“列表”生成xpath
定位映射40317225115.png
生成的xpath就是这样了:
规则40317225754.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-29 22:10