有哪个教程讲这个
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2018-9-30 18:47

沙发
Fuller 管理员 发表于 2018-9-30 18:47:47 | 只看该作者
“载入更多”和“下一页”其实是类似的,他们都可以作为翻页标志,具体参看《翻页采集列表》这个教程。

但是可能还会有点区别。普通的下一页翻页,进入下一页以后,用下一页的内容全部替换了当前页的内容,而“载入更多”可能就不同了,点击一次会把新内容追加在后面,这样网页会越来越到,导致内存不够了。

如果网页会越来越大,那就采用连续点击动作,具体参看高级教程中的连续动作章节。教程首页:https://www.gooseeker.com/tuto/tutorial.html ,展开左栏能看到教程目录。定义连续动作的高级设置时,可以设置“清除老数据”,要填写一个xpath,这个xpath必须能定位到列表中的每条数据。那么爬虫在运行的时候,会根据这个xpath把列表中的数据进行删除,再追加更多数据。

清除老数据是旗舰版功能
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 08:10