没有下一页只有加载更多,怎么采集?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-10-17 11:26

Fuller 管理员 发表于 2016-10-23 16:02:12 | 显示全部楼层
点击“加载更多”既可以用连续动作的模拟点击,也可以用爬虫路线的模拟点击,各自适应的情况不一样

1)网页上有一个或者多个加载更多,而且点击展开以后就不会再收缩:首选爬虫路线,也可以用连续动作。爬虫路线每次只能点一个,也就是点最前面那个“加载更多”,这样逐个可以把所有的点完
2)网页上有多个加载更多,而且点击展开一个那么前一个再次变成“加载更多”:只能用连续动作,而且定义点击位置的XPath的时候要特别注意,XPath一定要计算出来一个节点集,包含所有点开的和未点开的“加载更多”,一定要包含已经点开的节点,这样,连续动作的顺序才不会乱,DS打数机采知道点击到哪一个了。

总之,连续动作能适应所有情况,只是连续动作的定义过程复杂一点。
举报 使用道具
塗塗 初级会员 发表于 2018-10-17 11:12:51 | 显示全部楼层
页面是点击加载更多后会显示一部分内容,后面的内容还是需要重复点加载更多。像这种页面用爬虫路线,模拟点击怎么操作呢?
举报 使用道具
Fuller 管理员 发表于 2018-10-17 11:26:01 | 显示全部楼层
塗塗 发表于 2018-10-17 11:12
页面是点击加载更多后会显示一部分内容,后面的内容还是需要重复点加载更多。像这种页面用爬虫路线,模拟点 ...

“点击加载更多”跟“下一页”是一样的作用,按照翻页采集做规则就行。参看教程:https://www.gooseeker.com/doc/article-334-1.html

但是有个不同:这种网页会越点越长,而且每次存储的内容是上一次都存过的,也就是是很多重复内容。到时候需要自己过滤一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:25