快捷导航
8 4813

连续动作

987654321 于 2016-11-3 17:57 发表 [复制链接]
最近碰到个问题——翻页翻不完;
我抓取的是当当网的评论内容,像这个网址http://comm.dangdang.com/reviewlist/23464478,连续动作也不是很好用,我不知道是我的规则的问题还是其他的原因
规则主题名:
当当评论连续测试

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-11-8 16:52

ym 版主 发表于 2016-11-3 18:09:13 | 显示全部楼层
只要xpath能定位到网页上的下一页节点,就会一直点击,所以,你写的xpath要排除最后一页的节点,这样到最后一页就会停止点击了。你可以试试其他翻页设置,更多翻页方法见http://www.gooseeker.com/doc/thread-698-1-1.html
QQ截图20161103180547.png

举报 使用道具
987654321 初级会员 发表于 2016-11-3 20:26:49 | 显示全部楼层
我之前设置过点击次数,最多翻一千多页,和这些页数相比差好多
举报 使用道具
Fuller 管理员 发表于 2016-11-3 20:41:45 | 显示全部楼层
987654321 发表于 2016-11-3 20:26
我之前设置过点击次数,最多翻一千多页,和这些页数相比差好多

把DS打数机菜单上设置 高级-〉终点标志-〉重复中断,到最后遇到重复内容就自动中断了,不用自定义XPath
举报 使用道具
Fuller 管理员 发表于 2016-11-3 20:42:31 | 显示全部楼层
如果是用爬虫群模式,这个中断选项要在调度参数中设置。如果用集搜或者单搜,则用菜单设置
举报 使用道具
987654321 初级会员 发表于 2016-11-3 21:52:41 | 显示全部楼层
线索 不会自动加载,
因为大数机跑一段时间后就白屏了,页面中什么都没有,但还是无限制的循环翻页,还有那个页数翻不完这个怎么解决,
举报 使用道具
Fuller 管理员 发表于 2016-11-3 22:28:43 | 显示全部楼层
987654321 发表于 2016-11-3 21:52
线索 不会自动加载,
因为大数机跑一段时间后就白屏了,页面中什么都没有,但还是无限制的循环翻页,还有那 ...

不要用连续动作,用翻页抓取最合适,参看《翻页采集列表

我看到你的规则里面要点2500次,用连续动作的话,即使空白了,也要点满2500次。我试了一下这个翻页,当当网页可能有问题,你点击最后一页,根本翻不了页。

最合适的方法是用翻页抓取,如果你想限制翻页次数,那么不能用集搜或者单搜,而是用爬虫群模式,在会员中心-〉规则管理,找到这个规则,点击这个规则,进入到管理页面,能看到“加入爬虫群”操作,点击“调度”,点开高级参数,设置“同一线索内的翻页次数”

爬虫群启动方法参看《如何运行爬虫群
举报 使用道具
Fuller 管理员 发表于 2016-11-3 22:31:51 | 显示全部楼层
当当这个网页,翻页的时候时好时坏
举报 使用道具
987654321 初级会员 发表于 2016-11-8 16:52:06 | 显示全部楼层
Fuller 发表于 2016-11-3 22:31
当当这个网页,翻页的时候时好时坏

这同样的规则我采集微博就不会出现这样的bug,你说的这几种我再做做看!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 社会网络可视化分析方法探索—Gephi分析工
  • 微博评论采集下来后怎样把发布时间转换成统
  • Jupyter Notebook将京东商品参数数据表做行
  • 集搜客分词软件情感分析算法升级通知
  • 为什么要为层次分析法(AHP)计算特征值和特

热门用户

GMT+8, 2022-7-4 02:23