https://weibo.com/1618051664/FF2 ... t#_rnd1520299251115
想抓这条微博评论下方的回复,按照说明设置了一级以及二级规则,但是好像还是不行。请帮忙查看一下,规则名为“任炫攀”和“共209条回复”

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-3-6 23:20

沙发
maomao 论坛元老 发表于 2018-3-6 12:40:45 | 只看该作者
有几个问题
1,第一级,在创建规则工作台上,你设置的关键内容是网页最顶上的登录帐号,这个信息最早加载上来,所以,总是会抓取成功,而此时很可能下面的回复还没有显示呢。
要么关键内容就用回复中的信息,要么运行DS打数机的时候,用菜单配置-〉滚屏参数,把滚屏次数设置大一些,比如,15,这样就能等待足够时间
2,第一级,动作的定位xpath用了绝对定位,很容易定位不到,可以这样写
  1. //*[@class='WB_text']/a[contains(text(), '共209条回复')]
复制代码
3,连续动作以后,自动滚屏就失效了,需要在第二级定义连续滚屏动作,才能加载所有评论

举报 使用道具
板凳
chengyiling 初级会员 发表于 2018-3-6 21:34:55 | 只看该作者
十分感谢回复,您好,请问怎么设置滚屏动作?
举报 使用道具
地板
maomao 论坛元老 发表于 2018-3-6 23:20:13 | 只看该作者
chengyiling 发表于 2018-3-6 21:34
十分感谢回复,您好,请问怎么设置滚屏动作?

看连续滚屏抓取瀑布流网页的教程 http://www.gooseeker.com/doc/article-373-1.html。你在第二级定义一个滚屏动作,目标主题名跟第二级主题名相同,就能不断滚屏。滚多少屏,可以估算出来,这个评论只有200多条,数量是确定的,规定滚屏数就行了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 23:12