感觉合用表达式应该没问题,但连续动作的停止判定总是无效。我的主题名式“知乎回答页评论抓取”,想要通过连续动作实现翻页,翻到最后一页就停止。(因为试过了其他的各种爬虫路线都翻页失败,好像是因为当评论很多时,评论的第一页就全部是推荐评论,然后就会出现第一页的翻页条和第二页的翻页条的class值不同,自动生成的线索规则调不过来,翻不到第二页)
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-12-15 12:29

沙发
Fuller 管理员 发表于 2016-12-4 10:19:50 | 只看该作者
这是个翻页操作,不要用连续动作,翻页的话用记号线索方式最合适,参看《翻页采集列表
合用表达式的应用场景不是这样的,而是:重复次数=-1的时候,就是无限执行,但是应该在某种情况下中断,这个合用表达式就是这种作用,一旦合用表达式不成立了,就中断。

这是个翻页操作,根本没有必要用合用表达式,翻页到最后自然就中断了。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-4 10:20:54 | 只看该作者
如果翻页条有变化,可以通过点击“爬虫路线”工作台上的“定位选项”,换一下定位偏好,总是能找到合适的
举报 使用道具
地板
tanyaohua123 中级会员 发表于 2016-12-4 11:15:13 | 只看该作者
Fuller 发表于 2016-12-4 10:20
如果翻页条有变化,可以通过点击“爬虫路线”工作台上的“定位选项”,换一下定位偏好,总是能找到合适的 ...

定位选项选择优先id就可以成功翻页了,谢谢了。
举报 使用道具
5#
tanyaohua123 中级会员 发表于 2016-12-4 11:18:25 | 只看该作者
Fuller 发表于 2016-12-4 10:19
这是个翻页操作,不要用连续动作,翻页的话用记号线索方式最合适,参看《翻页采集列表》
合用表达式的应用 ...

虽然说没必要这么用,但还是很疑惑,可以翻下一页时,class值是一种,当翻到最后一页时,下一页的class值就会变化,到了最后一页时,合用表达式的xpath已经是不存在的了,应该就失效了,那么动作应该停止了,但是为什么不停止呢
举报 使用道具
6#
Fuller 管理员 发表于 2016-12-6 22:50:29 | 只看该作者
tanyaohua123 发表于 2016-12-4 11:18
虽然说没必要这么用,但还是很疑惑,可以翻下一页时,class值是一种,当翻到最后一页时,下一页的class值 ...

你把合用表达式发出来我看看,根据教程《连续动作的合用表达式》这个表达式计算出来的结果应该是bool类型的,那么
  1. //div[1]
复制代码
就不合适了,应该是
  1. count(//div[1])>0
复制代码






举报 使用道具
7#
tanyaohua123 中级会员 发表于 2016-12-10 01:15:06 | 只看该作者
Fuller 发表于 2016-12-6 22:50
你把合用表达式发出来我看看,根据教程《连续动作的合用表达式》这个表达式计算出来的结果应该是bool类型 ...

//*[.//text()="下一页" and @class='_Pager_item_3xy4'],这是下一页还能翻页时的xpath,当下一页不能翻页时,class值就会变化。
举报 使用道具
8#
Fuller 管理员 发表于 2016-12-10 09:59:10 | 只看该作者
tanyaohua123 发表于 2016-12-10 01:15
//*[.//text()="下一页" and @class='_Pager_item_3xy4'],这是下一页还能翻页时的xpath,当下一页不能翻 ...

可以用contains()函数提高适应性,比如,
  1. //*[.//text()="下一页" and contains(@class,'Pager_item')]
复制代码
所有含有Pager_item的都适应,这样就能避开3xy4,说不定这个是每页都不一样
举报 使用道具
9#
tanyaohua123 中级会员 发表于 2016-12-15 12:29:53 | 只看该作者
Fuller 发表于 2016-12-10 09:59
可以用contains()函数提高适应性,比如,所有含有Pager_item的都适应,这样就能避开3xy4,说不定这个是每 ...

试过了,不是这个问题。感觉问题的关键是,为什么连续动作在面对一个不存在的节点时,会选择刷新页面而不是停下来。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 21:26