规则名:评论才是精华
问题描述:本规则中使用记号线索设定翻页规则,抓取微博博文下的评论。但是抓取评论第一页之后,就一直无法跳转到后面的页码。剩余线索后面循环:等待1 等待L 等待2.
线索定位编号尝试了5199,5200,5204,5205,5270.均无法实现翻页跳转。定位偏好@class,ds打数机已在高级里勾选“重复内容”。
不知道哪里出了问题,焦急焦急~~~
希望有爱的大神们帮忙看一下~感激不尽~~~


搜狗截图20170315094151.png (8.49 KB, 下载次数: 469)

搜狗截图20170315094151.png
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-3-15 12:12

沙发
HJLing 版主 发表于 2017-3-15 10:06:36 | 只看该作者

如图所示是软件自动生成的软件(在爬虫路线点击查看规则可以看到) 这是定位到a节点
需要定位到span节点才能翻页 所以需要手动修改路径,改成如下
//*[@class='WB_cardpage S_line1']//span[.//text()="下一页"]

注意:手动修改爬虫路线规则后 要点击右边的保存修改而不能点击右上方的存规则 否则又会变成原先的路径
所以在修改路径之前点击一次右上方的存规则 再去修改路径 然后点击保存修改 最后爬数据


还需要注意一点的是
下次如果需要修改个规则的时候 加载会看到路径又会被程序自动生成的路径覆盖
可以在备注记下自定义的路径


举报 使用道具
板凳
happyslhl 初级会员 发表于 2017-3-15 10:53:20 | 只看该作者
HJLing 发表于 2017-3-15 10:06
如图所示是软件自动生成的软件(在爬虫路线点击查看规则可以看到) 这是定位到a节点
需要定位到span节点才 ...

谢谢版主详细而迅速的解答~~~帮了大忙啦~只是不知道有没有什么办法,可以阻止程序自动修改翻页路径呀?
举报 使用道具
地板
ym 版主 发表于 2017-3-15 11:19:45 | 只看该作者
没有
举报 使用道具
5#
happyslhl 初级会员 发表于 2017-3-15 12:12:48 | 只看该作者

好的,再次感谢~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-8 07:50