快捷导航
我在采集微博数据的过程中,设置爬虫路线进行翻页,下一页一直翻不过去,怎么解决?
6666.png
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-8-4 17:04

何波波 金牌会员 发表于 2016-8-4 15:53:18 | 显示全部楼层
抓微博翻页,用记号线索是不行的,要用到相对线索http://www.gooseeker.com/doc/article-149-1.html进行翻页,利用当前页码和下一页码的位置自动计算出下一页的位置,实现自动翻页。
举报 使用道具
Fuller 管理员 发表于 2016-8-4 17:04:22 | 显示全部楼层
何波波 发表于 2016-8-4 15:53
抓微博翻页,用记号线索是不行的,要用到相对线索http://www.gooseeker.com/doc/article-149-1.html进行翻 ...

根据我的经验,不是记号线索不行,而是微博有些网页上有好几个“下一页”,比如,评论和转发,而搜索结果页面是没有的。

这些“下一页”是隐藏的,你做的规则很可能点击的是那个隐藏的,是没有用的。

MS谋数台的DOM树窗口下面的右边有个“搜索”按钮,可以把“下一页”的定位表达式输入进去,搜索一下看看有几个,如果有多个,就得用position()函数约束一下,选对节点

还有一个需要注意的,如果“下一页”是这样的结构
  1. div
  2.      span
  3.           font
  4.                 text
复制代码

也就是套了好多看起来没有用的DOM节点,此时,点击位置也很重要,微博的翻页点击是用javascript驱动的,他的点击处理函数可能设置在font上(假设),那么你点击span就没有用。反过来,如果处理函数挂在span上,你点击font通常是有用的,因为点击事件是会往上冒泡的。这个是要测试和摸索出来的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-10-23 14:10