我在采集微博数据的过程中,设置爬虫路线进行翻页,下一页一直翻不过去,怎么解决?

6666.png (2.63 KB, 下载次数: 529)

6666.png
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-8-4 17:04

沙发
何波波 金牌会员 发表于 2016-8-4 15:53:18 | 只看该作者
抓微博翻页,用记号线索是不行的,要用到相对线索http://www.gooseeker.com/doc/article-149-1.html进行翻页,利用当前页码和下一页码的位置自动计算出下一页的位置,实现自动翻页。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-8-4 17:04:22 | 只看该作者
何波波 发表于 2016-8-4 15:53
抓微博翻页,用记号线索是不行的,要用到相对线索http://www.gooseeker.com/doc/article-149-1.html进行翻 ...

根据我的经验,不是记号线索不行,而是微博有些网页上有好几个“下一页”,比如,评论和转发,而搜索结果页面是没有的。

这些“下一页”是隐藏的,你做的规则很可能点击的是那个隐藏的,是没有用的。

MS谋数台的DOM树窗口下面的右边有个“搜索”按钮,可以把“下一页”的定位表达式输入进去,搜索一下看看有几个,如果有多个,就得用position()函数约束一下,选对节点

还有一个需要注意的,如果“下一页”是这样的结构
  1. div
  2.      span
  3.           font
  4.                 text
复制代码

也就是套了好多看起来没有用的DOM节点,此时,点击位置也很重要,微博的翻页点击是用javascript驱动的,他的点击处理函数可能设置在font上(假设),那么你点击span就没有用。反过来,如果处理函数挂在span上,你点击font通常是有用的,因为点击事件是会往上冒泡的。这个是要测试和摸索出来的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 17:42