微博数据采集过程中的翻页问题？

何波波

我在采集微博数据的过程中，设置爬虫路线进行翻页，下一页一直翻不过去，怎么解决？

何波波 · 发表于 2016-8-4 15:53:18

抓微博翻页，用记号线索是不行的，要用到相对线索http://www.gooseeker.com/doc/article-149-1.html进行翻页，利用当前页码和下一页码的位置自动计算出下一页的位置，实现自动翻页。

Fuller · 发表于 2016-8-4 17:04:22

何波波发表于 2016-8-4 15:53
抓微博翻页，用记号线索是不行的，要用到相对线索http://www.gooseeker.com/doc/article-149-1.html进行翻 ...

根据我的经验，不是记号线索不行，而是微博有些网页上有好几个“下一页”，比如，评论和转发，而搜索结果页面是没有的。

这些“下一页”是隐藏的，你做的规则很可能点击的是那个隐藏的，是没有用的。

MS谋数台的DOM树窗口下面的右边有个“搜索”按钮，可以把“下一页”的定位表达式输入进去，搜索一下看看有几个，如果有多个，就得用position()函数约束一下，选对节点

还有一个需要注意的，如果“下一页”是这样的结构

div
span
font
text

复制代码

也就是套了好多看起来没有用的DOM节点，此时，点击位置也很重要，微博的翻页点击是用javascript驱动的，他的点击处理函数可能设置在font上（假设），那么你点击span就没有用。反过来，如果处理函数挂在span上，你点击font通常是有用的，因为点击事件是会往上冒泡的。这个是要测试和摸索出来的

微博数据采集过程中的翻页问题？

本帖子中包含更多资源

共 2 个关于本帖的回复最后回复于 2016-8-4 17:04

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

微博数据采集过程中的翻页问题？

本帖子中包含更多资源

共 2 个关于本帖的回复 最后回复于 2016-8-4 17:04

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2016-8-4 17:04