新浪微博搜索页数据抓取

中东吴彦祖

我新发布了一个采集规则:
新浪微博搜索页数据抓取

详细信息:
之前做了一个新浪微博搜索页面采集，在此分享出来。需要登录自己的微博账号。

①使用时再打数机中先清除所有线索
②打开搜索页面，输入关键词，生成的网页复制
③右键规则，添加线索，粘贴刚才的网页，就可以采集数据了

本规则可以采集到，博文，发送时间和博主名称。

希望大家喜欢！下载地址: http://www.gooseeker.com/res/detail_102546.html

爬数据 · 发表于 2015-12-21 23:32:50

请教下，为何不能翻页呢？爬虫路线确实有设置，但是不能翻页

Fuller · 发表于 2015-12-22 12:01:16

爬数据发表于 2015-12-21 23:32
请教下，为何不能翻页呢？爬虫路线确实有设置，但是不能翻页

是你做的抓取规则还是下载这个的？

Fuller · 发表于 2015-12-22 12:08:22

根据以前的经验，做微博的翻页要注意以下几点：
1，微博翻页用一个事件驱动的，要点对节点。比如是这样的嵌套html标签 div-span-bold-text()，那个“下一页”在text()中，翻页事件在span上，那么爬虫就应该准确点击到span上，而不是其它节点
2，微博页面不知什么原因，有多个翻页标志，虽然你只看到一个“下一页”，还有好几个是隐藏的，这样自动生成的规则可能会有定位不准的问题，需要手工修改。怎样检查是否有多少个“下一页”，可以用MS谋数台的查询功能：http://www.gooseeker.com/doc/article-130-1.html

新浪微博搜索页数据抓取

共 3 个关于本帖的回复最后回复于 2015-12-22 12:08

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

新浪微博搜索页数据抓取

共 3 个关于本帖的回复 最后回复于 2015-12-22 12:08

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2015-12-22 12:08