我新发布了一个采集规则:
新浪微博搜索页数据抓取


详细信息:
之前做了一个新浪微博搜索页面采集,在此分享出来。需要登录自己的微博账号。

①使用时再打数机中先清除所有线索
②打开搜索页面,输入关键词,生成的网页复制
③右键规则,添加线索,粘贴刚才的网页,就可以采集数据了

本规则可以采集到,博文,发送时间和博主名称。

希望大家喜欢!下载地址:
http://www.gooseeker.com/res/detail_102546.html
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2015-12-22 12:08

沙发
爬数据 新手上路 发表于 2015-12-21 23:32:50 | 只看该作者
请教下,为何不能翻页呢?爬虫路线确实有设置,但是不能翻页
举报 使用道具
板凳
Fuller 管理员 发表于 2015-12-22 12:01:16 | 只看该作者
爬数据 发表于 2015-12-21 23:32
请教下,为何不能翻页呢?爬虫路线确实有设置,但是不能翻页

是你做的抓取规则还是下载这个的?
举报 使用道具
地板
Fuller 管理员 发表于 2015-12-22 12:08:22 | 只看该作者
根据以前的经验,做微博的翻页要注意以下几点:
1,微博翻页用一个事件驱动的,要点对节点。比如是这样的嵌套html标签  div-span-bold-text(),那个“下一页”在text()中,翻页事件在span上,那么爬虫就应该准确点击到span上,而不是其它节点
2,微博页面不知什么原因,有多个翻页标志,虽然你只看到一个“下一页”,还有好几个是隐藏的,这样自动生成的规则可能会有定位不准的问题,需要手工修改。怎样检查是否有多少个“下一页”,可以用MS谋数台的查询功能:http://www.gooseeker.com/doc/article-130-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 03:52