现在的Python开源网络爬虫框架 还不能爬微博,是吧?
本人在做一个公益性项目,穷学生。
希望能用这个开源框架,实现数据爬取并分析、转发的功能。
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-8-12 16:30

沙发
Fuller 管理员 发表于 2016-6-8 15:09:27 | 只看该作者
开源项目刚刚启动,爬一些复杂网站一开始可能不行,我们正在测试并且加模块。但是,你可以用现成的软件:GooSeeker爬虫,这些网站都能爬,而且C++写的,速度很快。只是不是开源的。

如果你需要程序接入这个爬虫,我们可以开放API给你
举报 使用道具
板凳
gz51837844 管理员 发表于 2016-7-11 23:51:05 | 只看该作者
在资源库有一个直接可运行的exe版本的微博工具:爬取微博博主博文的小爬虫
http://www.gooseeker.com/res/tooldetail_1000000002.html
举报 使用道具
地板
xiaoyuvps 初级会员 发表于 2016-8-12 09:35:16 | 只看该作者
Fuller 发表于 2016-6-8 15:09
开源项目刚刚启动,爬一些复杂网站一开始可能不行,我们正在测试并且加模块。但是,你可以用现成的软件:Go ...

请问一下这个作为规则提取器接入scrapy之类的 也不支持爬取复杂网站么?
举报 使用道具
5#
发型不错先生 高级会员 发表于 2016-8-12 10:19:44 | 只看该作者
xiaoyuvps 发表于 2016-8-12 09:35
请问一下这个作为规则提取器接入scrapy之类的 也不支持爬取复杂网站么?

复杂网站也可以做相应的规则呀,而规则是可以自己定义的
所以只要浏览器能加载出来,并做好相应规则后,就可以直接使用内容提取器获取数据了
举报 使用道具
6#
xiaoyuvps 初级会员 发表于 2016-8-12 15:06:58 | 只看该作者
发型不错先生 发表于 2016-8-12 10:19
复杂网站也可以做相应的规则呀,而规则是可以自己定义的
所以只要浏览器能加载出来,并做好相应规则后, ...

感觉他跟scrapy自带的那个selector。差不多 最大的好处就是可以用谋数台生成规则 所见即所得远好于用scrapy自带的selector慢慢调试。

就是不知道性能差距有多大。
举报 使用道具
7#
Fuller 管理员 发表于 2016-8-12 16:12:22 | 只看该作者
xiaoyuvps 发表于 2016-8-12 15:06
感觉他跟scrapy自带的那个selector。差不多 最大的好处就是可以用谋数台生成规则 所见即所得远好于用scra ...

是的,好处就是不用调试规则。当规则很复杂的时候,调试时间很长。

Scrapy的性能没有实测过,但是根据他的框架设计,我认为会有很好的性能,异步事件驱动,这是爬虫的基本要求。

包括我在内,我们经常会在某些场合说:“爬虫不需要性能高,我还需要故意把速度调慢防止被封锁”,这个只是在特定场合说的话。

当网站数量很大的时候,效率越高,部署设备的成本越低
举报 使用道具
8#
xiaoyuvps 初级会员 发表于 2016-8-12 16:30:43 | 只看该作者
Fuller 发表于 2016-8-12 16:12
是的,好处就是不用调试规则。当规则很复杂的时候,调试时间很长。

Scrapy的性能没有实测过,但是根据他 ...

我的问题是说这个跟selector的其实是一个东西是吧。 我的意思是否会相对于scrapy selector有很低的性能降低。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 18:08