现在的Python开源网络爬虫框架还不能爬微博，是吧？

cfyangyang

现在的Python开源网络爬虫框架还不能爬微博，是吧？
本人在做一个公益性项目，穷学生。
希望能用这个开源框架，实现数据爬取并分析、转发的功能。

Fuller · 发表于 2016-6-8 15:09:27

开源项目刚刚启动，爬一些复杂网站一开始可能不行，我们正在测试并且加模块。但是，你可以用现成的软件：GooSeeker爬虫，这些网站都能爬，而且C++写的，速度很快。只是不是开源的。

如果你需要程序接入这个爬虫，我们可以开放API给你

gz51837844 · 发表于 2016-7-11 23:51:05

在资源库有一个直接可运行的exe版本的微博工具：爬取微博博主博文的小爬虫
http://www.gooseeker.com/res/tooldetail_1000000002.html

xiaoyuvps · 发表于 2016-8-12 09:35:16

Fuller 发表于 2016-6-8 15:09
开源项目刚刚启动，爬一些复杂网站一开始可能不行，我们正在测试并且加模块。但是，你可以用现成的软件：Go ...

请问一下这个作为规则提取器接入scrapy之类的也不支持爬取复杂网站么？

发型不错先生 · 发表于 2016-8-12 10:19:44

xiaoyuvps 发表于 2016-8-12 09:35
请问一下这个作为规则提取器接入scrapy之类的也不支持爬取复杂网站么？

复杂网站也可以做相应的规则呀，而规则是可以自己定义的
所以只要浏览器能加载出来，并做好相应规则后，就可以直接使用内容提取器获取数据了

xiaoyuvps · 发表于 2016-8-12 15:06:58

发型不错先生发表于 2016-8-12 10:19
复杂网站也可以做相应的规则呀，而规则是可以自己定义的
所以只要浏览器能加载出来，并做好相应规则后， ...

感觉他跟scrapy自带的那个selector。差不多最大的好处就是可以用谋数台生成规则所见即所得远好于用scrapy自带的selector慢慢调试。

就是不知道性能差距有多大。

Fuller · 发表于 2016-8-12 16:12:22

xiaoyuvps 发表于 2016-8-12 15:06
感觉他跟scrapy自带的那个selector。差不多最大的好处就是可以用谋数台生成规则所见即所得远好于用scra ...

是的，好处就是不用调试规则。当规则很复杂的时候，调试时间很长。

Scrapy的性能没有实测过，但是根据他的框架设计，我认为会有很好的性能，异步事件驱动，这是爬虫的基本要求。

包括我在内，我们经常会在某些场合说：“爬虫不需要性能高，我还需要故意把速度调慢防止被封锁”，这个只是在特定场合说的话。

当网站数量很大的时候，效率越高，部署设备的成本越低

xiaoyuvps · 发表于 2016-8-12 16:30:43

Fuller 发表于 2016-8-12 16:12
是的，好处就是不用调试规则。当规则很复杂的时候，调试时间很长。

Scrapy的性能没有实测过，但是根据他 ...

我的问题是说这个跟selector的其实是一个东西是吧。我的意思是否会相对于scrapy selector有很低的性能降低。

现在的Python开源网络爬虫框架还不能爬微博，是吧？

共 7 个关于本帖的回复最后回复于 2016-8-12 16:30

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

现在的Python开源网络爬虫框架 还不能爬微博，是吧？

共 7 个关于本帖的回复 最后回复于 2016-8-12 16:30

推荐板块

精彩推荐

热门话题

热门用户

现在的Python开源网络爬虫框架还不能爬微博，是吧？

共 7 个关于本帖的回复最后回复于 2016-8-12 16:30