制作采集列表页的规则:每一页我先设置了样例复制,然后再设置翻页线索来实现列表页的数据抓取。
整个列表页,一共有6万多项。每一页固定有10项内容,也就是6000多页的内容。
爬取列表页,只有一个线索数,对于这种能使用爬虫群来提高速度嘛?以我目前的设置,将整个列表页抓取下来,怎么也得2个小时以上啊。求一种方法提高爬取速度。
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-9-16 18:17

沙发
Fuller 管理员 发表于 2016-9-16 16:12:28 | 只看该作者
6000多个分页,如果只有一个线索,可能要爬一天,而且可能会中断。

研究一下每个分页有没有独立的网址,如果有独立网址,就可以不用连贯抓取,可以把这6000多个分页的网址构造出来,成批导入线索。而做规则的时候,只做抓内容的规则,不要做翻页规则。

这样的话,就可以同时运行多个线程,提高速度
举报 使用道具
板凳
2445406817 中级会员 发表于 2016-9-16 16:41:13 | 只看该作者
Fuller 发表于 2016-9-16 16:12
6000多个分页,如果只有一个线索,可能要爬一天,而且可能会中断。

研究一下每个分页有没有独立的网址,如 ...


我大概浏览了一下网址,每一页网址相应的page=*。第1页的网址,我改成http://www.itjuzi.com/company?user_id=288205&page=1,显示也是正确的。
对于这样的网页结构,我不设置翻页,做好内容抓取之后,如何批量导入线索呢?

举报 使用道具
地板
Fuller 管理员 发表于 2016-9-16 16:43:03 | 只看该作者
2445406817 发表于 2016-9-16 16:41
我大概浏览了一下网址,每一页网址相应的page=*。第1页的网址,我改成http://www.itjuzi.com/company?us ...

可以在会员中心导入,参看:http://www.gooseeker.com/doc/article-258-1.html
构造网址可以用excel
举报 使用道具
5#
2445406817 中级会员 发表于 2016-9-16 16:53:06 | 只看该作者
Fuller 发表于 2016-9-16 16:43
可以在会员中心导入,参看:http://www.gooseeker.com/doc/article-258-1.html
构造网址可以用excel ...

Fuller大神,还有没有更详细一些的资料了。我想看那个视频来着,但是看不了。

举报 使用道具
6#
Fuller 管理员 发表于 2016-9-16 18:17:46 | 只看该作者
2445406817 发表于 2016-9-16 16:53
Fuller大神,还有没有更详细一些的资料了。我想看那个视频来着,但是看不了。

...

可以看这个文档:http://www.gooseeker.com/doc/thread-667-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 21:33