重庆市数据第一层  首页
重庆市数据第二层  列表页
重庆市数据第三层  详情页


上面是主题名和 规则


http://www.cq.gov.cn/publicity
我爬该网站的数据   我初步估算了下  按照目前的速度   需要19天才能把我需要的部分数据 爬完~   感觉有点不可思议
是不是我用法不对呢? 请麻烦帮解答下?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-12-4 13:11

沙发
Fuller 管理员 发表于 2018-12-3 15:46:16 | 只看该作者
勾上定时器触发可能就好了,有些网页上有一直运行的脚本程序,影响抓取速度,勾上定时器触发会跳过这些程序。DS打数机菜单 配置-》定时器触发
举报 使用道具
板凳
464049578 初级会员 发表于 2018-12-4 11:40:36 | 只看该作者
Fuller 发表于 2018-12-3 15:46
勾上定时器触发可能就好了,有些网页上有一直运行的脚本程序,影响抓取速度,勾上定时器触发会跳过这些程序 ...

我试了,感觉没有好大的变化,我爬取四万条数据,估计还是要几天时间呢?

还能爬取更快的解决办法吗?

有人回复我说  他爬一个类似集搜客社区的网站 只要几分钟。请问怎么解决呢
举报 使用道具
地板
Fuller 管理员 发表于 2018-12-4 12:50:12 | 只看该作者
464049578 发表于 2018-12-4 11:40
我试了,感觉没有好大的变化,我爬取四万条数据,估计还是要几天时间呢?

还能爬取更快的解决办法吗?

有没有用爬虫群模式?爬虫群模式可以多个窗口同时运行。具体参看高级教程中的爬虫群设置:https://www.gooseeker.com/doc/article-197-1.html

如果是爬虫群模式,要在会员中心设置调度参数,这个网站有时候比较慢,你设置一下“定时器触发”,勾上这个选项,可以加快速度

如果是单搜或者集搜这样的手工调度模式,要在DS打数机菜单中设置,菜单是 配置-》定时器触发

还是用爬虫群模式吧,可以同时开4个左右的窗口,都爬这个网站。

另外,我看到你的规则,第三级,高级设置勾上了特殊字体,这个会变慢,特殊字体是指猫眼网站上的加了密的文字。
还有,如果要抓取纯文本,就勾上纯文本,可以把js脚本程序也过滤掉。
举报 使用道具
5#
464049578 初级会员 发表于 2018-12-4 13:11:44 | 只看该作者
Fuller 发表于 2018-12-4 12:50
有没有用爬虫群模式?爬虫群模式可以多个窗口同时运行。具体参看高级教程中的爬虫群设置:https://www.go ...

好的 我试试哈 非常感谢~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 09:15