快捷导航

重庆市数据第一层  首页
重庆市数据第二层  列表页
重庆市数据第三层  详情页


上面是主题名和 规则


http://www.cq.gov.cn/publicity
我爬该网站的数据   我初步估算了下  按照目前的速度   需要19天才能把我需要的部分数据 爬完~   感觉有点不可思议
是不是我用法不对呢? 请麻烦帮解答下?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 6 天前

Fuller 管理员 发表于 7 天前 | 显示全部楼层
勾上定时器触发可能就好了,有些网页上有一直运行的脚本程序,影响抓取速度,勾上定时器触发会跳过这些程序。DS打数机菜单 配置-》定时器触发
举报 使用道具
464049578 新手上路 发表于 6 天前 | 显示全部楼层
Fuller 发表于 2018-12-3 15:46
勾上定时器触发可能就好了,有些网页上有一直运行的脚本程序,影响抓取速度,勾上定时器触发会跳过这些程序 ...

我试了,感觉没有好大的变化,我爬取四万条数据,估计还是要几天时间呢?

还能爬取更快的解决办法吗?

有人回复我说  他爬一个类似集搜客社区的网站 只要几分钟。请问怎么解决呢
举报 使用道具
Fuller 管理员 发表于 6 天前 | 显示全部楼层
464049578 发表于 2018-12-4 11:40
我试了,感觉没有好大的变化,我爬取四万条数据,估计还是要几天时间呢?

还能爬取更快的解决办法吗?

有没有用爬虫群模式?爬虫群模式可以多个窗口同时运行。具体参看高级教程中的爬虫群设置:https://www.gooseeker.com/doc/article-197-1.html

如果是爬虫群模式,要在会员中心设置调度参数,这个网站有时候比较慢,你设置一下“定时器触发”,勾上这个选项,可以加快速度

如果是单搜或者集搜这样的手工调度模式,要在DS打数机菜单中设置,菜单是 配置-》定时器触发

还是用爬虫群模式吧,可以同时开4个左右的窗口,都爬这个网站。

另外,我看到你的规则,第三级,高级设置勾上了特殊字体,这个会变慢,特殊字体是指猫眼网站上的加了密的文字。
还有,如果要抓取纯文本,就勾上纯文本,可以把js脚本程序也过滤掉。
举报 使用道具
464049578 新手上路 发表于 6 天前 | 显示全部楼层
Fuller 发表于 2018-12-4 12:50
有没有用爬虫群模式?爬虫群模式可以多个窗口同时运行。具体参看高级教程中的爬虫群设置:https://www.go ...

好的 我试试哈 非常感谢~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • windows高清屏幕显示模糊的解决方法
  • 修改和找回密码——微信登录集搜客GooSeeke
  • 网络爬虫自动打验证码避免重复打码
  • 大型百货商场会员画像描绘
  • 自动导入导出数据

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-12-10 15:38