快捷导航
5 3695

采集多层级网页数据

ym 于 2015-10-23 09:47 发表 [复制链接]
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-5-6 15:08

alexchang 新手上路 发表于 2016-5-6 11:21:27 | 显示全部楼层
请问有什么方法使层级采集运行速度加快吗?看着打数机一页一页地加载再从头浏览到尾感觉效率不高
举报 使用道具
Fuller 管理员 发表于 2016-5-6 12:13:57 | 显示全部楼层
alexchang 发表于 2016-5-6 11:21
请问有什么方法使层级采集运行速度加快吗?看着打数机一页一页地加载再从头浏览到尾感觉效率不高 ...

你是看到滚屏吧?从头滚到底?

如果是手工启动的抓取,是否滚屏是用DS打数机的配置菜单进行配置的,配置好以后,每个抓取规则都用。

你还可以启动爬虫群,把要抓取的规则设置上调度参数,就会放入爬虫罗盘,然后在DS客户端,启动多个爬虫群窗口,他们就等待接受任务了。多个窗口并行抓取。

配置方法参看:http://www.gooseeker.com/doc/article-197-1.html

进入会员中心就能看到爬虫管理
举报 使用道具
alexchang 新手上路 发表于 2016-5-6 13:43:13 | 显示全部楼层
Fuller 发表于 2016-5-6 12:13
你是看到滚屏吧?从头滚到底?

如果是手工启动的抓取,是否滚屏是用DS打数机的配置菜单进行配置的,配置 ...

谢谢,我是用的最初级的层级采集,第一规则抓取url给第二规则作为线索,然后手动用打数机“单搜”,我看了一下一共60条线索,但是第二规则抓取的时候每条线索走得都很慢,一条线索差不多得3-4分钟甚至更多,这能否通过运用爬虫群提高效率?
举报 使用道具
gz51837844 管理员 发表于 2016-5-6 14:39:40 | 显示全部楼层
你看一下打数机DS菜单项的超时时长参数设置的是多少
缺省应该是1分钟
你的描述是一条线索要3-4分钟,那可能是这个参数设置得太大了
举报 使用道具
alexchang 新手上路 发表于 2016-5-6 15:08:39 | 显示全部楼层
gz51837844 发表于 2016-5-6 14:39
你看一下打数机DS菜单项的超时时长参数设置的是多少
缺省应该是1分钟
你的描述是一条线索要3-4分钟,那可能 ...

好的,谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 深圳市咨询投诉分析
  • 去资源库下载规则,轻松抓数据
  • 下载安装Gooseeker爬虫软件
  • 【第60期】集搜客爬虫入门
  • 爬虫能做什么?

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-24 12:49