快捷导航
1 20569

如何管理规则的线索

ym 于 2015-10-22 15:57 发表 [复制链接]
常见问题 > 采集数据—常见问题导航 > 采集过程的常见问题 > 如何管理规则的线索

一、应用场景

1、添加网址:做好了一个规则,不仅仅是用来采集样本网页的,还可以采集与样本网页结构相同的网页,只需往规则添加网址就行
。例如,做了一个微博搜索关键词的规则,就可以采集不同关键词的微博搜索页面,我们只需把这些网址添加到规则里。
2、激活线索:另外,采集完这批网址,还想重新采集一遍,不用再添加一次,直接激活所有线索,就能重复采集这批网址。
3、删除线索:如果不想再采集这批网址,我们可以去活线索或者是删掉线索,这样爬虫就不会采集了。


二、网址的综合管理方法
会员中心的任务管理网页提供了综合的管理网址的方法,进入会员中心的方法如下。
方法1:在浏览器中输入会员中心网址
登录到集搜客官网,进入会员中心->任务管理,选中某个任务,进入到管理页面,就可以添加、激活、去活、删除线索,添加线索的操作参见教程http://www.gooseeker.com/doc/article-172-1.html
注意1:免费版爬虫的激活操作最多只能激活前1千条线索,如需激活更多线索,请购买付费版爬虫
注意2:去活与下面提到的撤销是相同的操作,不是删除,只是把线索的状态从等待抓取改为成功抓取,这样就不会采集它,激活后还可以再次使用。

方法2:使用数据管家的便捷按钮
数据管家是集搜客的新产品,更加便捷易用。如下图,左栏菜单有任务管理和数据管理的快捷按钮,点击以后直接进入到会员中心。
数据管家20200627-163012.png


三、在集搜客DS打数机上管理网址
:数据管家的网址管理完全融入了集成化的会员中心,不再有这些管理功能了,这是DS打数机特有的。

1:通过打数机添加网址
启动Gooseeker爬虫浏览器,在浏览器的右上角,点击DS打数机按钮,进入DS打数机管理窗口,右击规则名,在弹出的快捷菜单中,统计线索和管理线索是经常用到的,其中,添加线索的操作见http://www.gooseeker.com/doc/article-129-1.html


2:通过打数机统计网址
在采集数据前,先点击一下统计线索,可以知道该规则是否有待抓取的线索,如果没有就需要去添加新线索或激活已有的线索,如下图。
统计.png
3:其他网址管理功能
所有网址都采完后,通常会提示“”可逐条/批量添加新的网址;或者是激活失败线索、激活所有线索、撤销所有线索。
添加.png




举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-11-5 22:33

Fuller 管理员 发表于 2016-11-5 22:33:10 | 显示全部楼层
会员中心的进入方法参看:《怎样进入会员中心?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-10-2 04:19