常见问题 > 采集数据—常见问题导航 > 采集过程的常见问题 > 如何管理规则的线索

配套软件版本:V9及更低 集搜客网络爬虫
新版本对应教程:V10及更高 数据管家——增强版网络爬虫  的对应教程是《如何管理网络爬虫的线索


一、应用场景
1、添加网址:做好了一个规则,不仅仅是用来采集样本网页的,还可以采集与样本网页结构相同的网页,只需把网址添加到规则中就行。例如,做了一个采集某个京东商品页面的规则,就可以采集不同商品的页面,我们只需把这些商品的网址添加到规则里。
2、激活线索:另外,采集完这批网址,还想重新采集一遍,不用再添加一次,直接激活所有线索,就能重复采集这批网址。
3、删除线索:如果不想再采集这批网址,我们可以去活线索或者是删掉线索,这样爬虫就不会采集了。


(注:上面的线索和网址就是一回事,网页的网址其实就是爬虫要采集的线索)

二、网址的综合管理方法
会员中心的任务管理网页提供了综合的管理网址的方法,进入会员中心的方法如下。
方法1:在浏览器中输入会员中心网址
登录到集搜客官网,进入会员中心->任务管理,选中某个任务,进入到管理页面,就可以添加、激活、去活、删除线索,添加线索的操作参见教程http://www.gooseeker.com/doc/article-172-1.html
注意1:免费版爬虫的激活操作最多只能激活前1千条线索,如需激活更多线索,请购买付费版爬虫
注意2:去活与下面提到的撤销是相同的操作,不是删除,只是把线索的状态从等待抓取改为成功抓取,这样就不会采集它,激活后还可以再次使用。

方法2:使用数据管家的便捷按钮
数据管家是集搜客的新产品,更加便捷易用。如下图,左栏菜单有任务管理和数据管理的快捷按钮,点击以后直接进入到会员中心。



三、在集搜客DS打数机上管理网址
:数据管家的网址管理完全融入了集成化的会员中心,不再有这些管理功能了,这是DS打数机特有的。

1:通过打数机添加网址
启动Gooseeker爬虫浏览器,在浏览器的右上角,点击DS打数机按钮,进入DS打数机管理窗口,右击规则名,在弹出的快捷菜单中,统计线索和管理线索是经常用到的,其中,添加线索的操作见http://www.gooseeker.com/doc/article-129-1.html


2:通过打数机统计网址
在采集数据前,先点击一下统计线索,可以知道该规则是否有待抓取的线索,如果没有就需要去添加新线索或激活已有的线索,如下图。

3:其他网址管理功能
所有网址都采完后,通常会提示“”可逐条/批量添加新的网址;或者是激活失败线索、激活所有线索、撤销所有线索。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-11-5 22:33

沙发
Fuller 管理员 发表于 2016-11-5 22:33:10 | 只看该作者
会员中心的进入方法参看:《怎样进入会员中心?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-21 19:54