怎样添加新的线索(待抓网址)

2015-10-14 10:00| 发布者: ym| 查看: 22836| 评论: 4

摘要: 同类网址可以用一个规则来抓数据,例如,做了一个微博搜索关键词的规则,可以用来抓取各种关键词的微博网址。每个规则在保存后,都只有一个样本网址,如果输入大于1的线索数,抓完这个网址后,就会弹出如下图的提示 ...

什么情况下要添加线索?

1)提示没有等待抓取的线索时,就要添加新的线索网址或者激活线索,可参考DS打数机里的管理线索问题

2)同类网址可以用一个规则来抓数据,例如,做了一个微博搜索关键词的规则,可以添加搜索各种关键词的微博网址来采集数据

添加线索操作:

1)在打数机窗口,右击主题名,弹出菜单中选择“管理线索”->“添加”

2)逐条输入新的网址并保存,也可以批量拷贝网址进行添加。

图1 添加待抓网址

注意:做好规则后会自动把样本网页作为一条线索,但爬完后就要添加新的线索。


若有疑问可以集搜客网络爬虫
10

鲜花
1

握手

雷人
1

路过

鸡蛋

刚表态过的朋友 (12 人)

相关阅读

发表评论

最新评论

评论 Fuller 2017-11-9 09:05
BlueSky1992: 请问,一个规则,如何同时抓取不同线索的信息并且分别把不同线索的抓取内容分别保存在不同的文件夹中呢?是用集搜功能吗?还是用别的什么方法? ...
集搜功能实现不了这个需求。如果是同一个规则,那么他们的采集结果文件一定会放在同一个文件夹中。想区分他们的话,只能通过结果文件中的fullpath字段,这个字段存了线索的网址
评论 BlueSky1992 2017-11-9 02:03
请问,一个规则,如何同时抓取不同线索的信息并且分别把不同线索的抓取内容分别保存在不同的文件夹中呢?是用集搜功能吗?还是用别的什么方法?
评论 Fuller 2016-9-15 15:15
elegantcoin: 如果网址过长被截断了怎么办,好像识别不了?
如果是MS谋数台的告警,那不影响抓起,但是,如果很多长网站,那么要看他们是否能互相区分开,具体参看:http://www.gooseeker.com/doc/thread-2386-1-1.html
评论 elegantcoin 2016-9-15 15:00
如果网址过长被截断了怎么办,好像识别不了?

查看全部评论(4)

GMT+8, 2024-12-21 20:05