目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
如何管理规则的线索
www.gooseeker.com/doc/thread-709-1-1.html]采集过程的常见问题[/url] > 如何管理规则的线索[b][size=3]一、应用场景[/size][/b] [size=3]1、[b]添加网址[/b]:做好了一个规则,不仅仅是用来采集样本网页的,还可以采集与样本网页结构相同的网页,只需把网址添加到规则中就行[/size][size=3]例如,做了一个采集某个京东商品页面的规则,就可以采集不同商品的页面,我们只需把这些商品的网址添加到规则里。,可以知道该规则是否有待抓取的线索,如果没有就需要去添加新线索或激活已有的线索,如下图。
请教:规则线索添加问题
搜索关键词不确定,需要不定时的往规则中添加新的线索,有什么方法可以让程序自动往规则中添加线索?
天猫层级规则,第一级规则的线索是什么
[attach]3315[/attach] 我下载了这三个天猫的规则,请问第一级规则是采集的网址列表吗?线索是天猫搜索结果页URL,还是要填具体商品的URL
一个规则对应的线索太多
一个规则对应的线索太多 ,怎么样才能并发采集,这样速度快些
怎么看规则中是否有线索?
怎么看规则中是否有线索?
线索添加错了规则怎么办 ?
线索添加错了规则怎么办 ?能撤销吗?
怎样通过线索编号查找规则?
怎样通过线索编号查找规则?
怎样定义样式线索翻页规则?
网页的翻页区很奇怪,翻下一页的时候翻页区会变化,下一页不总是有,无法做记号翻页线索,怎样做样式线索?
第二级规则线索为1个怎么办
我做了层级规则,也勾选了下级线索,但是我跑完第一级规则之后,第二级规则只显示1个线索 这是怎么回事?
调用规则API怎么自己上传线索
[align=center][size=3][b]在API说明里面我没有找到有关线索上传[/b][/size][size=3][b]的说明, 我想实现一个,上传一个线索,然后调用规则,规则根据上传的线索返回抓取数据, 有办法实现这样的功能么
主题、规则、整理箱、线索四者的关系
主题是采集某类网页的多个规则的工作组,当某类网页有多种网页结构时,例如淘宝的商品详情页面就有多种网页结构,这时,我们可以在同一个主题下建立多个规则
一级规则运行后,二级线索是updateClue吗?
[b]问:[/b]请问下,每次让二级规则线索清理,等待一级规则线索运行后重新添加,是updateClue参数吗?[b]答:[/b]如果是手工启动的,二级线索总是会被激活。如果是crontab.xml自动启动的,可以用updateClue控制是否激活二级线索
如何将一个规则中的线索清除掉?
写了一个规则是另一个规则的下级线索,测试的时候往这个规则中加入了700多条线索; 请问,现在我想把之间加入的线索清除掉,选择线索管理中的 撤销所有线索时,只是把所有线索设置为抓取完成,下次重新激活线索后这部分又会重新进入待抓取中; 我想的效果,把这部分彻底从该规则中删除掉。
二级规则抓取线索只有一小部分
2295244434\Image\Group\Image2\JQ]%)9L(OQN%Q_Q@ZA~365V.png[/img] 一级规则名:抓取无库存列表 二级规则名:抓取无库存列表下级详情1 我二级线索本应该是几千上万条的 但是跑了三次都只抓了几百条,是不是我的翻页问题
我的规则总有70多条线索没有采集
规则名:健客网第三层_抓大图 今天运行了好久打数机,显示也是在抓数据,中间无响应断了几次,然后我看规则里总有70多条显示未抓取