抓取规则,我设置了滚屏,线索大概有80个。 配置好文件,DataScrape开启全屏之后,开始抓取数据,一开始出现的线索是20个,这都是滚屏的,20个抓取之后,出现60个线索,这些不滚屏了直接抓取。
当然如果,一开始直接出现80个,就没有问题呢,不过一般线索是分开的。
您是想让他们都滚屏还是前20个滚屏后60个不滚屏
80个线索,我抓取的时候,规则2一开始显示有20个,之后又显示60个。 总之最后肯定都抓完了,但是如果出现这样的情况(线索分开了),前面的是 滚屏,后面的就不滚屏,我想都滚屏的
使用crontab.xml还是手动批量抓取?
在crontab.xml中启动了两个thread吗?一个抓了20,一个抓了60?如果是两个thread,将他们的滚屏参数都设上,不管分多少批都会用滚屏
我没有设置他们抓多少,规则1是抓取所有商品的URL ,规则2是根据URL 进入详细页面抓取数据。 问题出在规则2,自动把总线索80个,分成2批线索(有的时候是一起,什么原因就不知道了)
规则1,我没有设置滚屏,规则2 我设置的。
如果规则2,先出现60个线索 ,再出现20个线索,第二个就不滚屏了~~我想都滚屏 ,在哪里设置呢?
第二个规则的width参数如果是-1,那么就抓取所有线索。
如果两个规则用两个thread并行抓取,第一个规则还没有抓取完,第二个规则就开始统计当前有多少个线索,那么就会分成两批。
如果想用一批,那么将两个规则放在同一个thread中。
两批的话,第一批滚屏,第二批不滚屏的情况似乎不可能出现
crontab下面2个thread 分别是规则1,规则2. 规则2是根据规则1抓取的URL进入每一个商品详细页面,抓取数据。 配置好文件,开始抓取,我遇到很多次,同一个规则里卖弄,线索被拆开来抓。 以前虽然也设置了滚屏,但是没有全屏打开DataScrape,打开了能看到滚动。
我那2个测试的规则是: 规则1:cxw_njtxdz阳_fluke 规则2:cxw_njtxdz阳_fluke_sales
前面已经说过了,如果两个thread,并行运行,第二个规则很可能被分成两批。
要滚屏的话,一定要打开全屏模式,否则滚屏基本就没有效果了
以上的问题,线索被分开这个无所谓,关键是分开之后第二批就不滚屏了,有些数据就抓取不到。
请问如何设置 ,使第二批的线索也滚屏呢?(我开的是全屏)
把crontab.xml通过email发给我,我测试一下
~
没有看懂
您是想让他们都滚屏还是前20个滚屏后60个不滚屏
我是想都滚屏,怎么做呢?
80个线索,我抓取的时候,规则2一开始显示有20个,之后又显示60个。 总之最后肯定都抓完了,但是如果出现这样的情况(线索分开了),前面的是 滚屏,后面的就不滚屏,我想都滚屏的
使用crontab.xml吗?
使用crontab.xml还是手动批量抓取?
在crontab.xml中启动了两个thread吗?一个抓了20,一个抓了60?如果是两个thread,将他们的滚屏参数都设上,不管分多少批都会用滚屏
使用crontab.xml, 规则是这样的
我没有设置他们抓多少,规则1是抓取所有商品的URL ,规则2是根据URL 进入详细页面抓取数据。
问题出在规则2,自动把总线索80个,分成2批线索(有的时候是一起,什么原因就不知道了)
规则1,我没有设置滚屏,规则2 我设置的。
如果规则2,先出现60个线索 ,再出现20个线索,第二个就不滚屏了~~我想都滚屏 ,在哪里设置呢?
width等于几
第二个规则的width参数如果是-1,那么就抓取所有线索。
如果两个规则用两个thread并行抓取,第一个规则还没有抓取完,第二个规则就开始统计当前有多少个线索,那么就会分成两批。
如果想用一批,那么将两个规则放在同一个thread中。
两批的话,第一批滚屏,第二批不滚屏的情况似乎不可能出现
width设置的都是-1
crontab下面2个thread 分别是规则1,规则2.
规则2是根据规则1抓取的URL进入每一个商品详细页面,抓取数据。
配置好文件,开始抓取,我遇到很多次,同一个规则里卖弄,线索被拆开来抓。
以前虽然也设置了滚屏,但是没有全屏打开DataScrape,打开了能看到滚动。
我那2个测试的规则是:
规则1:cxw_njtxdz阳_fluke
规则2:cxw_njtxdz阳_fluke_sales
两个thread的话这种情况很正常
前面已经说过了,如果两个thread,并行运行,第二个规则很可能被分成两批。
要滚屏的话,一定要打开全屏模式,否则滚屏基本就没有效果了
第二个规则,线索被分开之后,第二次的线索就不滚屏了
以上的问题,线索被分开这个无所谓,关键是分开之后第二批就不滚屏了,有些数据就抓取不到。
请问如何设置 ,使第二批的线索也滚屏呢?(我开的是全屏)
把crontab.xml email给我
把crontab.xml通过email发给我,我测试一下
已发送
~