规则1:fluke 抓取搜索页面 淘宝商品每个URL(翻页)
规则2:fluke_sales 进入每个URL,抓取详细数据。
我需要的是这样的:
规则1 翻页100页,抓取了4000 只要前26页就OK。
规则2 抓取前26页的26*40=1040个宝贝。
不知道我如何设置,使每次我抓取数据的时候,只抓取前26页的1040个宝贝。
需要2个都设置吗?
规则1:25
-1
规则2:-1
-1040
设置了这些参数,规则2抓取的数据是4000个宝贝里的1040个,还是按照顺序从头抓取的1040个呢。
depth和width
depth=26表示翻26页,width=1024表示抓取1040个第二个主题的独立网页。1040是按顺序从头抓的,DataScraper不会挑着抓
问题是这样的
规则完毕之后,都是-1 没有限制抓取,第一次抓取的时候,抓取了500个关掉了。
现在我配置了规则1*depth=26, 规则2*width=1024 但是抓取下来的商品,不是从第一页开始的,好像还是接着我上次抓取的位置抓取。
请问如何设置,规则2才可以从第一页抓取呢?
要重抓吗
如果要重抓,需要将第一个主题的updateClue=true,而且dupRatio=100,这样就会激活所有线索
我对这方面的理解不是太清楚
创建规则之前,先创建了unit,然后手动运行unit,抓取了8页,我就关掉了,然后开始编辑规则unit_sales
编辑完毕,crontab.xml文件里面,设定了抓取的宽度,比如,我抓取前45页的45*40=1800个宝贝信息。
第一个主题的updateClue=true,第二个主题的updateClue=flase。dupRatio我都设置成0。
然后开始抓取数据,结果一开始显示出现的,是线索8*40=320个,而不是1800个。
如果我先重抓,第一个主题的updateClue=true,还需要设置其他的吗?
谢谢~
dupRatio设置成100
dupRatio设置成100比较合理