抓取数据，请问如何设置只抓取前1000个商品数据。

Mon, 06/10/2013 - 10:30 — lovesmile

规则1：fluke 抓取搜索页面淘宝商品每个URL（翻页）
规则2：fluke_sales 进入每个URL，抓取详细数据。

我需要的是这样的：
规则1 翻页100页，抓取了4000 只要前26页就OK。
规则2 抓取前26页的26*40=1040个宝贝。

不知道我如何设置，使每次我抓取数据的时候，只抓取前26页的1040个宝贝。
需要2个都设置吗？
规则1：25
-1

规则2：-1
-1040

设置了这些参数，规则2抓取的数据是4000个宝贝里的1040个，还是按照顺序从头抓取的1040个呢。

MetaSeeker工具包

Mon, 06/10/2013 - 10:34 — Fuller

depth和width

depth=26表示翻26页，width=1024表示抓取1040个第二个主题的独立网页。1040是按顺序从头抓的，DataScraper不会挑着抓

Mon, 06/10/2013 - 12:23 — lovesmile

问题是这样的

规则完毕之后，都是-1 没有限制抓取，第一次抓取的时候，抓取了500个关掉了。

现在我配置了规则1*depth=26，规则2*width=1024 但是抓取下来的商品，不是从第一页开始的，好像还是接着我上次抓取的位置抓取。

请问如何设置，规则2才可以从第一页抓取呢？

Mon, 06/10/2013 - 14:30 — Fuller

要重抓吗

如果要重抓，需要将第一个主题的updateClue=true，而且dupRatio=100，这样就会激活所有线索

Tue, 06/11/2013 - 21:48 — lovesmile

我对这方面的理解不是太清楚

创建规则之前，先创建了unit，然后手动运行unit，抓取了8页，我就关掉了，然后开始编辑规则unit_sales
编辑完毕，crontab.xml文件里面，设定了抓取的宽度，比如，我抓取前45页的45*40=1800个宝贝信息。
第一个主题的updateClue=true，第二个主题的updateClue=flase。dupRatio我都设置成0。

然后开始抓取数据，结果一开始显示出现的，是线索8*40=320个，而不是1800个。

如果我先重抓，第一个主题的updateClue=true，还需要设置其他的吗？

谢谢~

Tue, 06/11/2013 - 22:27 — Fuller

dupRatio设置成100

dupRatio设置成100比较合理

GooSeeker