怎样过滤采集的内容

Fri, 05/25/2012 - 15:50 — ppq2000

我采集一个网页时，采集由命名为proitem01 proitem02...proitem06的class6个层内的内容，映射是用这6个div内的中的信息做的映射，这样把所有6个层内的的内容都采集出来了，但我不想要proitem01中的内容，怎样能过滤

MetaSeeker工具包

Fri, 05/25/2012 - 16:34 — ppq2000

现在主要是proitem01的di

现在主要是proitem01的div中的内容的超链没法按我二级提取规则提取内容，所以想过滤掉proitem01,不然在用datascraper提取的时候会报错。或者能怎样在datascraper提取二级规则的时候遇到不能提取的就直接跳过到下一个超链的地址呢

Sun, 05/27/2012 - 16:06 — Fuller

在同一主题下定义多个信息结构，每个信息结构对应不同的网页结构，这样可以应对信息结构稍微变化的情形。在使用这个方法的时候，要注意避免MetaStudio的一个约定：MetaStudio要求同一主题下的多个信息结构，在Clue Editor和Bucket Editor上，是否为空，大家要一致。不能有的信息结构定义了Clue规则，而有个没有定义。如果确实需要不同，那么，最后上载schema的那个应该选择那个最全的。

如果proitem01提取失败，本来就不想要，那就让它失败好了。可以设置DataScraper的超时时常，失败时不要等太久。

如果想删除proitem01对应的线索，只有企业版用户才能控制。

Wed, 05/30/2012 - 11:05 — ppq2000

如果proitem01提取失败

如果proitem01提取失败，本来就不想要，那就让它失败好了。可以设置DataScraper的超时时常，失败时不要等太久。

PS:但是第一条失败提取就会停止，后面的没法采集哦

Wed, 05/30/2012 - 17:00 — Fuller

不用定义proitem01的规则

如果网页上只有一个proitem01实例，如果不想抓取它，就不要给它定义抓取规则

GooSeeker