求助管理员如何批量抓取淘宝某类商品及评论的信息

之前我已经能够抓取一个商品的详情及其评论,用了两级的规则,第一级规则抓取商品详情,第二级规则抓取评论。
现在我想能够抓取某一类别的所有商品的详情及其评论,如所有羽绒服的列表如下,http://list.tmall.com/search_product.htm?spm=a221t.7047485.1996127753.6.BQ4yfV&cat=52260001&style=g&search_condition=71&from=sn_1_cat&active=1#J_crumbs
希望能够将列表中每个的商品的详情及评论信息,如果用之前的方法一个一个的定义规则抓取不太现实,希望管理员能告诉我怎么才能只定义一个规则抓取所有的商品。

附加

我已经解决了如何从列表中提取url作为下级规则的源地址,但是又发现一个新问题:天猫商城改版后,无法通过反向选择找到“累计评价”,手动点击“刷新DOM”后则可以,现在如何对“累计评价”设置索引呢,请问该如何解决这个问题呢?求fuller解答!

自动模拟点击

如何提高规则适应性?

rt,教程里的方法看了一些,设置偏好class等等,但还是有些网页会报出time out to load the page,真正能爬取的也就三分之一,您能帮我看看怎么提高适应性吗?
3级:
1、NK_商品:负责收集url
2、NK_goods:负责收集商品基本信息和模拟点击“累计评价”。
3、NK_goodcomments:负责收集评论信息。

再问个问题

1、如果再重新抓取一遍,索引号会和上次还相同吗?
2、dataScraper抓取的中途修改规则并上传成功,不重新启动dataScraper改变的规则会马上生效吗?谢谢!
3.提个不情之情,我知道您很忙,但您能抽空帮我写个NK_goods吗,我修改了几次,效果都不好,要不无法识别优惠价,要不累计评价数与销量相同,我真的很急,麻烦您了!

线索号

通常线索号是不变的,但是尽量不要假设线索号永远不变,因为在线版服务器会做定期清理,每次清理会把所有线索清理掉,号码也就变化了

在线版不自动检查规则是否改变了。

NK_goods里面不要给那么多信息属性设置key特性,那样适应性就会提高。如果还不够高的话,要对比结构不同的网页,用自定义XPath规则。在这个网站上可以搜索“自定义XPath“

谢谢

非常感谢及时的回复和建议,去掉一些key应该可以提高适应性,但是我的需求需要大多数的key,总之非常感谢!

抓取规则修改建议

1,NK_商品:用MetaStudio菜单“配置"-〉”首选项“,弹出的窗口中有两个tab,第二个是线索定位,选择偏好class,再在Clue Editor上点击”viewSCE“,看到的翻页规则会变短,这样更高适应性

2,NK_goods:不需要为所有信息属性设置key特性,否则,很多网页没有这么全的内容,就会出现Timout

如果发现失败,记录下clueid号,选择MetaStudio菜单“编辑”-〉“信息结构”-〉“加载”-〉“按线索”,输入clueid,可以加载这个网页,会自动与信息结构做匹配,看看映射失败原因

谢谢!

奥,明白了,非常感谢亲!企业版怎么订购,有那些好处?