请教－页面内数据提取不完整

Wed, 03/30/2011 - 15:01 — yuyu2010

我按照《翻页抓取当当网价格数据》做了几个翻页抓取的，发现基本上都只能取到每个页面内一部分的价格信息，不知道是为什么？我的信息结构名是hxf-安娜苏。麻烦fuller帮忙看一下，谢谢

MetaSeeker工具包

Thu, 03/31/2011 - 09:42 — Fuller

抓取不全的原因

这个网页的每个产品信息的排版不一样，例如，有的有两个中文名，有的只有一个，另外，在HTML DOM上产品名放的位置也不一样。DataScraper抓取时主要依赖DOM节点的位置进行定位，另外，还会根据FreeFormat标志，本网页DOM节点定位有变化，中英文产品名又是用相同的FreeFormat标志：@class="list_product_name"，所以，定义抓取规则比较麻烦。需要采用自定义XPath或者XSLT规则。

Thu, 03/31/2011 - 09:47 — yuyu2010