信息提取不完全

Thu, 07/01/2010 - 22:46 — pillarxiang

第一次使用metaseeker，在提取新蛋网上的手机信息时，每页上的手机信息及分页信息都能完全提取。但是在提取京东网上的手机信息时，每页上的信息只能提取前8条，且分页提取只能提取前两页，不知道该怎么操作才能提取到完全的信息。

Web信息提取

Thu, 07/01/2010 - 23:09 — Fuller

有很多网页信息提取技巧

一下子说不清楚，可以将你的信息结构名告诉我，我们一起看一下信息结构定义是否不合适

Thu, 07/01/2010 - 23:22 — pillarxiang

信息结构名

我的信息机构名为mobile360,谢谢！

Fri, 07/02/2010 - 10:07 — Fuller

另一个好一点的解决方案

参看信息结构test_mobile360_custom，为信息属性image定制XPath提取规则，双击该信息属性，就能看到设置了block特性，而且设置了XPath过滤器，使用了不同的内容提取表达式和节点定位表达式，内容提取表达式中使用通用节点descendant::node()，并限定其值为src或者src2

Fri, 07/02/2010 - 14:28 — pillarxiang

检查提取结果发现image

检查提取结果发现image的值没有提取到

Fri, 07/02/2010 - 14:59 — Fuller

Xpath规则有误

应该使用local-name()函数，请再次看test_mobile360，上一次那个不对，.='src'实际上比较的是值，而不是节点名

Fri, 07/02/2010 - 15:09 — pillarxiang

yeath

非常感谢，所有问题都解决。

Fri, 07/02/2010 - 12:31 — pillarxiang

谢谢您的帮助，现在

谢谢您的帮助，现在还有一个问题就是分页提取只能提取前两页

Fri, 07/02/2010 - 13:47 — pillarxiang

我找到原因了，就是

我找到原因了，就是那个分页DOM结构是动态的，从第5页开始也是动态的，但是节点的位置趋于固定。我现在是这样做的先分两步提取第一和第二页，第三和第四页，然后从第5页开始用相对线索把从第5页到第27页全部提取完了。我这样做是不是有点麻烦，还有没有其他简单办法。

Fri, 07/02/2010 - 14:17 — Fuller

很多网页翻页一次完成不了，就要分步。这个信息结构是因为选择的FreeFormat标志不合适，再看test_mobile360，点击菜单“配置”-〉“线索定位”，在弹出的对话窗中的“线索定位”部分，设置了“偏好class”，而不是缺省的“偏好id”，这样就能就近选择“下一页”那个节点上的@class=next作为定位参照（在Clue Editor工作台上按viewSCE，察看生成的规则），这就是FreeFormat的就近选择原则，参照节点和目标节点越接近，两个节点间插入其它节点的几率越低，就不容易受网页结构变化的影响。

Fri, 07/02/2010 - 09:58 — Fuller

网页图片异步加载造成的

刚打开网页时，只显示两行产品的图片，其它产品的图片的IMG 没有src属性，而有src2，只有用户翻到网页的那个位置，src2才被src替代。而您定义的信息结构中用src的内容映射到image信息属性，所以只能提取2行。一个不太理想的解决方案是将IMG元素整个提取下来，参看test_mobile360，在处理信息提取结果时再将src或者src2中的网址取出来。

GooSeeker