信息提取不完全

第一次使用metaseeker,在提取新蛋网上的手机信息时,每页上的手机信息及分页信息都能完全提取。但是在提取京东网上的手机信息时,每页上的信息只能提取前8条,且分页提取只能提取前两页,不知道该怎么操作才能提取到完全的信息。

有很多网页信息提取技巧

一下子说不清楚,可以将你的信息结构名告诉我,我们一起看一下信息结构定义是否不合适

信息结构名

我的信息机构名为mobile360,谢谢!

另一个好一点的解决方案

参看信息结构test_mobile360_custom,为信息属性image定制XPath提取规则,双击该信息属性,就能看到设置了block特性,而且设置了XPath过滤器,使用了不同的内容提取表达式和节点定位表达式,内容提取表达式中使用通用节点descendant::node(),并限定其值为src或者src2

检查提取结果发现image

检查提取结果发现image的值没有提取到

Xpath规则有误

应该使用local-name()函数,请再次看test_mobile360,上一次那个不对,.='src'实际上比较的是值,而不是节点名

yeath

非常感谢,所有问题都解决。

谢谢您的帮助,现在

谢谢您的帮助,现在还有一个问题就是分页提取只能提取前两页

我找到原因了,就是

我找到原因了,就是那个分页DOM结构是动态的,从第5页开始也是动态的,但是节点的位置趋于固定。我现在是这样做的先分两步提取第一和第二页,第三和第四页,然后从第5页开始用相对线索把从第5页到第27页全部提取完了。我这样做是不是有点麻烦,还有没有其他简单办法。

分步提取是一个方法

很多网页翻页一次完成不了,就要分步。这个信息结构是因为选择的FreeFormat标志不合适,再看test_mobile360,点击菜单“配置”-〉“线索定位”,在弹出的对话窗中的“线索定位”部分,设置了“偏好class”,而不是缺省的“偏好id”,这样就能就近选择“下一页”那个节点上的@class=next作为定位参照(在Clue Editor工作台上按viewSCE,察看生成的规则),这就是FreeFormat的就近选择原则,参照节点和目标节点越接近,两个节点间插入其它节点的几率越低,就不容易受网页结构变化的影响。

网页图片异步加载造成的

刚打开网页时,只显示两行产品的图片,其它产品的图片的IMG 没有src属性,而有src2,只有用户翻到网页的那个位置,src2才被src替代。而您定义的信息结构中用src的内容映射到image信息属性,所以只能提取2行。一个不太理想的解决方案是将IMG元素整个提取下来,参看test_mobile360,在处理信息提取结果时再将src或者src2中的网址取出来。