评论信息提取不完整

Sat, 07/10/2010 - 20:51 — sarah

刚开始使用metaseeker,在大众点评网上提取饭馆评论时，发现有些评论提取不完整，只提取出一段评论中的第一句话。在DOM结构中发现这些评论的内容对应多个#text，所以一篇评论被分成了几个部分。请问如何提取完整的一篇评论？
我的信息结构为醉苗乡，谢谢！

MetaSeeker工具包

Sat, 07/10/2010 - 21:14 — Fuller

使用block特性

先为该信息属性设置block特性，并选择“特定过滤器”，选择“文本”，表示提取某个DOM节点下的所有文本，然后在做数据映射时，将#text节点的父节点映射给该信息属性。这样就能将父节点下的所有#text提取下来了。如果父节点下还有其它一些不想要的#text，就得选择“XSLT过滤器”并自定义XSLT信息提取规则片断。可以在本网站上搜索“自定义XSLT”看看相关介绍文章。

Sun, 07/11/2010 - 11:22 — sarah

非常感谢

我按照您的步骤成功提取出完整的评论了，非常感谢！
另外，结果中确实出现了一些不想要的#text内容，还需要编写XSLT规则模板，这个编写好像比较复杂，不能完全看懂。会继续看看相关文章，遇到问题再来请教。谢谢您的帮忙！

GooSeeker