刚开始使用metaseeker,在大众点评网上提取饭馆评论时,发现有些评论提取不完整,只提取出一段评论中的第一句话。在DOM结构中发现这些评论的内容对应多个#text,所以一篇评论被分成了几个部分。请问如何提取完整的一篇评论? 我的信息结构为醉苗乡,谢谢!
先为该信息属性设置block特性,并选择“特定过滤器”,选择“文本”,表示提取某个DOM节点下的所有文本,然后在做数据映射时,将#text节点的父节点映射给该信息属性。这样就能将父节点下的所有#text提取下来了。如果父节点下还有其它一些不想要的#text,就得选择“XSLT过滤器”并自定义XSLT信息提取规则片断。可以在本网站上搜索“自定义XSLT”看看相关介绍文章。
我按照您的步骤成功提取出完整的评论了,非常感谢! 另外,结果中确实出现了一些不想要的#text内容,还需要编写XSLT规则模板,这个编写好像比较复杂,不能完全看懂。会继续看看相关文章,遇到问题再来请教。谢谢您的帮忙!
使用block特性
先为该信息属性设置block特性,并选择“特定过滤器”,选择“文本”,表示提取某个DOM节点下的所有文本,然后在做数据映射时,将#text节点的父节点映射给该信息属性。这样就能将父节点下的所有#text提取下来了。如果父节点下还有其它一些不想要的#text,就得选择“XSLT过滤器”并自定义XSLT信息提取规则片断。可以在本网站上搜索“自定义XSLT”看看相关介绍文章。
非常感谢
我按照您的步骤成功提取出完整的评论了,非常感谢!
另外,结果中确实出现了一些不想要的#text内容,还需要编写XSLT规则模板,这个编写好像比较复杂,不能完全看懂。会继续看看相关文章,遇到问题再来请教。谢谢您的帮忙!