因为做研究的原因,需要提取卓越网站某个类别产品的所有用户评论,朋友向我推荐了metastudio,非常好用,几天内我已经将一级信息结构做完,但是在提取所有用户评论时,遇到瓶颈。
我需要将卓越网站产品的用户评论提取出来,但是评论的长短不一,而且没有一种特定的可以定位评论的方法。
主要是卓越网站的评论部分,没有class值可以定位,block值也很难提取,使用xpath的表达式,好像也很难做到。这种情况下,我就不知道该如何处理,请求帮助!!!很急,谢谢。
比如下面这两个网页
http://www.amazon.cn/%E8%BD%A9%E8%BE%95%E5%89%91%E5%A4%96%E4%BC%A0%E4%BA...
http://www.amazon.co.uk/product-reviews/B000B5KMSE/ref=pd_ts_vg_h__1_cm_...
特别是这条网页,第一条评论的全部内容都很难提取出来。
violahl@hotmail.com,这是我的信箱,谢谢!
使用block特性提取网页片断
也许我理解的不对,我对你的需求理解如下:因为评论内容放在好几个text节点中,不知道怎样将所有text节点中的评论内容都提取出来。 如果是这个问题,可以使用block特性,我定义了一个信息结构,名字是:demo_amazon_comments。为信息属性"内容"设置了block特性,将DIV节点下的所有text内容都提取下来,但是有个缺陷:一些不需要的文字也被提取下来了,例如“回应”。需要在使用这些内容时先进行数据清洗。block特性的使用方法参见:提取网页内容片断
MetaSeeker速成手册增加了一章
MetaSeeker速成手册增加了一章《抓取卓越亚马逊amazon评论信息》,专门讲解怎样抓取这两个网站的用户评论