如何使用metaseeker爬取树状结构论坛

我之前爬取过树状论坛的一些内容,但是爬取回帖人时,所有二级以上的回复都当做二级回复一起爬取下来了,因为二级以上的回帖网页结构都是一样的,唯一的区别是缩进的字符数,但是metastudio识别不出缩进的字符数。我爬取的是新浪论坛,想问Fuller metaseeker能爬取多级的回复吗,能不能在爬取的时候就将发帖人和回帖人的关系对应起来吗?

新浪论坛抓取案例

要给一个新浪论坛的样本页面看看,刚才看了几个帖,没有发现多级嵌套回复的情况,倒是一些新闻网站的新闻跟贴经常是嵌套回复的。是否能抓取需要具体情况具体分析。

样本页面

http://club.baby.sina.com.cn/forum-85-1.html
要把论坛结构切换为树状的,这样的可以吗?

MetaSeeker可以抓取树状网页内容

MetaSeeker抓取树状网页内容,对树的深度没有限制。

您给的这个论坛里面的帖子都是一楼一楼回复的,很容易抓取。

如果,某楼指定回复另一楼的帖子, 就会在页面上显示一个嵌套的内容,如果嵌套很多层, 就难抓取了,因为不知道嵌套多少层,MetaStudio不好定义整理箱结构,因为MetaStudio的整理箱结构是固定的,如果嵌套固定是5层,那就定义5层结构,只要是固定的就行,比如新浪微博转发,只嵌套一层,就容易定义整理箱结构。但是很多网站的嵌套层次不固定,那就无法定义MetaStudio信息结构。

回复

但是所有二级以上的回复都当做二级回复一起爬取,都在一个xml文件里,无法区分,这个能解决吗?

爬取整块, 用另外的程序解析

MetaStudio可以为信息属性设置block特性, 将整块HTML片段爬下来, 再用另外一个程序进行解析,自己写个解析程序,用个递归式的调用, 可以解析无限多层

回复

有教程案例吗?