微博信息抓取翻页问题

Fuller大神:
你好!最近在搜集新浪微博时遇到了翻页的问题,坛子里也有很多教程,但是发现都不适合,都无法完成翻页。
目标页面:http://weibo.com/1764570453/B30DgfXaC?type=repost
主题名是:G1
采用了延长模式 和 积极模式
试了几种方法问题如下:
1、设置线索为偏好ID
问题:翻到第二页就停止了 等了很久出现timeout
2、设置偏好CLASS
问题:翻来翻去都是第1页

求教大神如何解决。

新问题,无法翻页

还是这个主题,发现这个网页比较特殊,在data执行完一次抓取之后,打开meta,发现定义的翻页线索的节点号会改变。观察DOM树后发现里面有2块区域是和翻页有关的。
在data的日志中出现这样的语句:ExtractSpiderClue_Simp:formatOutput G1 WARN: More inthread clues are found and ignored
2014-05-27 18:30:35 LoadDelayedPage:getNodeWithinScope G1 WARN: More than one nodes are located. Only the first is considered
看起来意思好像是有多个线索出现,只采用第一个线索,所以无法翻页?
还有为什么定义的翻页线索的节点号会改变呢?

有重复的网页块

在新浪微博网页上,有重复的网页块,比如div[@class='WB_media_expand feed_repeat S_line1 S_bg4']有三块,第三块下面才有需要的内容,而自动生成的规则不能区别其中某一块,所以需要手工调整抓取规则,只有企业版用户才能调整规则

稍等几天,我们升级一下版本

我们决定把在线版功能加强一下,允许手工修改抓取规则,可能需要到周末才能出新版本

升级成4.11.12

MetaStudio升级成4.11.12,可以手工修改抓取规则,具体用法参看《新浪微博转发评论翻页抓取方法》