我想请教一个抓回帖的问题

情况是,同一个网页中的回帖有两种形式。
1. 我是点newBckt再建一个吗?还是令外在同一主题名下再建一个schema?
2. 在上面的情况下,我如果要翻页的话,是两个都需要设置marker吗?
谢谢!

论坛回帖抓取技巧

有两种解决方案,但是都有局限性:

1,想办法找到其共性,尽量用一个data schema适应两种情况

2,如果无法适应,如果两种回帖出现在同一个网页上,可以用两个bucket,分别存储两种回帖。但是,问题是:
a,如果采用样例复制品抓取多实例,因为做映射的时候不可能总是用第一和第二个回帖,这样计算出来的样例复制品规则就不会从第一个帖子抓起。如果是企业版用户的话,还可以手工调整一下抓取规则,但是在线版用户调整不了,所以要想办法用FreeFormat映射抓取多实例
b,可能会出现一种情况:有时候某个网页上只有其中一类回帖,另一个时候另一个网页上只有另一类回帖,此时,为任何一个bucket的信息属性设置key特性都不合适,那么就都不设置key特性。这样只能采用普通抓取模式,在DataScraper的菜单中有普通模式这一项,或者在crontab.xml将waitOnload设置为true,一般对论坛网站是有效的,如果要抓取AJAX网页,waitOnload就失效了。