求助，翻页不稳定

XuRsch_lvl1这个主题我没法检查，因为样本页面是本地页面，我看不到

XuRsch_lvl2同一个主题名下有两个信息结构，但是，您定义的这两个信息结构完全一样，为什么要这样做？通常，同一个主题名下多个信息结构是为了应对网页结构变体，如果完全两个不同的抓取目的，则需要定义两个不同的主题。

XuRsch_lvl2主题的信息结构的问题：
1，目前没有给任何一个信息属性设置key特性，那么只能用DataScraper的普通抓取模式。如果想用快速模式，或者想抓取AJAX网页，必须至少给一个信息属性设置key特性
2，c1，c2两层是没有意义的，删除它们，将@class='tab_cont'这个FreeFormat映射给顶层ctg
3，线索映射选择的DOM节点离“下一页”的节点太远，应该选择@class='hx_paging'那个节点，或者更往下的节点，比如@class='next'的那个节点
4，选择MetaStudio菜单“配置”-〉“首选项”，显示一个窗口，里面有两个tab，选择“线索定位”那个，选中“偏好class”，再点击viewSCE，就会看到生成的线索抓取规则的变化，即生成XPath表达式变短了，适应网页结构变化的能力提高了
5，abstract那个信息属性想抓取什么内容？那样设置什么也抓取不到，因为那个网页位置上什么文本内容也没有

我修改后的主题名是test_XuRsch_lvl2，可以加载上看看区别在哪。

另外，如果要从第一页开始抓起，您需要用第一页作为样本页面。

和讯这个网站分页太多，难保不出现中断，一种解决方案是：如果从100页开始中断，那么您从100页开始再生成一个线索，那么这次就会从第100页开始翻页。生成线索的方法：先加载目前这个信息结构，然后，将第100页的url地址输入地址输入栏，点击回车，开始显示第100页，等显示完了，工具条中部的图标会变成红色，那么就可以选择MetaStudio菜单“文件”-〉“刷新DOM”，然后选择“分析页面”，应该只显示一个提示框，询问您是否需要修改主题名，这表示成功分析完了，那么点击工具条上的“Instruction”按钮，即可生成一条新线索。

如果有企业版，就很容易利用线索管理界面直接生成线索。

Sun, 03/24/2013 - 17:50 — Fuller

可能是目标网站故意不让翻

有多种方法可以试：
1，增加超时时长
2，在crontab.xml增加minIdle和maxIdle，让翻页间隔随机时间
3，如果每个分页都有独立的url网址，那么翻页线索就不要设置成inthread线索，会产生很多线索，而且会变得比较慢

有时候也许需要打开AJAX抓取选项，否则超时时长就可能没有太大意义。

可以将主题名帖出来看看

Tue, 03/26/2013 - 15:10 — Johnson

GooSeeker

求助，翻页不稳定

可能是目标网站故意不让翻

XuRsch_lvl1 XuRsch_lvl2 帮

和讯研报抓取规则的问题

好的，学习了~谢谢！

切换语言