我在抓取网页时,一旦翻页数比较多的时候就会出现很不稳定现象,例如有2000,那有时候翻页翻了10业左右停止了,有时候翻了100多页停止,但是始终没有全部抓完过,这个怎么处理比较好?不管是相对翻页还是记号翻译我都试过了。
有多种方法可以试: 1,增加超时时长 2,在crontab.xml增加minIdle和maxIdle,让翻页间隔随机时间 3,如果每个分页都有独立的url网址,那么翻页线索就不要设置成inthread线索,会产生很多线索,而且会变得比较慢
有时候也许需要打开AJAX抓取选项,否则超时时长就可能没有太大意义。
可以将主题名帖出来看看
XuRsch_lvl1 XuRsch_lvl2 帮我看看呢!我之前运行始终不行~
XuRsch_lvl1这个主题我没法检查,因为样本页面是本地页面,我看不到
XuRsch_lvl2同一个主题名下有两个信息结构,但是,您定义的这两个信息结构完全一样,为什么要这样做?通常,同一个主题名下多个信息结构是为了应对网页结构变体,如果完全两个不同的抓取目的,则需要定义两个不同的主题。
XuRsch_lvl2主题的信息结构的问题: 1,目前没有给任何一个信息属性设置key特性,那么只能用DataScraper的普通抓取模式。如果想用快速模式,或者想抓取AJAX网页,必须至少给一个信息属性设置key特性 2,c1,c2两层是没有意义的,删除它们,将@class='tab_cont'这个FreeFormat映射给顶层ctg 3,线索映射选择的DOM节点离“下一页”的节点太远,应该选择@class='hx_paging'那个节点,或者更往下的节点,比如@class='next'的那个节点 4,选择MetaStudio菜单“配置”-〉“首选项”,显示一个窗口,里面有两个tab,选择“线索定位”那个,选中“偏好class”,再点击viewSCE,就会看到生成的线索抓取规则的变化,即生成XPath表达式变短了,适应网页结构变化的能力提高了 5,abstract那个信息属性想抓取什么内容?那样设置什么也抓取不到,因为那个网页位置上什么文本内容也没有
我修改后的主题名是test_XuRsch_lvl2,可以加载上看看区别在哪。
另外,如果要从第一页开始抓起,您需要用第一页作为样本页面。
和讯这个网站分页太多,难保不出现中断,一种解决方案是:如果从100页开始中断,那么您从100页开始再生成一个线索,那么这次就会从第100页开始翻页。生成线索的方法:先加载目前这个信息结构,然后,将第100页的url地址输入地址输入栏,点击回车,开始显示第100页,等显示完了,工具条中部的图标会变成红色,那么就可以选择MetaStudio菜单“文件”-〉“刷新DOM”,然后选择“分析页面”,应该只显示一个提示框,询问您是否需要修改主题名,这表示成功分析完了,那么点击工具条上的“Instruction”按钮,即可生成一条新线索。
如果有企业版,就很容易利用线索管理界面直接生成线索。
好的,学习了~谢谢!是的hexun我为了方便,就在本地电脑集成了一个xml文件~
可能是目标网站故意不让翻
有多种方法可以试:
1,增加超时时长
2,在crontab.xml增加minIdle和maxIdle,让翻页间隔随机时间
3,如果每个分页都有独立的url网址,那么翻页线索就不要设置成inthread线索,会产生很多线索,而且会变得比较慢
有时候也许需要打开AJAX抓取选项,否则超时时长就可能没有太大意义。
可以将主题名帖出来看看
XuRsch_lvl1 XuRsch_lvl2 帮
XuRsch_lvl1
XuRsch_lvl2
帮我看看呢!我之前运行始终不行~
和讯研报抓取规则的问题
XuRsch_lvl1这个主题我没法检查,因为样本页面是本地页面,我看不到
XuRsch_lvl2同一个主题名下有两个信息结构,但是,您定义的这两个信息结构完全一样,为什么要这样做?通常,同一个主题名下多个信息结构是为了应对网页结构变体,如果完全两个不同的抓取目的,则需要定义两个不同的主题。
XuRsch_lvl2主题的信息结构的问题:
1,目前没有给任何一个信息属性设置key特性,那么只能用DataScraper的普通抓取模式。如果想用快速模式,或者想抓取AJAX网页,必须至少给一个信息属性设置key特性
2,c1,c2两层是没有意义的,删除它们,将@class='tab_cont'这个FreeFormat映射给顶层ctg
3,线索映射选择的DOM节点离“下一页”的节点太远,应该选择@class='hx_paging'那个节点,或者更往下的节点,比如@class='next'的那个节点
4,选择MetaStudio菜单“配置”-〉“首选项”,显示一个窗口,里面有两个tab,选择“线索定位”那个,选中“偏好class”,再点击viewSCE,就会看到生成的线索抓取规则的变化,即生成XPath表达式变短了,适应网页结构变化的能力提高了
5,abstract那个信息属性想抓取什么内容?那样设置什么也抓取不到,因为那个网页位置上什么文本内容也没有
我修改后的主题名是test_XuRsch_lvl2,可以加载上看看区别在哪。
另外,如果要从第一页开始抓起,您需要用第一页作为样本页面。
和讯这个网站分页太多,难保不出现中断,一种解决方案是:如果从100页开始中断,那么您从100页开始再生成一个线索,那么这次就会从第100页开始翻页。生成线索的方法:先加载目前这个信息结构,然后,将第100页的url地址输入地址输入栏,点击回车,开始显示第100页,等显示完了,工具条中部的图标会变成红色,那么就可以选择MetaStudio菜单“文件”-〉“刷新DOM”,然后选择“分析页面”,应该只显示一个提示框,询问您是否需要修改主题名,这表示成功分析完了,那么点击工具条上的“Instruction”按钮,即可生成一条新线索。
如果有企业版,就很容易利用线索管理界面直接生成线索。
好的,学习了~谢谢!
好的,学习了~谢谢!是的hexun我为了方便,就在本地电脑集成了一个xml文件~