最近在学习如何提取微博数据,但是总是抓取了3页或者5页之后就自动停止了。需要在哪里设置?
主题名是什么?DataScraper下部的日志窗口中显示什么内容?
主题是weibo_t5,datascraper下面什么都没显示。。
我主要参考的是速成手册中的当当比价和翻页,然后在抓取中发现,无论是当当还是微博,都会在抓取了3-6页的时候,自动停止。
加载的时候,弹出对话框,提示说翻页规则不正确。因为不能完全加载,不能准确判断具体原因,建议: 1,自己加载一下信息结构,看看Clue Editor工作台上的翻页规则是否正确 2,新浪微博使用了很多AJAX技术,建议在MetaStudio上打开AJAX抓取选项 3,修改线索定位偏好。选择MetaStudio菜单“配置”-〉“首选项”,弹出的窗口中有两个tab,选择“线索定位”那个tab,选择“偏好class”试试。 4,另外,有些网站最下面的显示页码的翻页区域是动态加载的,有时候比网页其它内容滞后加载,有时候需要滚动到这个区域才显示,所以,建议打开DataScraper的滚屏功能
谢谢了~我再去试试
抓取规则可能不对
主题名是什么?DataScraper下部的日志窗口中显示什么内容?
额
主题是weibo_t5,datascraper下面什么都没显示。。
我主要参考的是速成手册中的当当比价和翻页,然后在抓取中发现,无论是当当还是微博,都会在抓取了3-6页的时候,自动停止。
抓取新浪微博的信息结构加载不成功
加载的时候,弹出对话框,提示说翻页规则不正确。因为不能完全加载,不能准确判断具体原因,建议:
1,自己加载一下信息结构,看看Clue Editor工作台上的翻页规则是否正确
2,新浪微博使用了很多AJAX技术,建议在MetaStudio上打开AJAX抓取选项
3,修改线索定位偏好。选择MetaStudio菜单“配置”-〉“首选项”,弹出的窗口中有两个tab,选择“线索定位”那个tab,选择“偏好class”试试。
4,另外,有些网站最下面的显示页码的翻页区域是动态加载的,有时候比网页其它内容滞后加载,有时候需要滚动到这个区域才显示,所以,建议打开DataScraper的滚屏功能
好的
谢谢了~我再去试试