新浪微博关键词搜索结果抓取——报错&崩溃

Mon, 09/10/2012 - 16:31 — chaunceyf

在建立newBckt前，刷新了DOM，并在配置中勾掉了“自动刷新DOM”，以及选上了“延长模式”。建立完毕提取规则后（单一页面，无翻页设置），无论选择“MAP”还是“Schema”都会弹框提示“Error: Cannot get theParent”，点击ok后再次弹框提示“Error: Fail to LocateToId”，之后火狐崩溃关闭。
之前采集非AJAX页面不会出现该问题，是否我忽略了什么设置？

Web信息提取

Tue, 09/11/2012 - 09:19 — Fuller

新浪微博抓取

新浪微博用Javascript自动刷新DOM很频繁，如果在定义抓取规则过程中DOM被刷新了，很多节点就变化了，用MetaStudio生成规则时会导致崩溃。但是用DataScraper进行抓取不会受影响。

为了能够为新浪微博定义抓取规则（一般只需为关键词搜索结果定义抓取规则需这么做，其它页面不用），可以有一种方法避开上述问题：
先将样本页面存为本地HTML，针对本地HTML做抓取规则。通常我都是这么做的。

Tue, 09/11/2012 - 09:51 — Fuller

GooSeeker

新浪微博关键词搜索结果抓取——报错&崩溃

新浪微博抓取

防止崩溃的另一个方法

还是存在问题

感谢解答，存在本地还是有问题~

怎样加载本地html

Languages