参考页面http://caipiao.taobao.com/lottery/order/united_detail.htm?spm=0.0.0.0.9B7fqy&united_id=5RUVSKQYS3WTRBOW5LIPODEFL4&db_type=0
具体映射双色球数据时(使用content提取所有文本内容),MAP的时候提示错误信息
Unconsistent node contexts:in length: pathLen=1;ctxLen=0
这是什么情况,谢谢富达人,请帮忙分析一下~
淘宝彩票信息抓取技巧
在这个网页上,上部的方案基本信息和方案详情存放于两个不同的iframe中,所以,不能用一个整理箱抓取不同iframe中的数据,需要至少创建两个整理箱
请参看demo_TB_caipiao,我创建了三个整理箱,第一个整理箱的名字是“方案”,第二个是“详情”,第三个”详情介绍“
另外,淘宝网页往往会持续不断地自动修改网页内容,在MetaStudio上,如果有些内容已经建立了映射,但是被自动修改了,点击MAP按钮可能会导致崩溃,那么就需要在网页内容加载完成后,选择菜单”文件“-〉”禁止JS“,这样就不会造成崩溃了。但是,要记得定义完信息结构后,再次解禁JS。
这个信息结构需要设置AJAX抓取选项