我创建了一个主题为:szh_demo_tmaill_history,对http://detail.tmall.com/item.htm?id=36470320710中的交易记录进行提取。交易记录基本上都能提取出来,现在我想利用这个主题对http://detail.tmall.com/item.htm?id=36458766723这个网页也提取交易记录,网页结构都是类似的,应该怎样操作呢?
我把网页地址替换之后,之前定义的freeform和clue等信息都没有了。
我创建了一个主题为:szh_demo_tmaill_history,对http://detail.tmall.com/item.htm?id=36470320710中的交易记录进行提取。交易记录基本上都能提取出来,现在我想利用这个主题对http://detail.tmall.com/item.htm?id=36458766723这个网页也提取交易记录,网页结构都是类似的,应该怎样操作呢?
我把网页地址替换之后,之前定义的freeform和clue等信息都没有了。
使用分析页面功能
在MetaStudio上加载主题szh_demo_tmaill_history后,因为设置了AJAX抓取选项,那么会提示“后续分析”,则点击历史成交记录Tab处,看到历史成交记录后,选择菜单“后续分析”,就完成了这个主题的加载过程。
经测试,该主题上定义的整理箱可以正确加载。
然后,把第二个网址拷贝到MetaStudio地址输入栏,并回车,可以看到网页显示出来,如果网页完全加载完成,那么MetaStudio工具条中部会显示一个红色按钮,表示当前浏览器中的网页与样本页面不一样了。选择菜单“刷新DOM”,再选择“分析页面”,就完成新页面套用老主题的过程。
经测试,两个网页的结构完全一样。
为了提取第二个网页的内容,有两种方法:
1,经过上述操作以后,点击MetaStudio工具条上的Instruction按钮,就能为这个网页生成一条线索
2,在网址 http://www.metacamp.cn/datastore/manageclue.htm 上搜索到这个主题,可以为它手工添加网址,创建线索