使用网页抓取/数据抽取/信息提取软件工具包MetaSeeker的语义结构定义工具MetaStudio的时候,从Schema List工作台上加载一个以前定义的信息结构,遇到“无法定位信息属性 No.1”错误提取,该怎么办?
遇到这个错误,说明语义结构定义工具MetaStudio无法完全成功加载原来定义的信息结构,主要原因是样本页面的结构改变了很多,即使使用GooSeeker专有的FreeFormat技术也无法完全识别目标页面结构,这个错误说明在Bucket Editor工作台上的整理箱中的第1号(从0开始编号)信息属性无法定位,也就是原来生成的XPath定位表达式失效了,使用以前的表达式找不到那个DOM节点。当遇到此类问题时,MetaStudio将尽力定位尽量多的信息属性,剩下的不能识别的需要用户再次执行数据映射和FreeFormat映射操作,重新定义信息提取规则。
此类告警不止这一个,处理方法都是一样的,还有:
需要修改被抽取数据的映射关系
遇到这个错误,说明语义结构定义工具MetaStudio无法完全成功加载原来定义的信息结构,主要原因是样本页面的结构改变了很多,即使使用GooSeeker专有的FreeFormat技术也无法完全识别目标页面结构,这个错误说明在Bucket Editor工作台上的整理箱中的第1号(从0开始编号)信息属性无法定位,也就是原来生成的XPath定位表达式失效了,使用以前的表达式找不到那个DOM节点。当遇到此类问题时,MetaStudio将尽力定位尽量多的信息属性,剩下的不能识别的需要用户再次执行数据映射和FreeFormat映射操作,重新定义信息提取规则。
此类告警不止这一个,处理方法都是一样的,还有: