现在真正的问题来了:http://high-schools.com/alabama/abbeville.html是子级schema GBHW_highschools_state_city_public的默认页,但是上面Public High Schools只有一个,没法做样例复制。父节点"Table"有属性class=lined,但是用freeformat映射只能抓到Public High Schools和Private High Schools的第一个样例。请教这个问题怎么解决呢?能够改到别的可以做样例复制的页面去设置bucket么?反正我改了页面以后再重新映射,出错说“The location has been changed, so the mapping makes no sense”。如何接受这个location change呢?拜谢!
不好意思自问自答。
不好意思自问自答。。。上面的问题解决了,至少从城市学校列表进入学校页面获得信息成功了,那个MetaSeeker operation_v1.0教程很管用。下面的步骤是加个城市列表,新的问题是目标主题名称可不可以是已有的主题呢?如果可以,怎么修改已有的主题,使页面地址为上级主题提取结果的首条记录呢?
主题是否是自己创建的
可以使用已有的主题名,但是如果不是自己创建的,就没有修改权限,就不能用。修改已有的信息结构可以参看这篇文章
现在真正的问题来了
现在真正的问题来了:http://high-schools.com/alabama/abbeville.html是子级schema GBHW_highschools_state_city_public的默认页,但是上面Public High Schools只有一个,没法做样例复制。父节点"Table"有属性class=lined,但是用freeformat映射只能抓到Public High Schools和Private High Schools的第一个样例。请教这个问题怎么解决呢?能够改到别的可以做样例复制的页面去设置bucket么?反正我改了页面以后再重新映射,出错说“The location has been changed, so the mapping makes no sense”。如何接受这个location change呢?拜谢!
选择一个最全的样本页面
选择一个信息最全的样本页面,在这上面定义信息结构,如果有些信息在有些网页上有,在另外的网页上没有,那么这些信息对应的信息属性不要设置key特性,这样定义出来的信息结构就能适用所有网页。
定义样例复制品规则时,要选用有多个样例的样本页面。
我是另外选了一个信
我是另外选了一个信息更全的页面,但是重新映射时出错说“The location has been changed, so the mapping makes no sense”。如何接受这个location change呢?
分析页面
选择菜单“刷新DOM”,再选择“分析页面”,会报一些错误,提示你修改映射关系,然后就可以在其上定义新的网页抓取规则了
解决了,极度感谢!
解决了,极度感谢!不过今天服务器连不上,没能完整测试一下