表单里面偶数行class是“even”,包括4个样例;奇数行class是“odd”,也包括4个样例,弱问这种情况怎么把所有行都抓下来呢?样例复制只能弄出来一行的,freeformat只抓出来每行第一个样例。真不知道哪个地方映射不对
按照教程步骤,在做完一个样例后,点map可以生成结果数据,但是只有一条记录,想把页面列表里的手机、型号、价格都抽出来,就做去激活第二个样例后,但执行map时,弹出这个错误是怎么回事?
做样例复制品映射的时候,必须在DOM树的同一层选择兄弟节点作映射
可以不让MetaStudio自动选择,在Bucket Editor这个工作台上,定义的信息结构窗口顶部有个tab,显示"FreeFormat"字样,在上面点击鼠标右键,有弹出菜单,选择“首选项”,里面有个定位偏好,可以设置成“绝对定位”,也可以尝试其它的,比如“只用ID”
如果是在线版还有另外一个方法,就是手工稍微修改一下抓取规则,将even和odd都包括进去
能不能再说说“手工稍微修改一下抓取规则”?用样例复制只能有两个样例啊,而even跟odd本身都各需要两个样例,还是不懂的说
MetaStuio能够自动生成抓取规则,但是灵活性不够,可以保持自动生成的抓取规则的框架不变,手工细调里面的规则,比如,本来xpath是div[3]/div[@class='even']/text(),微调成div[3]/div[@class='even' or @class='odd']/text(),这样就能两种情况都兼顾了
xpath有教程么?我说的网页在http://www.privateschoolreview.com/,我用的土办法是把一排的4个州都抓在bucket里面,这样样例就是even和odd,可以把所有州都弄下来。还有别的简单直观点的办法把州的链接都抓下来么?非常感谢
把主题名帖出来,我们可以针对您的信息结构进行评述
GBHW_private_highschools_state 对了还有个问题:如果碰上“Timeout to load the page",线索统计显示”fetched“为2,是不是2个线索因为网页不能加载没有提取到?这种情况怎么完成那2个线索的提取呢?
这个网页上的信息不是一个简单的列表,而是有两个维度,所以,需要定义树状整理箱结构,最深一层的容器节点(column)存储同一行的多个实例,上一层容器节点(list)存储多行信息,这两层都用样例复制品规则,可以自然避开event, odd的问题。
除此之外,我多定义了一层容器节点(state),看起来是多余的,目的是提高定位精度,将FreeFormat @class=section映射给state这个节点,目的是让网页抓取器先选定一个网页范围,然后在这个范围中再用抓取规则进行抓取。
请参看我定义的信息结构:demo_GBHW_private_highschools_state
怎样使用树状结构,请参看《抓取开心网粉丝信息》
学习中。。。太感谢了
之前碰到那些奇偶行烦到咩咁……
这个网站太慢了,可能需要提高超时时间,在DataScraper菜单有这项,crontab.xml中也有这项。crontab.xml中的设置享有更高优先级
这个信息结构有个缺点,您最好至少给一个信息属性设置key特性。否则,只能用DataScraper的普通模式,抓取速度更慢
duplication happens in wrong position in top block
按照教程步骤,在做完一个样例后,点map可以生成结果数据,但是只有一条记录,想把页面列表里的手机、型号、价格都抽出来,就做去激活第二个样例后,但执行map时,弹出这个错误是怎么回事?
要在DOM树的同一层做映射
做样例复制品映射的时候,必须在DOM树的同一层选择兄弟节点作映射
MetaStudio会自动选择一些FreeFormat
可以不让MetaStudio自动选择,在Bucket Editor这个工作台上,定义的信息结构窗口顶部有个tab,显示"FreeFormat"字样,在上面点击鼠标右键,有弹出菜单,选择“首选项”,里面有个定位偏好,可以设置成“绝对定位”,也可以尝试其它的,比如“只用ID”
如果是在线版还有另外一个方法,就是手工稍微修改一下抓取规则,将even和odd都包括进去
能不能再说说“手工
能不能再说说“手工稍微修改一下抓取规则”?用样例复制只能有两个样例啊,而even跟odd本身都各需要两个样例,还是不懂的说
手工修改抓取规则的方法
MetaStuio能够自动生成抓取规则,但是灵活性不够,可以保持自动生成的抓取规则的框架不变,手工细调里面的规则,比如,本来xpath是div[3]/div[@class='even']/text(),微调成div[3]/div[@class='even' or @class='odd']/text(),这样就能两种情况都兼顾了
xpath有教程么?我说的
xpath有教程么?我说的网页在http://www.privateschoolreview.com/,我用的土办法是把一排的4个州都抓在bucket里面,这样样例就是even和odd,可以把所有州都弄下来。还有别的简单直观点的办法把州的链接都抓下来么?非常感谢
主题名是什么
把主题名帖出来,我们可以针对您的信息结构进行评述
GBHW_private_highschools_stat
GBHW_private_highschools_state
对了还有个问题:如果碰上“Timeout to load the page",线索统计显示”fetched“为2,是不是2个线索因为网页不能加载没有提取到?这种情况怎么完成那2个线索的提取呢?
抓取网页上树状信息
这个网页上的信息不是一个简单的列表,而是有两个维度,所以,需要定义树状整理箱结构,最深一层的容器节点(column)存储同一行的多个实例,上一层容器节点(list)存储多行信息,这两层都用样例复制品规则,可以自然避开event, odd的问题。
除此之外,我多定义了一层容器节点(state),看起来是多余的,目的是提高定位精度,将FreeFormat @class=section映射给state这个节点,目的是让网页抓取器先选定一个网页范围,然后在这个范围中再用抓取规则进行抓取。
请参看我定义的信息结构:demo_GBHW_private_highschools_state
怎样使用树状结构,请参看《抓取开心网粉丝信息》
学习中。。。太感谢
学习中。。。太感谢了
这个一定要mark住
之前碰到那些奇偶行烦到咩咁……
网页抓取超时
这个网站太慢了,可能需要提高超时时间,在DataScraper菜单有这项,crontab.xml中也有这项。crontab.xml中的设置享有更高优先级
这个信息结构有个缺点,您最好至少给一个信息属性设置key特性。否则,只能用DataScraper的普通模式,抓取速度更慢