多样例提取的问题 | GooSeeker

多样例提取的问题

Fri, 03/08/2013 - 10:20 — wereeagle

表单里面偶数行class是“even”，包括4个样例；奇数行class是“odd”，也包括4个样例，弱问这种情况怎么把所有行都抓下来呢？样例复制只能弄出来一行的，freeformat只抓出来每行第一个样例。真不知道哪个地方映射不对

Web信息提取

Login to post comments

Sat, 03/16/2013 - 23:10 — wo8000

duplication happens in wrong position in top block

按照教程步骤，在做完一个样例后，点map可以生成结果数据，但是只有一条记录，想把页面列表里的手机、型号、价格都抽出来，就做去激活第二个样例后，但执行map时，弹出这个错误是怎么回事？

Login to post comments

Sat, 03/16/2013 - 23:59 — Fuller

要在DOM树的同一层做映射

做样例复制品映射的时候，必须在DOM树的同一层选择兄弟节点作映射

Login to post comments

Fri, 03/08/2013 - 14:57 — Fuller

MetaStudio会自动选择一些FreeFormat

可以不让MetaStudio自动选择，在Bucket Editor这个工作台上，定义的信息结构窗口顶部有个tab，显示"FreeFormat"字样，在上面点击鼠标右键，有弹出菜单，选择“首选项”，里面有个定位偏好，可以设置成“绝对定位”，也可以尝试其它的，比如“只用ID”

如果是在线版还有另外一个方法，就是手工稍微修改一下抓取规则，将even和odd都包括进去

Login to post comments

Fri, 03/08/2013 - 15:20 — wereeagle

能不能再说说“手工

能不能再说说“手工稍微修改一下抓取规则”？用样例复制只能有两个样例啊，而even跟odd本身都各需要两个样例，还是不懂的说

Login to post comments

Fri, 03/08/2013 - 15:58 — Fuller

手工修改抓取规则的方法

MetaStuio能够自动生成抓取规则，但是灵活性不够，可以保持自动生成的抓取规则的框架不变，手工细调里面的规则，比如，本来xpath是div[3]/div[@class='even']/text()，微调成div[3]/div[@class='even' or @class='odd']/text()，这样就能两种情况都兼顾了

Login to post comments

Sat, 03/09/2013 - 03:01 — wereeagle

xpath有教程么？我说的

xpath有教程么？我说的网页在http://www.privateschoolreview.com/，我用的土办法是把一排的4个州都抓在bucket里面，这样样例就是even和odd，可以把所有州都弄下来。还有别的简单直观点的办法把州的链接都抓下来么？非常感谢

Login to post comments

Sat, 03/09/2013 - 09:52 — Fuller

主题名是什么

把主题名帖出来，我们可以针对您的信息结构进行评述

Login to post comments

Sat, 03/09/2013 - 10:29 — wereeagle

GBHW_private_highschools_stat

GBHW_private_highschools_state
对了还有个问题：如果碰上“Timeout to load the page"，线索统计显示”fetched“为2，是不是2个线索因为网页不能加载没有提取到？这种情况怎么完成那2个线索的提取呢？

Login to post comments

Sat, 03/09/2013 - 11:07 — Fuller

抓取网页上树状信息

这个网页上的信息不是一个简单的列表，而是有两个维度，所以，需要定义树状整理箱结构，最深一层的容器节点(column)存储同一行的多个实例，上一层容器节点(list)存储多行信息，这两层都用样例复制品规则，可以自然避开event, odd的问题。

除此之外，我多定义了一层容器节点(state)，看起来是多余的，目的是提高定位精度，将FreeFormat @class=section映射给state这个节点，目的是让网页抓取器先选定一个网页范围，然后在这个范围中再用抓取规则进行抓取。

请参看我定义的信息结构：demo_GBHW_private_highschools_state

怎样使用树状结构，请参看《抓取开心网粉丝信息》

Login to post comments

Sat, 03/30/2013 - 02:01 — wereeagle

学习中。。。太感谢

学习中。。。太感谢了

Login to post comments

Sun, 03/10/2013 - 16:31 — youranq

这个一定要mark住

之前碰到那些奇偶行烦到咩咁……

Login to post comments

Sat, 03/09/2013 - 10:51 — Fuller

网页抓取超时

这个网站太慢了，可能需要提高超时时间，在DataScraper菜单有这项，crontab.xml中也有这项。crontab.xml中的设置享有更高优先级

这个信息结构有个缺点，您最好至少给一个信息属性设置key特性。否则，只能用DataScraper的普通模式，抓取速度更慢

Login to post comments