因为不知道您要抓取什么内容,所以无法具体提出建议,可以就以下方面进行检查
1,尽量使用FreeFormat映射,否则,可能会因为定位不准确而重新加载失败
2,重新加载失败后先不要再次映射,先点击MetaStudio菜单“文件”-〉“刷新DOM”,然后点击“分析页面”,如果这一次分析成功,说明不是以前映射的不对,而是应该设置AJAX选项
3,在定义的整理箱里面,至少为一个信息属性设置key特性
4,观察DataScraper执行时输出的日志,显示在窗口下部,如果出现Suitable data schema cannot be found,说明抓取规则不合适,如果什么都不出现,那可能是因为key特性没有设置
二级抓取如何跳过失败线索
fuller,你在吗?
请问二级抓取发帖人主页时,常会遇到一些已经不存在的主页(可能被封杀了),这样的话datascrper 抓取时就卡住了,只能人工检查,手动抓取剩下的线索,请问有没有自动设置的方法,可以跳过连接超时或者已经不存在的线索呢?
DataScraper不会卡住
如果设置了AJAX选项,则会等待到超时,如果没有设置AJAX选项,则会加载完目标网页后判断出不符合抓取规则。都不会卡住。
但是,等待超时可能会花费比较长时间,那么可以选择两个方案之一:1)设置比较短的超时时间;2)选择一个被封杀了的网页,为其定义个主题名相同,辅名不同的信息结构,那么一遇到这类网页,就会用这个信息结构进行抓取
二级主题定义的抓取规则不合适
因为不知道您要抓取什么内容,所以无法具体提出建议,可以就以下方面进行检查
1,尽量使用FreeFormat映射,否则,可能会因为定位不准确而重新加载失败
2,重新加载失败后先不要再次映射,先点击MetaStudio菜单“文件”-〉“刷新DOM”,然后点击“分析页面”,如果这一次分析成功,说明不是以前映射的不对,而是应该设置AJAX选项
3,在定义的整理箱里面,至少为一个信息属性设置key特性
4,观察DataScraper执行时输出的日志,显示在窗口下部,如果出现Suitable data schema cannot be found,说明抓取规则不合适,如果什么都不出现,那可能是因为key特性没有设置
新浪微博二级抓取失败
自己写了一个网页,上面有几个网址(几个话题页的网址);
接着写了两个schema: weibo_huati_stock_list,weibo_huati_stock_p,目的是实现二级采集。
结果在本地的DataScraperWorks第一个schema抓取成功,第二个只抓取了一个网址对应的内容。
请指点。
检查两个主题的二级关系是否成立
先看第一个主题,在Clue Editor中是否有名字是第二个主题线索。
因为我看不到样本页面,所以无法加载这个信息结构进行检查
然后在DataScraper中,察看第二个主题的线索数
同样遇到上述问题,
同样遇到上述问题,第二级抓取只抓到了一个网页,第一个主题有第二个主题线索的名字,怎么解决?
先抓上一级主题
抓上一级主题就会为下一级生成线索。因为楼上说的主题名weibo_huati_stock_list指向一个内部网页,我没法检查原因
我抓取的是 http://www.zh
我抓取的是
http://www.zhihu.com/question/21509960
这个网页里回答问题的人,对每个回答进行评论的人。
第一个主题抓取回答问题的人,第二个主题抓取对回答进行评论的人。
抓取完第一个主题后,第二个主题的线索统计中start显示0。怎么才能成功抓取第二个主题里面评论的人呢?
两级的主题名分别是什么?
请告诉我主题名,我好查看您定义的信息结构
帮我看看,谢谢>
帮我看看,谢谢><
answer 和
answer 和 answer_comment
做了些改正,抓取answer_comment最后线索统计fetched显示1后不动了。
谢谢~
用户手册
翻页抓取的介绍材料参看:http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/bulkscrape.html
层级抓取的介绍材料参看:http://www.gooseeker.com/cn/node/document/metaseeker/cookbookv4/multilayers.html
您定义的不是二级抓取
您定义的是翻页抓取,主题名不应该变
评论和回答的网页地
评论和回答的网页地址是一样的
我想想模仿采集淘宝
我想想模仿采集淘宝评论的那篇教程,采集http://www.zhihu.com/question/21509960 每个回答的评论人,例如,第一个回答有58个评论人,不需要分级吗?
不要模仿采集淘宝
知乎的页面结构简单明了,用翻页方法最好,主题名不变。另外,定义answer_comment的时候选择的样本页面不合适,没有“显示全部评论”这个按钮