你好,最近遇到这样一个问题:访问一个要提取内容的最终页时,系统都会跳转到一个中间提示页,然后延迟500毫秒,再跳转回最终页,这样的情况该如何提取呢?
可以将样本页面贴出来,具体研究一下。我估计可以用AJAX提取模式“延长模式”,能够等待比较长时间
服务器上有个redplus_test的schema,在进行内容深度提取时,产生的redplus_test_info不能定义规则,老提示:The location has been changed,so the mapping makes no sense(工作台发生变化,操作无意义)
麻烦看看,谢谢!!
如果在theme list工作台上识别redplus_test_info,开始加载了一个网页,但是马上跳转了,MetaStudio以为是认为的网页改变,结果在工具条上会显示一个红色的横杠(正常情况下是绿色的勾),在这种情况下,再定义信息结构,就会提示The location has been changed。
遇到这种情况,就不用“识别”功能,而是,新运行MetaStudio,并在URL中输入样本页面的URL,此时工作台是空的,无论怎样跳转,都不会显示红色的横杠。
抓单一页面没有任何问题,可如何进行所有信息的自动抓取呢?(前面redplus_test中的url是自己构建的目标页的url规则)
第一个层次抓取网页URL,给它们命名一个主题,然后选择其中一个作为样本页面定义深一层的信息结构,此时,虽然感觉是为上一层抓到的URL定义信息结构,实际上是为跳转后的网页定义信息结构。抓取时DataScraper也不知道是否跳转了,如果设置“延长模式”,DataScraper一直等待到一个符合信息结构的网页,或者超时。
能否帮我以http://www.coolguo.com/wjh/test/test.html上的链接为线索,抓取里面的的一个字段信息(假设就选:价格)?
谢谢
我在你的redplus_test基础上做了一点修改,重新命名为test_redirect,它的下一层主题名是test_redirect_info,在MetaStudio的“配置”菜单上设置“延长模式”。
可以深度抓取。该网站似乎有可疑代码,杀毒软件总是报警。但是不影响连续抓取。
能告诉我你改了什么吗?是直接新建一个主题,然后跟前面的索引产生的主题同名吗?
就是选择MetaStudio菜单“配置”-〉“延长模式”,关于这个问题,我总结一段文字进行详细解释
一直对metastudio只是机械式的学习,今天恍然大悟,真是个好东西
马上看
样本页面是哪一个
可以将样本页面贴出来,具体研究一下。我估计可以用AJAX提取模式“延长模式”,能够等待比较长时间
谢谢
服务器上有个redplus_test的schema,在进行内容深度提取时,产生的redplus_test_info不能定义规则,老提示:The location has been changed,so the mapping makes no sense(工作台发生变化,操作无意义)
麻烦看看,谢谢!!
跳转会造成这种情况
如果在theme list工作台上识别redplus_test_info,开始加载了一个网页,但是马上跳转了,MetaStudio以为是认为的网页改变,结果在工具条上会显示一个红色的横杠(正常情况下是绿色的勾),在这种情况下,再定义信息结构,就会提示The location has been changed。
遇到这种情况,就不用“识别”功能,而是,新运行MetaStudio,并在URL中输入样本页面的URL,此时工作台是空的,无论怎样跳转,都不会显示红色的横杠。
这样不能进行深度抓取
抓单一页面没有任何问题,可如何进行所有信息的自动抓取呢?(前面redplus_test中的url是自己构建的目标页的url规则)
深度网页信息抓取应该不受影响
第一个层次抓取网页URL,给它们命名一个主题,然后选择其中一个作为样本页面定义深一层的信息结构,此时,虽然感觉是为上一层抓到的URL定义信息结构,实际上是为跳转后的网页定义信息结构。抓取时DataScraper也不知道是否跳转了,如果设置“延长模式”,DataScraper一直等待到一个符合信息结构的网页,或者超时。
能否帮我建立一个demo
能否帮我以http://www.coolguo.com/wjh/test/test.html上的链接为线索,抓取里面的的一个字段信息(假设就选:价格)?
谢谢
网页跳转后怎样抓取信息的例子
我在你的redplus_test基础上做了一点修改,重新命名为test_redirect,它的下一层主题名是test_redirect_info,在MetaStudio的“配置”菜单上设置“延长模式”。
可以深度抓取。该网站似乎有可疑代码,杀毒软件总是报警。但是不影响连续抓取。
非常感谢
能告诉我你改了什么吗?是直接新建一个主题,然后跟前面的索引产生的主题同名吗?
跟定义普通网页的抓取规则一样
就是选择MetaStudio菜单“配置”-〉“延长模式”,关于这个问题,我总结一段文字进行详细解释
已解决
一直对metastudio只是机械式的学习,今天恍然大悟,真是个好东西
总结了一篇文章
谢谢,一直在等你。。。
马上看