悬浮窗的教程这个 http://www.gooseeker.com/doc/article-139-1.html

我按照教程第一规则第二规则都做好了,这个是第二规则截图。


映射都做好了保存好后采集,采集过程中也是一页采完后然后采悬浮窗,可是生成的文件里没有要采集的数据,不知道哪里错了,请教大家。
下面是第二规则采集出来的xml文件内容


当我重新打开MS谋数台,重新打开这个规则,先让悬浮窗出来冻结网页,网页结构刷新再后续分析会出错


请问为什么会出现这个错,怎么解决?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2015-11-24 20:24

沙发
gooseeker_info 金牌会员 发表于 2015-11-23 23:43:34 | 只看该作者
我们在qq里也聊过,当时我建议:给抓取内容设置关键内容,后来看到你在qq里的截图是出现timeout,说明抓取的时候,发现抓取规则不正确。

但是,为什么在MS谋数台上是能采集到内容的?我分析如下:
关键原因可能是没有使用定位标志映射
虽然定位标志映射不是必须的,但是,选择适当的定位标志,会让抓取规则的适应性提高很多。比如如下场景:
1,如果不用定位标志映射,MS谋数台会缺省使用@id,这是他自己选择的,可能会不适合,比如,有些id是这样的格式 id='msg_12562',后面那个数字代表一条消息,每条消息都有唯一的数字,那么,针对样例做成的规则就会不适应其他情况
2,在整个xpath中,既有id还有class,如果缺省选择id,那么可能有个class离被抓取节点更近,而且语义更明确

根据截图我对比了一下,你的这个规则没有使用定位标志映射。很可能跟这个有关。定位标志的用法参看:http://www.gooseeker.com/doc/article-120-1.html
举报 使用道具
板凳
Ketchup 初级会员 发表于 2015-11-24 20:24:02 | 只看该作者
gooseeker_info 发表于 2015-11-23 23:43
我们在qq里也聊过,当时我建议:给抓取内容设置关键内容,后来看到你在qq里的截图是出现timeout,说明抓取 ...

谢谢,我会仔细再设置看看,感谢回复。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 苹果mac电脑安装集搜客网络爬虫软件失败的
  • 下载支持win7的集搜客网络爬虫软件
  • 遇到“无法识别的应用”告警怎么办?
  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词

热门用户

GMT+8, 2024-7-27 11:51