悬浮窗的教程这个 http://www.gooseeker.com/doc/article-139-1.html

我按照教程第一规则第二规则都做好了,这个是第二规则截图。


映射都做好了保存好后采集,采集过程中也是一页采完后然后采悬浮窗,可是生成的文件里没有要采集的数据,不知道哪里错了,请教大家。
下面是第二规则采集出来的xml文件内容


当我重新打开MS谋数台,重新打开这个规则,先让悬浮窗出来冻结网页,网页结构刷新再后续分析会出错


请问为什么会出现这个错,怎么解决?

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2015-11-24 20:24

沙发
gooseeker_info 金牌会员 发表于 2015-11-23 23:43:34 | 只看该作者
我们在qq里也聊过,当时我建议:给抓取内容设置关键内容,后来看到你在qq里的截图是出现timeout,说明抓取的时候,发现抓取规则不正确。

但是,为什么在MS谋数台上是能采集到内容的?我分析如下:
关键原因可能是没有使用定位标志映射
虽然定位标志映射不是必须的,但是,选择适当的定位标志,会让抓取规则的适应性提高很多。比如如下场景:
1,如果不用定位标志映射,MS谋数台会缺省使用@id,这是他自己选择的,可能会不适合,比如,有些id是这样的格式 id='msg_12562',后面那个数字代表一条消息,每条消息都有唯一的数字,那么,针对样例做成的规则就会不适应其他情况
2,在整个xpath中,既有id还有class,如果缺省选择id,那么可能有个class离被抓取节点更近,而且语义更明确

根据截图我对比了一下,你的这个规则没有使用定位标志映射。很可能跟这个有关。定位标志的用法参看:http://www.gooseeker.com/doc/article-120-1.html
举报 使用道具
板凳
Ketchup 初级会员 发表于 2015-11-24 20:24:02 | 只看该作者
gooseeker_info 发表于 2015-11-23 23:43
我们在qq里也聊过,当时我建议:给抓取内容设置关键内容,后来看到你在qq里的截图是出现timeout,说明抓取 ...

谢谢,我会仔细再设置看看,感谢回复。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 05:17