1. http://haidi.aoshi18.cn/game.html
复制代码
即时聊天信息不断出现新内容,是否能用集搜客采集下来?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-2-25 18:16

沙发
Fuller 管理员 发表于 2017-2-25 18:16:09 | 只看该作者


如上图,定义规则方法没有什么区别,只是网站内容会不断出现,如果做规则要用这些新的内容,需要不断地刷新网页结构(菜单 规则-〉刷新网页结构)。

但是在定义规则期间,不能让网页结构变化,所以,加载网页以后,等待一会,等内容比较全了,冻结页面(菜单 规则-〉冻结页面),紧接着执行一次 刷新网页结构,就可以定义规则了。

要定义连续动作,使用一个滚屏动作即可,而且永远滚不完(滚屏次数-1),其实不需要滚屏,只是借用这个动作激发一次采集行为。把额外延时设置成10秒,那么每10秒采集一次。

直播网站、qq的网页版,微信的网页版,等等,这些即时消息都是这样采集的。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 16:58