http://www.hexun.com/

这是个例子,图中圈圈的地方,如何刷新一次页面,抓取一次数据?动态数据怎么抓?

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-9-2 16:11

沙发
Fuller 管理员 发表于 2016-9-2 11:47:54 | 只看该作者
连续动作滚屏就能用于这个目的,还可以抓取网页版qq群里面的讨论,给连续动作设置好参数,一直滚屏,滚一次就会抓一次。

像上面那个页面,滚屏本身是没有意义的,主要是用来激发一次抓取。

滚屏的时间间隔是可以设置的
举报 使用道具
板凳
ym 版主 发表于 2016-9-2 15:58:23 | 只看该作者
可以写个爬虫调度程序crontab来实现每隔几秒就激活一次线索网址,这样就会持续地重复访问该网页,也相当于刷新访问了。爬虫群就不行了,因为它激活的时间间隔是天,就不能实现几秒激活一次。
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-2 16:11:40 | 只看该作者
ym 发表于 2016-9-2 15:58
可以写个爬虫调度程序crontab来实现每隔几秒就激活一次线索网址,这样就会持续地重复访问该网页,也相当于 ...

用crontab每次刷新线索,速度达不到秒级,而且无法精确设定时间间隔。连续滚屏是最合适的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 10:50