http://www.hexun.com/

这是个例子,图中圈圈的地方,如何刷新一次页面,抓取一次数据?动态数据怎么抓?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-9-2 16:11

沙发
Fuller 管理员 发表于 2016-9-2 11:47:54 | 只看该作者
连续动作滚屏就能用于这个目的,还可以抓取网页版qq群里面的讨论,给连续动作设置好参数,一直滚屏,滚一次就会抓一次。

像上面那个页面,滚屏本身是没有意义的,主要是用来激发一次抓取。

滚屏的时间间隔是可以设置的
举报 使用道具
板凳
ym 版主 发表于 2016-9-2 15:58:23 | 只看该作者
可以写个爬虫调度程序crontab来实现每隔几秒就激活一次线索网址,这样就会持续地重复访问该网页,也相当于刷新访问了。爬虫群就不行了,因为它激活的时间间隔是天,就不能实现几秒激活一次。
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-2 16:11:40 | 只看该作者
ym 发表于 2016-9-2 15:58
可以写个爬虫调度程序crontab来实现每隔几秒就激活一次线索网址,这样就会持续地重复访问该网页,也相当于 ...

用crontab每次刷新线索,速度达不到秒级,而且无法精确设定时间间隔。连续滚屏是最合适的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 23:54