http://gs.amac.org.cn/amac-infodisc/res/pof/fund/index.html   这个是网站的首页,我想通过列表页来获取到详情页的网址。翻页的话,网址是不会发生变化的。
我抓包获取到它实际的网址是这样的:http://gs.amac.org.cn/amac-infod ... ;page=0&size=20 其中的rand不清楚是什么,page控制页码,size是每页的个数。 它的请求方式是post。


在浏览器中打开,发现默认请求方式为get,获取不到网页内容。




这段代码中,不知道错误的原因具体是什么。而且,payload为空,请求头该如何写呢?之前看到请求头一般在 Form data中,这里边的Query string parameters中参数是否可以作为请求头来填写?











QQ截图20161201224601.png (43.59 KB, 下载次数: 243)

QQ截图20161201224601.png
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-12-1 23:06

沙发
Fuller 管理员 发表于 2016-12-1 23:06:57 | 只看该作者
这类网站很多,对会话状态进行严格管理,很多电子流系统也是这样,每个网页虽然有独立网址,但是脱离浏览路径就会失效。那个RAND应该是一个随机码,表示当时的会话状态和访问路径的。

用集搜客网络爬虫解决这个问题很容易,做两级规则,第一级要定义连续动作,逐个点击列表中的基金名称,第二级抓取详细信息。由于第二级弹出新窗口,得用飞掠模式。这是旗舰版的功能。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 07:05