http://gs.amac.org.cn/amac-infodisc/res/pof/fund/index.html   这个是网站的首页,我想通过列表页来获取到详情页的网址。翻页的话,网址是不会发生变化的。
我抓包获取到它实际的网址是这样的:http://gs.amac.org.cn/amac-infod ... ;page=0&size=20 其中的rand不清楚是什么,page控制页码,size是每页的个数。 它的请求方式是post。


在浏览器中打开,发现默认请求方式为get,获取不到网页内容。




这段代码中,不知道错误的原因具体是什么。而且,payload为空,请求头该如何写呢?之前看到请求头一般在 Form data中,这里边的Query string parameters中参数是否可以作为请求头来填写?











本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-12-1 23:06

沙发
Fuller 管理员 发表于 2016-12-1 23:06:57 | 只看该作者
这类网站很多,对会话状态进行严格管理,很多电子流系统也是这样,每个网页虽然有独立网址,但是脱离浏览路径就会失效。那个RAND应该是一个随机码,表示当时的会话状态和访问路径的。

用集搜客网络爬虫解决这个问题很容易,做两级规则,第一级要定义连续动作,逐个点击列表中的基金名称,第二级抓取详细信息。由于第二级弹出新窗口,得用飞掠模式。这是旗舰版的功能。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-24 10:40