跪求这个网站的爬取手段啊！

加为好友

http://gs.amac.org.cn/amac-infodisc/res/pof/fund/index.html 这个是网站的首页，我想通过列表页来获取到详情页的网址。翻页的话，网址是不会发生变化的。
我抓包获取到它实际的网址是这样的：http://gs.amac.org.cn/amac-infod ... ;page=0&size=20 其中的rand不清楚是什么，page控制页码，size是每页的个数。它的请求方式是post。

在浏览器中打开，发现默认请求方式为get，获取不到网页内容。

这段代码中，不知道错误的原因具体是什么。而且，payload为空，请求头该如何写呢？之前看到请求头一般在 Form data中，这里边的Query string parameters中参数是否可以作为请求头来填写？

Fuller · 发表于 2016-12-1 23:06:57

这类网站很多，对会话状态进行严格管理，很多电子流系统也是这样，每个网页虽然有独立网址，但是脱离浏览路径就会失效。那个RAND应该是一个随机码，表示当时的会话状态和访问路径的。

用集搜客网络爬虫解决这个问题很容易，做两级规则，第一级要定义连续动作，逐个点击列表中的基金名称，第二级抓取详细信息。由于第二级弹出新窗口，得用飞掠模式。这是旗舰版的功能。

跪求这个网站的爬取手段啊！

本帖子中包含更多资源

共 1 个关于本帖的回复最后回复于 2016-12-1 23:06

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

跪求这个网站的爬取手段啊！

本帖子中包含更多资源

共 1 个关于本帖的回复 最后回复于 2016-12-1 23:06

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2016-12-1 23:06