我先登陆了这个网站,然后再爬取网页上的数据。一开始爬的时候,都是登陆后显示的页面。但是,爬到后边,提示需要再次登陆才能查看。
请问大神,对于这种只有登陆后才能查看的内容,如何设置?保证在爬取得过程中,一直处于登陆状态。(数据量蛮大的,大概有8万条左右。)
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-9-16 18:21

沙发
Fuller 管理员 发表于 2016-9-16 16:09:18 | 只看该作者
爬虫本身有自动登录能力,也要做配置。可以在会员中心配置调度参数的时候,配置自动登录参数。具体可以看教程页左边的目录,看高级教程,有专门一章讲自动登录:http://www.gooseeker.com/tuto/tutorial.html
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-16 16:10:11 | 只看该作者
自动登录配置起来有些麻烦,尽量研究一下这个网站有什么规律,是什么情况下需要重新登录,把规律找出来以后再想想别的办法
举报 使用道具
地板
2445406817 中级会员 发表于 2016-9-16 17:05:05 | 只看该作者
Fuller 发表于 2016-9-16 16:10
自动登录配置起来有些麻烦,尽量研究一下这个网站有什么规律,是什么情况下需要重新登录,把规律找出来以后 ...

采集6000页的详情页(详情页的部分内容需要登录之后才能看到),我现在火狐浏览器中登陆账号,之后再开始采集数据,这样行吗?
是不是,爬取一定数量之后,登陆信息会自动失效?


举报 使用道具
5#
Fuller 管理员 发表于 2016-9-16 18:21:49 | 只看该作者
2445406817 发表于 2016-9-16 17:05
采集6000页的详情页(详情页的部分内容需要登录之后才能看到),我现在火狐浏览器中登陆账号,之后再开始 ...

有些网站可能会有自动失效的功能,要观察一下规律
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-24 03:58