我先登陆了这个网站,然后再爬取网页上的数据。一开始爬的时候,都是登陆后显示的页面。但是,爬到后边,提示需要再次登陆才能查看。
请问大神,对于这种只有登陆后才能查看的内容,如何设置?保证在爬取得过程中,一直处于登陆状态。(数据量蛮大的,大概有8万条左右。)
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-9-16 18:21

沙发
Fuller 管理员 发表于 2016-9-16 16:09:18 | 只看该作者
爬虫本身有自动登录能力,也要做配置。可以在会员中心配置调度参数的时候,配置自动登录参数。具体可以看教程页左边的目录,看高级教程,有专门一章讲自动登录:http://www.gooseeker.com/tuto/tutorial.html
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-16 16:10:11 | 只看该作者
自动登录配置起来有些麻烦,尽量研究一下这个网站有什么规律,是什么情况下需要重新登录,把规律找出来以后再想想别的办法
举报 使用道具
地板
2445406817 中级会员 发表于 2016-9-16 17:05:05 | 只看该作者
Fuller 发表于 2016-9-16 16:10
自动登录配置起来有些麻烦,尽量研究一下这个网站有什么规律,是什么情况下需要重新登录,把规律找出来以后 ...

采集6000页的详情页(详情页的部分内容需要登录之后才能看到),我现在火狐浏览器中登陆账号,之后再开始采集数据,这样行吗?
是不是,爬取一定数量之后,登陆信息会自动失效?


举报 使用道具
5#
Fuller 管理员 发表于 2016-9-16 18:21:49 | 只看该作者
2445406817 发表于 2016-9-16 17:05
采集6000页的详情页(详情页的部分内容需要登录之后才能看到),我现在火狐浏览器中登陆账号,之后再开始 ...

有些网站可能会有自动失效的功能,要观察一下规律
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 23:31