需要登录才能查看的内容，在爬取得时候怎么设置？

加为好友

我先登陆了这个网站，然后再爬取网页上的数据。一开始爬的时候，都是登陆后显示的页面。但是，爬到后边，提示需要再次登陆才能查看。
请问大神，对于这种只有登陆后才能查看的内容，如何设置？保证在爬取得过程中，一直处于登陆状态。（数据量蛮大的，大概有8万条左右。）

Fuller · 发表于 2016-9-16 16:09:18

爬虫本身有自动登录能力，也要做配置。可以在会员中心配置调度参数的时候，配置自动登录参数。具体可以看教程页左边的目录，看高级教程，有专门一章讲自动登录：http://www.gooseeker.com/tuto/tutorial.html

Fuller · 发表于 2016-9-16 16:10:11

自动登录配置起来有些麻烦，尽量研究一下这个网站有什么规律，是什么情况下需要重新登录，把规律找出来以后再想想别的办法

2445406817 · 发表于 2016-9-16 17:05:05

Fuller 发表于 2016-9-16 16:10
自动登录配置起来有些麻烦，尽量研究一下这个网站有什么规律，是什么情况下需要重新登录，把规律找出来以后 ...

采集6000页的详情页（详情页的部分内容需要登录之后才能看到），我现在火狐浏览器中登陆账号，之后再开始采集数据，这样行吗？
是不是，爬取一定数量之后，登陆信息会自动失效？

Fuller · 发表于 2016-9-16 18:21:49

2445406817 发表于 2016-9-16 17:05
采集6000页的详情页（详情页的部分内容需要登录之后才能看到），我现在火狐浏览器中登陆账号，之后再开始 ...

有些网站可能会有自动失效的功能，要观察一下规律

共 4 个关于本帖的回复最后回复于 2016-9-16 18:21

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页