一、先说下要爬取的内容和遇到的问题吧。
爬取内容:网页中采集的一部分内容,是需要登录后才能显示的。未登录的话,仅仅是不显示这部分数据,不会跳出登录窗口或登录页面。而登录的话,只需要输入账号密码,不需要验证码。
遇到问题:我先在Firefox浏览器中登录了这个网站。之后利用爬虫群抓数据,一开始抓的时候,打数机窗口中的网页显示是登录状态的。但是,不知道从什么时候开始,变成未登录状态了。导致,其中需要登录才能显示的内容抓取不到。
二、为什么有这么多自动登录的教程,我该选哪个?
1、手工在Firefox中登录。
这个对于我要抓取的内容肯定是不匹配的,因为一开始登录,爬取一小会就自动注销登录状态了。
2、crontab.xml文件,即周期性网页抓取调度文件。
这个看起来很复杂,需要自己来编写文件。
3、在规则调度设置里,有专门的自动登录设置。
这个相对上一个来说,感觉要容易的多啊,直接设置账号密码,也不用那么麻烦的编写文件。
求问大神,为什么会有这么多自动登录的设置方法?对于我这种情况,哪种适合我?具体要怎么设置一下?
|
|
|
|
|
共 6 个关于本帖的回复 最后回复于 2016-9-19 15:23