一、先说下要爬取的内容和遇到的问题吧。
爬取内容:网页中采集的一部分内容,是需要登录后才能显示的。未登录的话,仅仅是不显示这部分数据,不会跳出登录窗口或登录页面。而登录的话,只需要输入账号密码,不需要验证码。
遇到问题:我先在Firefox浏览器中登录了这个网站。之后利用爬虫群抓数据,一开始抓的时候,打数机窗口中的网页显示是登录状态的。但是,不知道从什么时候开始,变成未登录状态了。导致,其中需要登录才能显示的内容抓取不到。
二、为什么有这么多自动登录的教程,我该选哪个?
1、手工在Firefox中登录。
     这个对于我要抓取的内容肯定是不匹配的,因为一开始登录,爬取一小会就自动注销登录状态了。
2、crontab.xml文件,即周期性网页抓取调度文件。
     这个看起来很复杂,需要自己来编写文件。
3、在规则调度设置里,有专门的自动登录设置。
这个相对上一个来说,感觉要容易的多啊,直接设置账号密码,也不用那么麻烦的编写文件。

求问大神,为什么会有这么多自动登录的设置方法?对于我这种情况,哪种适合我?具体要怎么设置一下?
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-9-19 15:23

沙发
gz51837844 管理员 发表于 2016-9-18 10:31:02 | 只看该作者
你列的3种可以配合着用
举报 使用道具
板凳
759924607 高级会员 发表于 2016-9-18 10:44:42 | 只看该作者
gz51837844 发表于 2016-9-18 10:31
你列的3种可以配合着用

第二种,感觉不是那么容易上手啊。之前试过第一种不能用。那我只在调度中设置可以?
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-18 10:51:25 | 只看该作者
关于自动登录的设置,是有些麻烦,要设置
1,账号和密码的输入框xpath
2,提交按钮的xpath
3,登录成功的标志的xpath

上面你说的教程第二和第三其实是一样的,前者需要手工编写调度文件,后者不用编写,只按要求输入,最后自动生成调度文件,而且放在服务器上。本质是一样的。
举报 使用道具
5#
759924607 高级会员 发表于 2016-9-19 08:12:53 | 只看该作者
Fuller 发表于 2016-9-18 10:51
关于自动登录的设置,是有些麻烦,要设置
1,账号和密码的输入框xpath
2,提交按钮的xpath

针对我这种情况,利用爬虫群抓取内容,直接在会员中心调度设置里边,设置自动登录就可以了吧?
举报 使用道具
6#
Fuller 管理员 发表于 2016-9-19 08:45:59 | 只看该作者
759924607 发表于 2016-9-19 08:12
针对我这种情况,利用爬虫群抓取内容,直接在会员中心调度设置里边,设置自动登录就可以了吧? ...

自动登录功能主要是给需要打验证码的场景设计的。如果你不需要打验证码,这种情形你测试一下吧。如果有问题反馈给我们
举报 使用道具
7#
759924607 高级会员 发表于 2016-9-19 15:23:50 | 只看该作者
Fuller 发表于 2016-9-19 08:45
自动登录功能主要是给需要打验证码的场景设计的。如果你不需要打验证码,这种情形你测试一下吧。如果有问 ...


一、上图是调度中心的自动登录设置以及那个网站的登录界面。用MS谋数台中的路径生成器,自动生成了Xpath,但有重复内容,并不能将这几个输入框区分开。
账号输入框跟密码输入框都是//*[@class='warning'],像这种该怎么办?而且,好像自动生成的Xpath不是正确的格式啊
二、此外,对于最后一栏中,登录成功标志。我看到登录成功之后,仅仅是原来提示登录的组件 变成了 用户名称。我输入用户名位置的Xpath就可以了?感觉没有登陆,这个页面也有这个位置的定位呀。

QQ截图20160919150349.png (14.44 KB, 下载次数: 735)

QQ截图20160919150349.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 23:43