自动登录的一些问题？

加为好友

一、先说下要爬取的内容和遇到的问题吧。
爬取内容：网页中采集的一部分内容，是需要登录后才能显示的。未登录的话，仅仅是不显示这部分数据，不会跳出登录窗口或登录页面。而登录的话，只需要输入账号密码，不需要验证码。
遇到问题：我先在Firefox浏览器中登录了这个网站。之后利用爬虫群抓数据，一开始抓的时候，打数机窗口中的网页显示是登录状态的。但是，不知道从什么时候开始，变成未登录状态了。导致，其中需要登录才能显示的内容抓取不到。
二、为什么有这么多自动登录的教程，我该选哪个？
1、手工在Firefox中登录。
这个对于我要抓取的内容肯定是不匹配的，因为一开始登录，爬取一小会就自动注销登录状态了。
2、crontab.xml文件，即周期性网页抓取调度文件。
这个看起来很复杂，需要自己来编写文件。
3、在规则调度设置里，有专门的自动登录设置。
这个相对上一个来说，感觉要容易的多啊，直接设置账号密码，也不用那么麻烦的编写文件。

求问大神，为什么会有这么多自动登录的设置方法？对于我这种情况，哪种适合我？具体要怎么设置一下？

gz51837844 · 发表于 2016-9-18 10:31:02

你列的3种可以配合着用

759924607 · 发表于 2016-9-18 10:44:42

gz51837844 发表于 2016-9-18 10:31
你列的3种可以配合着用

第二种，感觉不是那么容易上手啊。之前试过第一种不能用。那我只在调度中设置可以？

Fuller · 发表于 2016-9-18 10:51:25

关于自动登录的设置，是有些麻烦，要设置
1，账号和密码的输入框xpath
2，提交按钮的xpath
3，登录成功的标志的xpath

上面你说的教程第二和第三其实是一样的，前者需要手工编写调度文件，后者不用编写，只按要求输入，最后自动生成调度文件，而且放在服务器上。本质是一样的。

759924607 · 发表于 2016-9-19 08:12:53

Fuller 发表于 2016-9-18 10:51
关于自动登录的设置，是有些麻烦，要设置
1，账号和密码的输入框xpath
2，提交按钮的xpath

针对我这种情况，利用爬虫群抓取内容，直接在会员中心调度设置里边，设置自动登录就可以了吧？

Fuller · 发表于 2016-9-19 08:45:59

759924607 发表于 2016-9-19 08:12
针对我这种情况，利用爬虫群抓取内容，直接在会员中心调度设置里边，设置自动登录就可以了吧？ ...

自动登录功能主要是给需要打验证码的场景设计的。如果你不需要打验证码，这种情形你测试一下吧。如果有问题反馈给我们

759924607 · 发表于 2016-9-19 15:23:50

Fuller 发表于 2016-9-19 08:45
自动登录功能主要是给需要打验证码的场景设计的。如果你不需要打验证码，这种情形你测试一下吧。如果有问 ...

一、上图是调度中心的自动登录设置以及那个网站的登录界面。用MS谋数台中的路径生成器，自动生成了Xpath，但有重复内容，并不能将这几个输入框区分开。
账号输入框跟密码输入框都是//*[@class='warning']，像这种该怎么办？而且，好像自动生成的Xpath不是正确的格式啊。
二、此外，对于最后一栏中，登录成功标志。我看到登录成功之后，仅仅是原来提示登录的组件变成了用户名称。我输入用户名位置的Xpath就可以了？感觉没有登陆，这个页面也有这个位置的定位呀。

自动登录的一些问题？

共 6 个关于本帖的回复最后回复于 2016-9-19 15:23

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

自动登录的一些问题？

共 6 个关于本帖的回复 最后回复于 2016-9-19 15:23

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 6 个关于本帖的回复最后回复于 2016-9-19 15:23