集搜客GooSeeker网络爬虫

标题: 网页在firefox里面能正常查询,但是在MS里面无法正常查询结果 [打印本页]

作者: zhanyi101    时间: 2016-7-25 16:59
标题: 网页在firefox里面能正常查询,但是在MS里面无法正常查询结果
网页地址是  http://ddx.gubit.cn/ddelist.html ... mp;edate=2016-07-25
这是我随便选择的股票和设置的查询时间
这个网站有个特点,首先必须要登录,然后才能查询较长时间的数据,否则即使设置了查询时间,也只能查询一个月的数据
我首先在crontab里面设置好了脚本,实现了正常登录
然后问题来了
当我在MS里面设置好股票代码和查询日期,点击查询之后
始终都是跳转到深发展A(000001),查询到的数据也依然只有十几天的数据
即使我在MS左上角的地址栏里面直接输入上面的地址,还是会跳转到深发展A
但是,如果我使用Firefox进行查询的话,数据就是正常的,无论是输入股票代码还是查询日期都是正常的
我用firefox和Gooseeker集成的软件还是独立的Gooseeker情况都是这样
急盼管理员和各位大神来拯救一下小弟,万分感谢!!!
[attach]1135[/attach]
这就是出现问题的截图



作者: Fuller    时间: 2016-7-25 18:17
我做了测试,确实是这样的,这个情况还是第一次遇到,我已转交给开发人员查找原因
作者: zhanyi101    时间: 2016-7-25 18:18
麻烦BOSS了,希望软件能改进的越来越好吧
作者: Fuller    时间: 2016-7-25 18:29
你这个网址是从首页那里进去的?我想模拟一下完整的浏览过程,也许通过完整的浏览过程,可以访问这个网页
作者: zhanyi101    时间: 2016-7-25 18:48
完整浏览也是一样会出错
我就是因为从首页完整地一直点进去会出问题
所以采把下一级线索通过自定义xpath做出来的,然后通过这个线索进去
结果实在走不通了,我才发帖上来问的。
完整的顺序是先进入http://ddx.gubit.cn/sh.php
然后点任何一只股票的 “历史”[attach]1138[/attach]
进入下一页之后点击 “显示列表数据”
[attach]1139[/attach]
然后就可以设置查询条件进行查询了

作者: Fuller    时间: 2016-7-25 19:22
刚才我试了一步步点进去,用GooSeeker浏览器版本(独立软件模式),是正常的

如果模拟点击动作,用连续动作可以完成,但是,做点击以后,显示的信息是在弹出窗口中,定义规则和抓取数据都得用“飞掠模式”,这个功能还没有对外开放。

直接拷贝地址问题,我们要深入查查。
作者: zhanyi101    时间: 2016-7-25 19:51
在独立软件版本里面
在首页用模拟点击
连续动作确实可以完成对基础数据的采集
但是这只是某一日的全部股票的全部数据如果你想要采集单个股票的历史数据就需要点击进去
同时如你所说
点击之后显示信息会显示在弹出窗口中

我最开始做了一个四级的规则
第一级在首页点击历史
第二级在单一股票的“历史数据”页面点击“显示列表数据”
第三级进行查询参数的设置
第四级采集查询结果

我在一二级跳转不到第三级上面,但是单一运行的时候三四级可以跑通,能够采集到数据
正是因为这个原因,我最后才决定直接构建自定义的xpath路径,从首页直接跳转到“查询”设置页面

作者: Fuller    时间: 2016-7-26 09:06
zhanyi101 发表于 2016-7-25 19:51
在独立软件版本里面
在首页用模拟点击
连续动作确实可以完成对基础数据的采集

抓取弹出窗口的内容需要“飞掠”功能,每弹出一个窗口,DS打数机都会跟踪这个窗口,把里面的内容抓取出来。

手工拷贝网址不能访问的问题还在检查,我发现如果顺着入口网址一步步点击进去,正确显示,如果使用飞掠功能的话,是可以抓取的
作者: zhanyi101    时间: 2016-7-26 09:09
那包含“飞掠”功能的版本大概什么时候能发布呢?
作者: Fuller    时间: 2016-7-26 17:59
zhanyi101 发表于 2016-7-26 09:09
那包含“飞掠”功能的版本大概什么时候能发布呢?

最近这两个星期就会发布,这个功能是个收费功能
作者: zhanyi101    时间: 2016-7-27 13:59
boss在吗?
我想请问一下直接通过自定义xpath来构建下一级线索这个问题解决了吗??
作者: wangyong    时间: 2016-7-27 17:19
zhanyi101 发表于 2016-7-27 13:59
boss在吗?
我想请问一下直接通过自定义xpath来构建下一级线索这个问题解决了吗?? ...

可以通过xpath来自定义下级线索
作者: zhanyi101    时间: 2016-7-27 17:58
wangyong 发表于 2016-7-27 17:19
可以通过xpath来自定义下级线索

我知道应该可以,但是在我提供的这个网址里面貌似不行。。。。
作者: Fuller    时间: 2016-7-27 21:45
在GooSeeker网络爬虫里面,这个网站直接构造网址不行,但是在火狐浏览器中可以,这个问题的根本原因还没有找到。

但是,如果在网络爬虫里面从最初的入口页面点击进去,又能看到目标网页内容。目前初步判断是网络爬虫浏览器的缓存管理与普通浏览器的不一样。需要测试和实验才能找到根本原因。目前只能用飞掠模式,从最初入口页面连续点击进到目标页面中
作者: zhanyi101    时间: 2016-7-27 21:50
这么晚还在加班,真是辛苦了!
看来这个问题只能留给你们慢慢解决了!
我暂时只能换个思路来采集数据了!




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2