采集网址在  http://ddx.gubit.cn/sh.php
需要采集不同日期下面的所有股票的数据

我建立了一个三级规则
第一级选择“历史数据”的日期
第二级使用记号线索进行翻页采集
第三级通过点击上一页和首页按钮跳转回第一页
然后重新选择日期,再一次开始采集,直到所有日期的历史数据全部采集完成

问题:
因为使用的是记号线索,不知道如何将第二级和第三级规则联系起来
造成的问题是第一个日期全部数据采集完成之后页数没有跳转(一直都是指向最后一页)
然后日期开始跳转(第二个日期开始全部都是采集的最后一页的数据)

麻烦各位boss帮我看看,如何解决这个问题啊。。。。。

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2016-7-28 18:38

沙发
Fuller 管理员 发表于 2016-7-28 09:14:59 | 只看该作者
不需要第三级,第二级翻页到最后,能不能自动停止翻页,如果能,这是正常的,让他停止好了,自然会回到第一级继续做动作选择日期
举报 使用道具
板凳
zhanyi101 中级会员 发表于 2016-7-28 12:20:42 | 只看该作者
这样不行
第一天的数据采完之后
页数停留在了最后一页
如果不能跳转回第一页的话
当下一轮开始采集的时候(重新选择日期之后)
数据总是只采集最后一页的数据

我不知道有没有其他的方法能够使页数重新回到第一页上面
或者就如您上一个问题里面说的那样,在下一版软件里面提供一个允许删除的功能
举报 使用道具
地板
Fuller 管理员 发表于 2016-7-28 12:30:22 | 只看该作者
zhanyi101 发表于 2016-7-28 12:20
这样不行
第一天的数据采完之后
页数停留在了最后一页

那就需要加个第三级,这一级专门点击首页按钮,目标主题名再次指回第一级。

这样应该可以,但是,要注意这样形成的环形的主题关系,采集过程中可能会造成内存过度消耗,换回10几次应该没有问题,换回多了可能会有问题。你先试试吧,如果有问题反馈给我们
举报 使用道具
5#
zhanyi101 中级会员 发表于 2016-7-28 14:27:32 | 只看该作者
但是现在问题卡在了第二级如何转到第三级规则上面
第二级循环采集完成之后,网页结构与页面指向第一页时已经发生了变化
举报 使用道具
6#
Fuller 管理员 发表于 2016-7-28 14:57:22 | 只看该作者
那就这样:
1,不要第三级,而是把第三级的点击首页的动作放在第一级的选择日期动作之后,那么第一级的动作是先选日期,然后点击首页,则进入第二级
2,第二级翻页抓取
举报 使用道具
7#
zhanyi101 中级会员 发表于 2016-7-28 17:43:49 | 只看该作者
可能我问题描述的不够清楚
我再详细地把这个网页的状况描述一遍
首先输入网址(http://ddx.gubit.cn/sh.php)之后
开始采集时,网页显示如下


当采集进行中时,网页显示如下


当采集到最后一页时,网页显示如下


因为三种状态下网页结构都发生了变化,有些按钮有,有些按钮又没有了
所以不大好在规则里面抓取元素
而且还有一个地方是变化的,就是每天的网页页数也是不一致的,有多有少

所以当第二级规则进行翻页采集到最大页数后,如何把页数跳转回第一页,我实在找不到好的方法,麻烦boss帮我想想怎么弄吧,万分感谢!!
举报 使用道具
8#
HJLing 版主 发表于 2016-7-28 18:05:22 | 只看该作者
接下来的版本连续动作有个“双击”的动作类型 双击之后再输入1 点击跳转 就可以回到第一页的 这样就可以保证选择完日期回到首页
举报 使用道具
9#
zhanyi101 中级会员 发表于 2016-7-28 18:10:51 | 只看该作者
哦   那太好了,实在是太好了!!
万分感谢!!
举报 使用道具
10#
Fuller 管理员 发表于 2016-7-28 18:30:55 | 只看该作者
zhanyi101 发表于 2016-7-28 18:10
哦   那太好了,实在是太好了!!
万分感谢!!

三个截图看的我有点糊涂,在图2的时候还有第一页按钮,到图3就没有了?

如果有这个按钮,就比较容易做了。在第一级规则里面,连续动作定义两个大步骤
1,点击第一页按钮,如果没有这个按钮,而是有页码1,那么xpath写的时候可以兼顾多种情况
2,点击日期,这个步骤可能是多个,根据情况定义
最重要的是多一个第一步。

当运行完第二级后,会回到第一级,从第一步开始,就会进入第一页
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 05:43