有个页面必须点击后,才能看到需要提取的数据(点击前后URL不变)
做了“连续动作”中的点击,
可是想去做数据提取的时候,因为在这里不能点按钮,需要提取数据的页面出不来。
不知道如何处理?


另外:
在上下层级中都有需要提取数据时,看到教程上可以连接。
我想用链接,因为其他字段可能不唯一。
但我采集到的下级页面的URL是不全的(下级页面URL好像经过处理了,采集到的URL和实际打开页面的后半部分不同)
这个就没法进行连接,怎么样才能让URL变成补全的?

举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2016-9-22 15:12

沙发
Fuller 管理员 发表于 2016-9-22 11:46:08 | 只看该作者
在同一个规则里面,在“连续动作”工作台,定义两个动作,一个动作逐个点击2016年-1997年,第二个动作逐个点击第几期。

这样是否达到你的目的?
举报 使用道具
板凳
ich200 新手上路 发表于 2016-9-22 11:51:09 | 只看该作者
Fuller 发表于 2016-9-22 11:46
在同一个规则里面,在“连续动作”工作台,定义两个动作,一个动作逐个点击2016年-1997年,第二个动作逐个 ...

主要是那 XXX期不知道怎么让他出来,出不来的话,我就没办法设置采集字段啊。
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-22 11:59:32 | 只看该作者
ich200 发表于 2016-9-22 11:51
主要是那 XXX期不知道怎么让他出来,出不来的话,我就没办法设置采集字段啊。 ...

你的截图上面已经显示了xxx期,是不是点击 2015年 出来的?

网址是什么?
举报 使用道具
5#
ich200 新手上路 发表于 2016-9-22 12:01:23 | 只看该作者
Fuller 发表于 2016-9-22 11:59
你的截图上面已经显示了xxx期,是不是点击 2015年 出来的?

网址是什么? ...

http://kns.chkd.cnki.net/Kns55/oldnavi/n_item.aspx?NaviID=500&BaseID=ZHYY&NaviLink=%E9%A2%84%E9%98%B2%E5%8C%BB%E5%AD%A6%E3%80%81%E5%8D%AB%E7%94%9F%E5%AD%A6%28159%E7%A7%8D%E6%9C%9F%E5%88%8A%29-%2fKns55%2foldnavi%2fn_list.aspx%3fNaviID%3d500%26Field%3dNAVI2%26Value%3d0001%25253f%26OrderBy%3dIDNO|%E4%B8%AD%E5%8D%8E%E5%8C%BB%E9%99%A2%E6%84%9F%E6%9F%93%E5%AD%A6%E6%9D%82%E5%BF%97

对的,点击2015年  后才出来下面的信息。不点击,是没有的。
需要采集的是,下面的2015年12期。。。。。
举报 使用道具
6#
scraper 论坛元老 发表于 2016-9-22 14:48:18 | 只看该作者
第一级规则做动作点击2015年 指向第二级
第二级规则采集下来每一期的链接 给第三级做线索
第三级采新页面的数据

虽然第二级采集的链接不全 不过作为下级线索是会自动补齐的 不影响后面的采集
举报 使用道具
7#
ich200 新手上路 发表于 2016-9-22 14:54:07 | 只看该作者
scraper 发表于 2016-9-22 14:48
第一级规则做动作点击2015年 指向第二级
第二级规则采集下来每一期的链接 给第三级做线索
第三级采新页面的 ...

我明白这个的。
现在问题是,我现在在谋数台上,没法显示  2015年12期那一部分信息,那我就没办法做规则啊。
举报 使用道具
8#
ich200 新手上路 发表于 2016-9-22 14:55:41 | 只看该作者
scraper 发表于 2016-9-22 14:48
第一级规则做动作点击2015年 指向第二级
第二级规则采集下来每一期的链接 给第三级做线索
第三级采新页面的 ...

下级链接会补齐,
我上层与下层都要采集数据,需要对应上。
现在想用链接去关联这两层数据。
举报 使用道具
9#
scraper 论坛元老 发表于 2016-9-22 15:07:19 | 只看该作者
ich200 发表于 2016-9-22 14:54
我明白这个的。
现在问题是,我现在在谋数台上,没法显示  2015年12期那一部分信息,那我就没办法做规则 ...

在谋数台上可以针对点击之后显示的这部分内容做规则
1. 关闭内容定位开关
2. 点击2015
3. 点击菜单项“冻结页面”
4. 点击菜单项“刷新网页结构”
5. 开启内容定位开关
举报 使用道具
10#
scraper 论坛元老 发表于 2016-9-22 15:07:36 | 只看该作者
本帖最后由 scraper 于 2016-9-22 15:10 编辑
ich200 发表于 2016-9-22 14:54
我明白这个的。
现在问题是,我现在在谋数台上,没法显示  2015年12期那一部分信息,那我就没办法做规则 ...


http://www.gooseeker.com/doc/article-150-1.html
参考这个教程的
二、 创建第二级规则
2.取消内容定位,将网页跳转到抓取页面
这一小节来做第二级规则
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 00:26