要采集的网址是http://www.cgris.net/query/do.php#果树,草莓
先要点击查询,然后页面才会出现想要的数据,制订了第一级规则(主题名为“草莓种质查询_第一级”),这个执行后可以自动启动第二级规则(主题名为”草莓种质查询_第二级“),并采集第一个页面的数据,但接下来就不会自动翻页了~~
已经阅读过这篇帖子http://www.gooseeker.com/doc/thread-996-1-1.html,仔细检查了,没有发现错误啊~
折腾两天了,试过fiddler,点击下一页网址不会变。。。求教!
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-7-23 11:48

沙发
Fuller 管理员 发表于 2016-7-22 23:53:37 | 只看该作者
这个网页上的动态代码很多,做规则要注意以下几点

1,两级规则都创建了特殊的抓取内容“网页标志”,在这两个规则中,这个用法不合适。因为你选的标志和内容是分开加载的,表头上的标志虽然显示出来了,但是表内容还没有加载好,就会抓不到内容。

解决方法:直接针对要抓取的内容设置“关键内容”就行了

2,加载第二级规则时,需要用上冻结页面功能,否则,网页上的内容会动态变化,很容易造成加载失败,弹出一系列错误提示框

3,在第二级,不在爬虫路线工作台上定义翻页线索,而是在连续动作工作台上定义“点击”动作,要设置高级选项,设置重复次数,否则只能点一次。这个网页很特别,可能使用特殊事件触发的翻页,不能用翻页规则。连续动作具体参看:http://www.gooseeker.com/doc/article-141-1.html

但是,我遇到了一个问题,设置重复次数不起作用,只能翻到第二页。明天我找研发人员讨论一下。
举报 使用道具
板凳
DonnieWong 新手上路 发表于 2016-7-23 11:27:08 | 只看该作者
Fuller 发表于 2016-7-22 23:53
这个网页上的动态代码很多,做规则要注意以下几点

1,两级规则都创建了特殊的抓取内容“网页标志”,在这 ...

嗯,好,我再试一下,谢谢
举报 使用道具
地板
DonnieWong 新手上路 发表于 2016-7-23 11:48:53 | 只看该作者
Fuller 发表于 2016-7-22 23:53
这个网页上的动态代码很多,做规则要注意以下几点

1,两级规则都创建了特殊的抓取内容“网页标志”,在这 ...

用连续动作可以了,不会写xpath,定位表达式我用谷歌浏览器找的,现在可以连续翻页了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 00:01