我要采集http://fda.huaian.gov.cn/ 这个网站下面的数据查询,我是先做连续动作:淮安餐饮服务单位食品安全等级1这个规则来定位到餐饮服务单位安全等级公示这个栏目,然后做规则2,规则名是:淮安餐饮服务单位食品安全等级2 ,来采集下面的数据,可是采集不到数据也不翻页,这是怎么回事呢

举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2017-9-2 11:24

沙发
bowieD 金牌会员 发表于 2017-8-30 09:19:33 | 只看该作者
后续分析你的第二级规则报错无法定位抓取内容,你给抓取内容做下定位映射试试。
举报 使用道具
板凳
bowieD 金牌会员 发表于 2017-8-30 11:04:35 | 只看该作者
由于你采集的列表都在同一个frame中,相对线索处理不了这种情况,所以不能用线索去做翻页,可以用连续动作做翻页,方法可参考《用连续动作实现翻页点击》
举报 使用道具
地板
jiayuqin 高级会员 发表于 2017-8-30 18:24:56 | 只看该作者
淮安餐饮服务单位食品安全等级2   我用连续动作采搜索找到节点,但是打数机还是采集不了,就不翻页
举报 使用道具
5#
zhu369 新手上路 发表于 2017-8-30 18:28:32 | 只看该作者
自动生成定位到下一页节点的XPath,在高级设置中把重复次数设置成你要翻页的次数,如果采集翻不了页应该是你的定位下一页节点的XPath有错。
举报 使用道具
6#
bowieD 金牌会员 发表于 2017-8-30 18:36:10 | 只看该作者
加载你的规则有错误,定位不到抓取的内容,需要给抓取内容做定位映射。用这个XPath试试,定位到下一页。//*[@id='Pagination']/a[position()=8]/text()<context>//*[@id='m1']/div[position()=3]/iframe</context>,然后在高级设置中设置重复次数。
举报 使用道具
7#
jiayuqin 高级会员 发表于 2017-8-31 10:12:25 | 只看该作者
还是不行,,你试可以吗
举报 使用道具
8#
umsung 高级会员 发表于 2017-8-31 15:13:55 | 只看该作者
用contains函数,  //a[contains(.//text(),'下一页')]<context>//*[@id='m1']/div[position()=3]/iframe</context>,换上这个xptah定位到下一页。
举报 使用道具
9#
jiayuqin 高级会员 发表于 2017-9-2 10:28:55 | 只看该作者
为何一直采到145页就显示采集完成了  速度也很快的
举报 使用道具
10#
Fuller 管理员 发表于 2017-9-2 11:24:47 | 只看该作者
jiayuqin 发表于 2017-9-2 10:28
为何一直采到145页就显示采集完成了  速度也很快的

在MS谋数台上,把规则加载上来以后,手工翻页,翻到145页前后,然后选择菜单 规则-》刷新网页结构,然后选择菜单 分页页面,看看能否分析成功。如果分析失败,说明规则到那里就不适合了。

还有一个可能,到那一页后,网络或者网站暂时不可访问,结果就翻页中断了。可以重新开始采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 23:47