各路大神 论坛新手 急于采集下来这些数据 看看大家能不能指导指导我 感谢https://stats.oecd.org/
截图下来了

1

1

屏幕快照 2020-11-30 下午5.54.36.png
屏幕快照 2020-11-30 下午5.57.05.png
屏幕快照 2020-11-30 下午5.57.52.png
屏幕快照 2020-11-30 下午6.00.48.png

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-12-6 11:51

Fuller 管理员 发表于 2020-11-30 19:04:09 | 显示全部楼层
前面1-2-3步是不必要的,用连续点击也是无法完成的,因为这种树状的目录,你不知道有多少层,所以,你就没法设置多少个点击动作。其实,只需要一个点击动作,因为所有的条目都有相同的条目,xpath是://li[contains(@class, 'q')]/a[2]
点击以后,后面的4-5-6这些步骤按照你的方法做


xpath3.png


举报 使用道具
larrylsh 新手上路 发表于 2020-11-30 20:01:38 | 显示全部楼层
Fuller 发表于 2020-11-30 19:04
前面1-2-3步是不必要的,用连续点击也是无法完成的,因为这种树状的目录,你不知道有多少层,所以,你就没 ...

太谢谢啦
举报 使用道具
larrylsh 新手上路 发表于 2020-12-6 11:51:11 | 显示全部楼层
Fuller 发表于 2020-11-30 19:04
前面1-2-3步是不必要的,用连续点击也是无法完成的,因为这种树状的目录,你不知道有多少层,所以,你就没 ...

您好 前几天工作忙 今天研究了一下有些困惑
因为的确 这个网址是不变的 但是我需要到后面那个恒定的界面 您所说的一步搞定 我是需要把xpath定义到连续动作里吗
因为按我之前的步骤就是打开那个恒定的界面之后再定义规则 尝试着爬一下的话就会报错 因为一启动爬虫程序就先会载入网址(初始进入的界面 需要的界面还是需要手动连续点击才能载入)所以这个想请教一下。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 00:52