本帖最后由 yxlin_1998 于 2021-7-20 13:00 编辑

任务名:七麦downloadEstimate
规则:希望点击网址后,在原网址的基础上,下载量预估的日期定义“一个月”,页面呈现修改为“表格格式”。并遵循路线中翻页的内容,在动作完成的基础上翻页爬取一个月的数据内容。

目标网址的原呈现方式,如下图:

预期的点击#1,#2 后的呈现,如下图:





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-7-20 21:38

沙发
wangyong 版主 发表于 2021-7-20 14:51:35 | 只看该作者
首先这个规则应该拆成两级规则,第一级规则负责点击,第二级来抓取来执行抓取
规则里写这两个动作://*[@class='filter-list']/div[2]/div[2]//li[2]  点击第一个月
第二个动作://*[@class='new-iconfont iconliebiao']  点击切换成表格

第二级规则再采集具体数据

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
yxlin_1998 初级会员 发表于 2021-7-20 15:05:35 | 只看该作者
感谢您的答疑,还有一些其他的问题劳烦请教
Q1:请问我这边点击“第一个月”,下面path出选择偏好class,生成的是 //*[@class='active'] ,不知您是如何生成这个的呢?//*[@class='filter-list']/div[2]/div[2]//li[2]
举报 使用道具
地板
wangyong 版主 发表于 2021-7-20 15:21:45 | 只看该作者
yxlin_1998 发表于 2021-7-20 15:05
感谢您的答疑,还有一些其他的问题劳烦请教
Q1:请问我这边点击“第一个月”,下面path出选择偏好class,生 ...

这个是分析网页自己写的xpath,这是xpath的学习教程:https://www.gooseeker.com/doc/article-248-1.html
举报 使用道具
5#
yxlin_1998 初级会员 发表于 2021-7-20 21:38:35 | 只看该作者
你好,此规则中设置了两个动作,每个动作后执行:任务名
这样的结果是导致爬取后的内容不断重复

如果第一个动作的动作后执行:第二个任务名
这样的结果是第二个动作的动作后执行,也同步第二个任务名

请问这个应该如何处理呢?

任务名:七麦downloadEstimate
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-2-6 14:13