本帖最后由 yxlin_1998 于 2021-7-20 13:00 编辑

任务名:七麦downloadEstimate
规则:希望点击网址后,在原网址的基础上,下载量预估的日期定义“一个月”,页面呈现修改为“表格格式”。并遵循路线中翻页的内容,在动作完成的基础上翻页爬取一个月的数据内容。

目标网址的原呈现方式,如下图:

预期的点击#1,#2 后的呈现,如下图:





目标图.png
初始图.png
image.png
image.png
image.png
image.png
image.png
S{08~_(`[SS$PN8%0`KZAKI.jpg
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-7-20 21:38

wangyong 版主 发表于 2021-7-20 14:51:35 | 显示全部楼层
首先这个规则应该拆成两级规则,第一级规则负责点击,第二级来抓取来执行抓取
规则里写这两个动作://*[@class='filter-list']/div[2]/div[2]//li[2]  点击第一个月
第二个动作://*[@class='new-iconfont iconliebiao']  点击切换成表格
QQ截图20210720145050.jpg
第二级规则再采集具体数据
举报 使用道具
yxlin_1998 初级会员 发表于 2021-7-20 15:05:35 | 显示全部楼层
感谢您的答疑,还有一些其他的问题劳烦请教
Q1:请问我这边点击“第一个月”,下面path出选择偏好class,生成的是 //*[@class='active'] ,不知您是如何生成这个的呢?//*[@class='filter-list']/div[2]/div[2]//li[2]
举报 使用道具
wangyong 版主 发表于 2021-7-20 15:21:45 | 显示全部楼层
yxlin_1998 发表于 2021-7-20 15:05
感谢您的答疑,还有一些其他的问题劳烦请教
Q1:请问我这边点击“第一个月”,下面path出选择偏好class,生 ...

这个是分析网页自己写的xpath,这是xpath的学习教程:https://www.gooseeker.com/doc/article-248-1.html
举报 使用道具
yxlin_1998 初级会员 发表于 2021-7-20 21:38:35 | 显示全部楼层
你好,此规则中设置了两个动作,每个动作后执行:任务名
这样的结果是导致爬取后的内容不断重复

如果第一个动作的动作后执行:第二个任务名
这样的结果是第二个动作的动作后执行,也同步第二个任务名

请问这个应该如何处理呢?

任务名:七麦downloadEstimate
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:50