快捷导航
本帖最后由 yxlin_1998 于 2021-7-20 13:00 编辑

任务名:七麦downloadEstimate
规则:希望点击网址后,在原网址的基础上,下载量预估的日期定义“一个月”,页面呈现修改为“表格格式”。并遵循路线中翻页的内容,在动作完成的基础上翻页爬取一个月的数据内容。

目标网址的原呈现方式,如下图:

预期的点击#1,#2 后的呈现,如下图:





目标图.png
初始图.png
image.png
image.png
image.png
image.png
image.png
S{08~_(`[SS$PN8%0`KZAKI.jpg
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-7-20 21:38

wangyong 版主 发表于 2021-7-20 14:51:35 | 显示全部楼层
首先这个规则应该拆成两级规则,第一级规则负责点击,第二级来抓取来执行抓取
规则里写这两个动作://*[@class='filter-list']/div[2]/div[2]//li[2]  点击第一个月
第二个动作://*[@class='new-iconfont iconliebiao']  点击切换成表格
QQ截图20210720145050.jpg
第二级规则再采集具体数据
举报 使用道具
yxlin_1998 初级会员 发表于 2021-7-20 15:05:35 | 显示全部楼层
感谢您的答疑,还有一些其他的问题劳烦请教
Q1:请问我这边点击“第一个月”,下面path出选择偏好class,生成的是 //*[@class='active'] ,不知您是如何生成这个的呢?//*[@class='filter-list']/div[2]/div[2]//li[2]
举报 使用道具
wangyong 版主 发表于 2021-7-20 15:21:45 | 显示全部楼层
yxlin_1998 发表于 2021-7-20 15:05
感谢您的答疑,还有一些其他的问题劳烦请教
Q1:请问我这边点击“第一个月”,下面path出选择偏好class,生 ...

这个是分析网页自己写的xpath,这是xpath的学习教程:https://www.gooseeker.com/doc/article-248-1.html
举报 使用道具
yxlin_1998 初级会员 发表于 2021-7-20 21:38:35 | 显示全部楼层
你好,此规则中设置了两个动作,每个动作后执行:任务名
这样的结果是导致爬取后的内容不断重复

如果第一个动作的动作后执行:第二个任务名
这样的结果是第二个动作的动作后执行,也同步第二个任务名

请问这个应该如何处理呢?

任务名:七麦downloadEstimate
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 新闻内容分词后在Jupyter Notebook中使用TF
  • Jupyter Notebook使用sklearn的TF-IDF算法
  • 基于TSC 理论的网络社区中知识动员模式研究
  • 网页数据采集使用嵌套整理箱获得有层次的数
  • 我国旅游管理研究的知识来源与结构—基于文

热门用户

GMT+8, 2021-7-31 12:47