根据第二张图设置的翻页规则,点击指定位置翻页,我在采集数据的时候设置翻页10次,但每次都是2页的数据

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2024-1-18 16:07

沙发
青海伏明霞 初级会员 发表于 2024-1-17 18:10:43 | 只看该作者
规则编号:规则_1
举报 使用道具
板凳
gz51837844 管理员 发表于 2024-1-17 18:31:14 | 只看该作者
你这个任务的任务名是什么?
管理员在后台查询“青海伏明霞”这个用户名下面没有任何已保存的任务。
举报 使用道具
地板
Fuller 管理员 发表于 2024-1-17 22:52:19 | 只看该作者
把这里改成 偏好ID ,试一试

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
青海伏明霞 初级会员 发表于 2024-1-18 09:37:25 | 只看该作者
gz51837844 发表于 2024-1-17 18:31
你这个任务的任务名是什么?
管理员在后台查询“青海伏明霞”这个用户名下面没有任何已保存的任务。
...

CanadaNews

举报 使用道具
6#
gz51837844 管理员 发表于 2024-1-18 10:24:28 | 只看该作者

图中初始的@class值是sclt-loadmore1。。。。, 翻了一页后会变成sclt-loadmore2。。。
这样翻页的xpath就找不到了,翻页就结束了。
做翻页映射时: 可以试试用图中的BUTTON的父节点的@class值映射翻页记号,避开翻页后@class值会改变的节点

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
青海伏明霞 初级会员 发表于 2024-1-18 11:00:26 | 只看该作者
Fuller 发表于 2024-1-17 22:52
把这里改成 偏好ID ,试一试

我设置了偏好id可以加载下面的,但是这个网页是是继续加载这种,一触发加载就重新爬这个页面所有数据,导致非常多的重复数据
举报 使用道具
8#
Fuller 管理员 发表于 2024-1-18 16:07:58 | 只看该作者
青海伏明霞 发表于 2024-1-18 11:00
我设置了偏好id可以加载下面的,但是这个网页是是继续加载这种,一触发加载就重新爬这个页面所有数据,导 ...

持续加载的网页没有办法避免重复,因为以前加载的网页内容还在网页上,会一起采集下来。可以爬到最后一页以后,只把最后一个xml导入数据库
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-22 01:06