我在看一个pubscholar_cn页面,首页是https://pubscholar.cn/explore,经过下图的筛选:

然后想采集列表页。这个页面是瀑布流,没有翻页,普通滚屏试了不行。我是旗舰版用户,尝试了下滚轮滚屏,但是每次都只能往下滚一页,然后就因为"数据重复"而退出了。
我使用的滚屏区域xpath是://*[@class='Card AppSearchMain']
麻烦帮忙看看,怎样调整才能往下滚多屏?另外,每条记录的“下载链接”,如果手工点击可以下载文件,但是没有链接,爬虫是不是就下载不了
任务名:
pubscholar_list_pre
pubscholar_list

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2024-7-5 11:54

沙发
Fuller 管理员 发表于 2024-7-5 11:54:37 | 只看该作者
这说明滚轮区没有找对。观察采集过程,发现还是往下滚动了一次,说明当前选的滚轮区是包含在应该选的滚轮区节点内的,那么就要从当前节点网上找。

用这个xpath定位的滚轮区是正确的:
(//*[@class='App__scroll base-scrollbar'])[1]

[1]表示网页上有两个滚轮区,要使用第一个,第二个是左栏菜单的。

在找滚轮区的时候,可以打开爬虫软件的开发者工具,用 ctrl+shift+c 三个键打开。在开发者工具中可以看到更详细的节点信息。如下图,一般出现scroll字样的节点就是要找的节点

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的
  • 下载支持win7的集搜客网络爬虫软件
  • 遇到“无法识别的应用”告警怎么办?

热门用户

GMT+8, 2024-9-8 08:45