我抓取图片,无法抓到链接,设置了绝对定位可以抓到,但所有信息只有一条,该怎么办?
每页应该有10条,用其他定位可以抓到,但没有图片链接
测试的结果
任务名richmond

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-9-24 20:34

沙发
Fuller 管理员 发表于 2020-9-24 16:51:54 | 只看该作者


如箭头所示生成数据规则,可以看到这个网页采集难度是:
1,第一个样例的图片是个slide,有好几张,所以网页结构完全不一样
2,每个样例,他们的div对应的class值都含有一些唯一性的字符串,看红框里面的内容,要避开他们

这个规则应该自定义xpath,让我想想怎么做

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Fuller 管理员 发表于 2020-9-24 17:07:38 | 只看该作者
我测试了一下,应该没有那么麻烦,那些含有特殊字符串的class不是唯一的,很适合做定位标志。只需要给图片那个抓取内容做上自定义xpath就行,然后定位偏好那里使用偏好class,不要用绝对定位



自定义xpath是:.//*[@class='ImagePanel_imagePlaceholder_3u0xK']//img/@src

一定要勾上 文本内容,不能勾上 网页片段,因为上面那个xpath定位到了 @src,所以,不能勾网页片段

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
billwang2020 初级会员 发表于 2020-9-24 20:34:49 | 只看该作者
Fuller 发表于 2020-9-24 17:07
我测试了一下,应该没有那么麻烦,那些含有特殊字符串的class不是唯一的,很适合做定位标志。只需要给图片 ...

非常感谢,可以抓了。写代码真是太难了,将来搞一个小白傻瓜版吧,可见即可抓,鼠标一点即可,自动翻页,全自动操作。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-21 14:51