我抓取图片,无法抓到链接,设置了绝对定位可以抓到,但所有信息只有一条,该怎么办?
每页应该有10条,用其他定位可以抓到,但没有图片链接
测试的结果
任务名richmond

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-9-24 20:34

沙发
Fuller 管理员 发表于 2020-9-24 16:51:54 | 只看该作者


如箭头所示生成数据规则,可以看到这个网页采集难度是:
1,第一个样例的图片是个slide,有好几张,所以网页结构完全不一样
2,每个样例,他们的div对应的class值都含有一些唯一性的字符串,看红框里面的内容,要避开他们

这个规则应该自定义xpath,让我想想怎么做
举报 使用道具
板凳
Fuller 管理员 发表于 2020-9-24 17:07:38 | 只看该作者
我测试了一下,应该没有那么麻烦,那些含有特殊字符串的class不是唯一的,很适合做定位标志。只需要给图片那个抓取内容做上自定义xpath就行,然后定位偏好那里使用偏好class,不要用绝对定位



自定义xpath是:.//*[@class='ImagePanel_imagePlaceholder_3u0xK']//img/@src

一定要勾上 文本内容,不能勾上 网页片段,因为上面那个xpath定位到了 @src,所以,不能勾网页片段
举报 使用道具
地板
billwang2020 初级会员 发表于 2020-9-24 20:34:49 | 只看该作者
Fuller 发表于 2020-9-24 17:07
我测试了一下,应该没有那么麻烦,那些含有特殊字符串的class不是唯一的,很适合做定位标志。只需要给图片 ...

非常感谢,可以抓了。写代码真是太难了,将来搞一个小白傻瓜版吧,可见即可抓,鼠标一点即可,自动翻页,全自动操作。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 05:21