<img>标签的src内容是相对路径,比如:/aaaa/bbb.jpg。这样的,下载图片失败,怎么处理?
样本网址:
  1. http://www.shanghaiballet.com/zh/xwzx_ytdt.aspx
复制代码
主题名:shanghaiballet_news_001

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-1-20 16:23

沙发
xandy 论坛元老 发表于 2017-1-20 16:23:39 | 只看该作者
你做的规则图片下载失败的原因不是因为图片是相对路径,如果是相对路径,爬虫在下载的时候是会自动补全的。
导致失败的原因是,你用图片的@src做了内容映射,勾选了高级设置(如下图所示),爬虫处理不好这种情况,下载不了图片。

点击清除按钮,不要做高级设置就可以了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
xandy 论坛元老 发表于 2017-1-20 16:23:45 | 只看该作者
如果你要要设置网页片段抓取的话,应该选定一个html元素节点,然后再进行高级设置。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 22:23