图片url采集不到,测试规则时有,预览数据也能看到,xml里面也有,导入导出成excel就没了
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2020-7-21 09:53

沙发
iwvcar009 高级会员 发表于 2020-7-16 10:37:48 | 只看该作者
jblist  jb详情 这些规则都是如此,图片链接总是采集不到

感觉像导入工具的规则有bug,碰到特殊字符就出错一样
举报 使用道具
板凳
小蜜蜂测试162 高级会员 发表于 2020-7-16 11:05:06 | 只看该作者
你把采集的网址发一下吧,这些规则加载规则的样本页面都是本地路径,我们看不到
举报 使用道具
地板
iwvcar009 高级会员 发表于 2020-7-16 13:46:40 | 只看该作者
https://www.blancpain.cn/zh-hans ... nutes-6632-3642-55a
这是jb详情 的样本页面,要先点击开价格

https://www.blancpain.cn/zh-hans/wanbiaoxilie/zhaodaonindewanbiao
这是 jblist 的样本页面
举报 使用道具
5#
wangyong 版主 发表于 2020-7-16 14:29:19 | 只看该作者
iwvcar009 发表于 2020-7-16 13:46
https://www.blancpain.cn/zh-hans/yishudashixilie/repetition-minutes-6632-3642-55a
这是jb详情 的样本 ...


这是我测试列表页规则的数据,能采到图片

你把你说没有图片网址的xml和下载的Excel发一下看看

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
iwvcar009 高级会员 发表于 2020-7-16 20:38:59 | 只看该作者
这是导出的数据excel

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
iwvcar009 高级会员 发表于 2020-7-16 20:40:44 | 只看该作者
这是某一个xml,xml里面有url,但是导出的汇总数据表中就采集不到图片url了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
wangyong 版主 发表于 2020-7-16 21:02:33 | 只看该作者
iwvcar009 发表于 2020-7-16 20:40
这是某一个xml,xml里面有url,但是导出的汇总数据表中就采集不到图片url了
...


图片链接这个字段在高级设置里选择文本内容,重新抓取就能正常入库了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
iwvcar009 高级会员 发表于 2020-7-16 22:37:20 | 只看该作者
好的,我再试试看,谢谢啦
举报 使用道具
10#
Fuller 管理员 发表于 2020-7-17 09:07:42 | 只看该作者
关键原因是@src是属性节点,如果勾选网页片段选项,还会在结果文件中保持属性节点。而属性节点内容是不入库的。

如果是在正常的内容映射或者标注后,再勾选高级设置,勾上网页片段,会有如下提示:



但是,如果是自定义xpath,或者别的操作顺序,爬虫没法判断节点类型,就没法限制。

下个版本我们再增加一个结果文件过滤功能,把属性节点内容恢复到元素节点中

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-21 23:30