本帖最后由 ym 于 2020-3-6 17:18 编辑

我本来打算下载美国法规的xml文件,但是用爬虫访问都是直接打开网页,所以我就做了个规则采集html代码,直接把html节点做映射,点测试,输出信息里是空白的,然后改用body节点映射,输出信息也是空白的,但是映射span节点就可以正常输出信息,测试其他网页采集html节点,就可以正常输出网页代码,是这个网页有什么特别还是其他问题呢?

规则名:美国法规-食品安全_xml采集
QQ截图20200306163739.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-3-6 21:29

ym 版主 发表于 2020-3-6 17:18:15 | 显示全部楼层
试采集失败,具体日志如下
QQ截图20200306171458.png

举报 使用道具
Fuller 管理员 发表于 2020-3-6 18:43:14 | 显示全部楼层
目前新版的集搜客采摘浏览器的爬虫功能还比较有限,主要是采集老版的集搜客网络爬虫无法打开的网页。

这个网站上的js代码在老版集搜客网络爬虫上无法运行,所以,用新版采摘软件来做点击并且保存网页html快照。

如果要下载pdf文件,用新版采摘软件也很好,而且比老版功能强,比如出现下载中断的时候,可以恢复。

如果要下载xml文件,新版采摘软件能力还不够,因为会把xml打开,xml又不能直接定义规则采集内容。那么用老版爬虫下载xml文件好了,老版爬虫下载pdf也可以。因为这两种下载都直接使用pdf和xml的网址

你可以试试老版爬虫
举报 使用道具
ym 版主 发表于 2020-3-6 21:29:04 | 显示全部楼层
Fuller 发表于 2020-3-6 18:43
目前新版的集搜客采摘浏览器的爬虫功能还比较有限,主要是采集老版的集搜客网络爬虫无法打开的网页。

这个 ...

用老版本集搜客爬虫做规则和采集存在一样的问题,html节点和body节点都是采集失败的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:54