采集美国法规xml网页的完整html代码，测试总是输出空白，是什么原因呢？

ym

本帖最后由 ym 于 2020-3-6 17:18 编辑

我本来打算下载美国法规的xml文件，但是用爬虫访问都是直接打开网页，所以我就做了个规则采集html代码，直接把html节点做映射，点测试，输出信息里是空白的，然后改用body节点映射，输出信息也是空白的，但是映射span节点就可以正常输出信息，测试其他网页采集html节点，就可以正常输出网页代码，是这个网页有什么特别还是其他问题呢？

规则名：美国法规-食品安全_xml采集

ym · 发表于 2020-3-6 17:18:15

试采集失败，具体日志如下

Fuller · 发表于 2020-3-6 18:43:14

目前新版的集搜客采摘浏览器的爬虫功能还比较有限，主要是采集老版的集搜客网络爬虫无法打开的网页。

这个网站上的js代码在老版集搜客网络爬虫上无法运行，所以，用新版采摘软件来做点击并且保存网页html快照。

如果要下载pdf文件，用新版采摘软件也很好，而且比老版功能强，比如出现下载中断的时候，可以恢复。

如果要下载xml文件，新版采摘软件能力还不够，因为会把xml打开，xml又不能直接定义规则采集内容。那么用老版爬虫下载xml文件好了，老版爬虫下载pdf也可以。因为这两种下载都直接使用pdf和xml的网址

你可以试试老版爬虫

ym · 发表于 2020-3-6 21:29:04

Fuller 发表于 2020-3-6 18:43
目前新版的集搜客采摘浏览器的爬虫功能还比较有限，主要是采集老版的集搜客网络爬虫无法打开的网页。

这个 ...

用老版本集搜客爬虫做规则和采集存在一样的问题，html节点和body节点都是采集失败的

采集美国法规xml网页的完整html代码，测试总是输出空白，是什么原因呢？

本帖子中包含更多资源

共 3 个关于本帖的回复最后回复于 2020-3-6 21:29

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

采集美国法规xml网页的完整html代码，测试总是输出空白，是什么原因呢？

本帖子中包含更多资源

共 3 个关于本帖的回复 最后回复于 2020-3-6 21:29

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2020-3-6 21:29