|
目前新版的集搜客采摘浏览器的爬虫功能还比较有限,主要是采集老版的集搜客网络爬虫无法打开的网页。
这个网站上的js代码在老版集搜客网络爬虫上无法运行,所以,用新版采摘软件来做点击并且保存网页html快照。
如果要下载pdf文件,用新版采摘软件也很好,而且比老版功能强,比如出现下载中断的时候,可以恢复。
如果要下载xml文件,新版采摘软件能力还不够,因为会把xml打开,xml又不能直接定义规则采集内容。那么用老版爬虫下载xml文件好了,老版爬虫下载pdf也可以。因为这两种下载都直接使用pdf和xml的网址
你可以试试老版爬虫 |
|
共 3 个关于本帖的回复 最后回复于 2020-3-6 21:29