如何采集整个网页保存在本地文件成HTML格式文件,不要xml格式?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2019-10-30 12:09

沙发
15170883617 新手上路 发表于 2019-10-30 11:52:42 | 只看该作者
本帖最后由 15170883617 于 2019-10-30 11:59 编辑

保存成html格式文件没办法做到,可以采下整个html代码,

可以把DOM中的最顶层html节点映射给抓取内容,就能把整个html存下来
举报 使用道具
板凳
Fuller 管理员 发表于 2019-10-30 12:09:18 | 只看该作者
集搜客网络爬虫软件GooSeeker能把整个html存下来,但是是放在采集结果文件xml中的,如果只想要html,需要把XML文件中的包围html的那些标签都删除。

集搜客gsbrowser新版网络爬虫软件具有专门的下载html快照的功能,要等一段时间才能正式发布这个版本
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-23 03:44