单击版的网页可以爬取嘛?就是已经保存到本地的html文件
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-9-11 08:52

沙发
ym 版主 发表于 2016-10-20 15:39:59 | 只看该作者
MS谋数台访问到的网页就可以采集
举报 使用道具
板凳
氧分子网 初级会员 发表于 2016-10-20 15:41:30 | 只看该作者
ym 发表于 2016-10-20 15:39
MS谋数台访问到的网页就可以采集

好的,我先试试
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-20 17:36:07 | 只看该作者

本地文件的url是以 file:// 开头的,采集方法跟http:// 的一样
举报 使用道具
5#
houyulin1993 初级会员 发表于 2018-9-10 21:24:12 | 只看该作者
Fuller 发表于 2016-10-20 17:36
本地文件的url是以 file:// 开头的,采集方法跟http:// 的一样

出现乱码这个如何解决哈,本地html文件从普通浏览器打开没有乱码问题,在集搜客里面打开出现乱码,如何解决?
举报 使用道具
6#
Fuller 管理员 发表于 2018-9-11 08:52:18 | 只看该作者
houyulin1993 发表于 2018-9-10 21:24
出现乱码这个如何解决哈,本地html文件从普通浏览器打开没有乱码问题,在集搜客里面打开出现乱码,如何解 ...

发一个样本页面过来看看。

本地html是怎样产生的?文档最前面有没有声明字体?集搜客浏览器只根据头部的声明来决定用什么字体,而不会自动去识别
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 18:53