file:///C:\Users\mac\AppData\Roaming\Tencent\Users\309641660\QQ\WinTemp\RichOle\4T@31]NOSP5}FI7X841``2G.png

4T@31]NOSP5}FI7X841``2G.png (604.45 KB, 下载次数: 434)

4T@31]NOSP5}FI7X841``2G.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-9-13 09:12

沙发
zj2233912 初级会员 发表于 2018-9-12 22:17:36 | 只看该作者
求助大佬管理员
举报 使用道具
板凳
Fuller 管理员 发表于 2018-9-13 08:53:12 | 只看该作者
这不是乱码,这是自定义字体,要进行翻译才行,可以委托给集搜客做翻译
举报 使用道具
地板
Fuller 管理员 发表于 2018-9-13 09:12:04 | 只看该作者
最新的V8.8.0版本可以采集自定义字体内容,集搜客网络爬虫软件本身不做翻译,而是需要另外的软件,目前我们这个软件还没有开放出来。

集搜客网络爬虫只负责把看起来是乱码的内容显示成字库内码,同时把字库文件也下载下来。供翻译软件使用。

要现在字库文件和翻译内容,需要如下图这样操作


特殊字体只可用于“网页片段”或“纯文本”两类抓取。

抓取结果比普通抓取多两类内容


都放在FontDir中
1,字库描述文件:描述了某个抓取结果文件对应哪个字库文件
2,字库文件:存自定义字体的文件
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 12:58