快捷导航
file:///C:\Users\mac\AppData\Roaming\Tencent\Users\309641660\QQ\WinTemp\RichOle\4T@31]NOSP5}FI7X841``2G.png

4T@31]NOSP5}FI7X841``2G.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-9-13 09:12

zj2233912 初级会员 发表于 2018-9-12 22:17:36 | 显示全部楼层
求助大佬管理员
举报 使用道具
Fuller 管理员 发表于 2018-9-13 08:53:12 | 显示全部楼层
这不是乱码,这是自定义字体,要进行翻译才行,可以委托给集搜客做翻译
举报 使用道具
Fuller 管理员 发表于 2018-9-13 09:12:04 | 显示全部楼层
最新的V8.8.0版本可以采集自定义字体内容,集搜客网络爬虫软件本身不做翻译,而是需要另外的软件,目前我们这个软件还没有开放出来。

集搜客网络爬虫只负责把看起来是乱码的内容显示成字库内码,同时把字库文件也下载下来。供翻译软件使用。

要现在字库文件和翻译内容,需要如下图这样操作
字体20180913090722.png

特殊字体只可用于“网页片段”或“纯文本”两类抓取。

抓取结果比普通抓取多两类内容
字库文件20180913091039.png

都放在FontDir中
1,字库描述文件:描述了某个抓取结果文件对应哪个字库文件
2,字库文件:存自定义字体的文件
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 用于清洗文本内容的Excel函数公式
  • 用网络爬虫采集小红书的笔记
  • 集搜客网络爬虫怎么用?
  • 用Excel合并集搜客网络爬虫采集到的多张表
  • 怎样用excel分列功能清洗电商数据的商品分

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-4-23 06:14