快捷导航
采集店铺信息的价格和地址的时候只采取到信息的一部分,其余部分是缺失值或者是乱码
QQ图片20190520153035.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2019-5-20 16:39

Fuller 管理员 发表于 2019-5-20 15:46:35 | 显示全部楼层
根据这个截图看,大众点评使用了自定义字体,集搜客网络爬虫可以把自定义字体文件和编码下载下来,不过翻译程序没有包含在爬虫功能中,要自己翻译。
举报 使用道具
bc19981104 新手上路 发表于 2019-5-20 16:04:29 | 显示全部楼层
Fuller 发表于 2019-5-20 15:46
根据这个截图看,大众点评使用了自定义字体,集搜客网络爬虫可以把自定义字体文件和编码下载下来,不过翻译 ...

意思是可以先把信息爬取下来,然后再解码吗
举报 使用道具
Fuller 管理员 发表于 2019-5-20 16:39:47 | 显示全部楼层
bc19981104 发表于 2019-5-20 16:04
意思是可以先把信息爬取下来,然后再解码吗

这种自定义字体用的字体库与我们看到的常用的字体库不一样,比如,我们用宋体、楷体等等,假设编码 123 对应 “宋”字,那么不论在哪台电脑的哪个浏览器上都会显示成“宋”字。但是自定义字体,“宋”字用的编码可能就不是123了,也可能天天变,所以,网页上当时用的字体库是什么,对应了什么编码,这个要当时就记录下来,然后找个程序把这个对应关系转换成标准的宋体或者楷体。

集搜客网络爬虫就像下载图片一样下载字体库文件,同时把网页上显示的编码也记录下来。采集结果文件中能看到那个字不是乱码,而是一串字母数字。这个字母数字就是用来对应字体库的。

这个翻译过程需要自己写程序实现,目前集搜客没有开放出来这个翻译过程
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 采集知乎上关于华为鸿蒙的问题和回答
  • 分词和分类检索平台使用手册
  • 用爬虫采集机场出租车进场出场数据的公告
  • 摘取泉港区政府工作报告中的数字遇到的问题
  • 调度设置参数说明

热门用户

GMT+8, 2019-9-22 07:53