爬完后,是否能获取网页快照数据。
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-11-30 23:07

沙发
Fuller 管理员 发表于 2016-10-17 18:08:41 | 只看该作者
你指的快照是什么?

你想用网页的完整的html文档吗?这个功能需要专门出一个定制版本,通常我们不存html源码
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2016-10-17 18:15:05 | 只看该作者
如果是想保存html,可以在规则里加个字段,把整个html都映射给这个字段
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-17 18:18:46 | 只看该作者
shenzhenwan10 发表于 2016-10-17 18:15
如果是想保存html,可以在规则里加个字段,把整个html都映射给这个字段

这是个好办法,我竟然没有想到。

用这种方法比存html源码好,因为这种方法还能把动态生成的html内容都存下来,不只是初始的html文档
举报 使用道具
5#
有正事的小青年 初级会员 发表于 2016-11-30 11:39:55 | 只看该作者
shenzhenwan10 发表于 2016-10-17 18:15
如果是想保存html,可以在规则里加个字段,把整个html都映射给这个字段

您的意思是第一幅图那样吗,如果是这样的话,我在MS谋数台里测试了,有很长一段码,和用第二张图的方法弄下来的效果一样吗?

13333.png (14.51 KB, 下载次数: 637)

13333.png

23.png (9.35 KB, 下载次数: 715)

23.png
举报 使用道具
6#
Fuller 管理员 发表于 2016-11-30 23:07:09 | 只看该作者
有正事的小青年 发表于 2016-11-30 11:39
您的意思是第一幅图那样吗,如果是这样的话,我在MS谋数台里测试了,有很长一段码,和用第二张图的方法弄 ...

效果会有些区别,内容映射后抓取下来的内容是从浏览器中转存出来的,那是解析过的网页再次转换出来,所以,跟原网页会不太一样

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 00:38