11#
lizhizilt 中级会员 发表于 2017-7-12 01:02:18 | 只看该作者
Fuller 发表于 2017-7-11 22:45
在转换成excel的时候,把html片段中的属性也当成采集数据进行转换了,这个应该是转换程序的问题。我会把 ...

对了,如果之后会员中心的转换程序改变了,能够满足我提到的问题的话,到时候公布下,或者私信一下我?谢谢,会员中心的转换功能升级之后,我就可以再次修改规则满足需求了
举报 使用道具
12#
Fuller 管理员 发表于 2017-7-12 19:18:41 | 只看该作者
lizhizilt 发表于 2017-7-12 01:02
对了,如果之后会员中心的转换程序改变了,能够满足我提到的问题的话,到时候公布下,或者私信一下我?谢 ...

好的,我们正在修改
举报 使用道具
13#
Fuller 管理员 发表于 2017-7-12 19:39:23 | 只看该作者

我们的开发人员检查了一下,应该是你修改过规则,某个抓取内容一开始勾上了抓取“网页片段”,采了一些结果数据,然后,修改了规则,去掉了“网页片段”,又采集了一些结果数据。最后,这些结果数据一起导入了会员中心,会员中心依照最新的规则,发现没有“网页片段”,就把html的节点都当成抓取内容解析开了。

如果发生这种类型的修改,不要一起入库。以前的采集结果就不要入库了
举报 使用道具
14#
lizhizilt 中级会员 发表于 2017-7-13 02:23:31 | 只看该作者
Fuller 发表于 2017-7-12 19:39
我们的开发人员检查了一下,应该是你修改过规则,某个抓取内容一开始勾上了抓取“网页片段”,采了一些结 ...

最后的问题还是回到了“把html的节点都当成抓取内容解析开了”,这个是转换规则导致的问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-9 10:18