gooseeker采集了大约6000+条数据,【XML文件有树状结构】,上传云数据库处理后导出EXCEL,大约产生的10000+条数据,但是经过EXCEL去重后,只有71条数据了,不知道怎么回事?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-6-9 18:52

沙发
Fuller 管理员 发表于 2017-6-9 12:03:32 | 只看该作者
加入这个qq群: GooSeeker集搜客网络爬虫 472442022   联系管理员,私聊把结果文件发给他,让他安排人分析一下

你的主题名是什么?我看看是不是规则有问题
举报 使用道具
板凳
Fuller 管理员 发表于 2017-6-9 12:04:31 | 只看该作者
你也可以把数据文件直接email给 info@gooseeker.com 会有技术人员接手处理这个问题
举报 使用道具
地板
wanglinliang 中级会员 发表于 2017-6-9 12:32:21 | 只看该作者
Fuller 发表于 2017-6-9 12:04
你也可以把数据文件直接email给  会有技术人员接手处理这个问题

已发邮箱,谢谢了
举报 使用道具
5#
shengchengx 金牌会员 发表于 2017-6-9 17:04:34 | 只看该作者
去重的条件字段选择的是什么字段?
因为规则中的详情字段没勾选高级设置中的网页片段,造成了一对多的数据结构,转换成Excel后1的数量会满足多的数量
把详情字段勾选网页片段后就是作为一个独立的字段
举报 使用道具
6#
shengchengx 金牌会员 发表于 2017-6-9 17:07:18 | 只看该作者
详情字段含有src、alt、height等属性,解析的时候会把这些属性也当做字段,然后和其他字段以n:1的方式整合,所以需要把详情字段勾选一下网页片段
举报 使用道具
7#
wanglinliang 中级会员 发表于 2017-6-9 17:44:11 | 只看该作者
shengchengx 发表于 2017-6-9 17:07
详情字段含有src、alt、height等属性,解析的时候会把这些属性也当做字段,然后和其他字段以n:1的方式整合 ...

因为我的规则里嵌套了二级图片链接,图片是在一条规则里面下载的;生产的数据我会把包含图片链接的列全部删除,保留前面的字段;去重选择的是ID和商品链接、商品标题作为筛选字段;问题不在EXcel去重这里,就是云数据库处理二级嵌套的字段很多数据都被覆盖了,导致数据有异常
举报 使用道具
8#
shengchengx 金牌会员 发表于 2017-6-9 17:53:56 | 只看该作者
不是异常,你的账号是免费版只能导出一万条数据,数据库里还有其他数据没有导出
举报 使用道具
9#
wanglinliang 中级会员 发表于 2017-6-9 18:04:25 | 只看该作者
shengchengx 发表于 2017-6-9 17:53
不是异常,你的账号是免费版只能导出一万条数据,数据库里还有其他数据没有导出 ...

我买个会员就可以了吗?
举报 使用道具
10#
shengchengx 金牌会员 发表于 2017-6-9 18:05:16 | 只看该作者
wanglinliang 发表于 2017-6-9 18:04
我买个会员就可以了吗?

扩充仓库后会把所有的数据导出
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 17:05