222 107571

集搜客文本分词标注工具(V1版)

ym 于 2016-11-15 10:55 发表 [复制链接]
wwdz2018 初级会员 发表于 2020-3-4 23:56:49 | 显示全部楼层
我想咨询下我采集数据的时候同一家店的店名都重复下载了,现在怎么只保留一个店名信息,并对应相应的评论?数据太多一个一个删除很麻烦!
举报 使用道具
Fuller 管理员 发表于 2020-3-5 00:33:56 | 显示全部楼层
wwdz2018 发表于 2020-3-4 23:56
我想咨询下我采集数据的时候同一家店的店名都重复下载了,现在怎么只保留一个店名信息,并对应相应的评论? ...

在excel中,可以标记重复数据,把重复的行标记成一个颜色,然后可以用排序功能,把重复在放在一起,然后手工选中重复的进行删除
举报 使用道具
123goo 新手上路 发表于 2020-3-11 11:26:12 | 显示全部楼层
可以自定义分词规则吗
举报 使用道具
Fuller 管理员 发表于 2020-3-11 11:49:10 | 显示全部楼层
123goo 发表于 2020-3-11 11:26
可以自定义分词规则吗

分词规则改不了。如果发现词被切开了,可以手工加词,就会严格按照输入词进行匹配
举报 使用道具
Belle_123 新手上路 发表于 2020-3-18 14:01:50 | 显示全部楼层
可以自定义需要分词的词表吗
举报 使用道具
ym 版主 发表于 2020-3-18 14:31:30 | 显示全部楼层
Belle_123 发表于 2020-3-18 14:01
可以自定义需要分词的词表吗

平台有内置的分词器,一般不用导入词表;如果部分词语没有正确切分出来,可以在“选词结果”页签里添加自定义的词语,那么平台就会单独遍历新加的词并统计词频

举报 使用道具
江山娇 新手上路 发表于 2020-3-20 00:03:42 | 显示全部楼层
分词检索导入数据分析不出来?点全部就有,但是没法导出啊
举报 使用道具
江山娇 新手上路 发表于 2020-3-20 00:17:19 | 显示全部楼层
我想问一下,分类检索导入数据处理之后,关注页没有显示是怎么回事?点全部页有显示但是也不能导出啊……
举报 使用道具
Fuller 管理员 发表于 2020-3-20 07:00:13 | 显示全部楼层
江山娇 发表于 2020-3-20 00:03
分词检索导入数据分析不出来?点全部就有,但是没法导出啊

你想导出哪个表?导入以后,分词完成,就可以导出一些表了,你导出哪个表没有得到?
举报 使用道具
Fuller 管理员 发表于 2020-3-20 07:10:27 | 显示全部楼层
江山娇 发表于 2020-3-20 00:17
我想问一下,分类检索导入数据处理之后,关注页没有显示是怎么回事?点全部页有显示但是也不能导出啊…… ...

如果没有配置类别,就不会显示分类信息,请看下面两个图,对比了没有配置类别和配置了类别的不同,有了分类才能导出,如果没有分类,导出这些内容没有意义,就是原文内容。
类别20200320070707.png

没有配置分类的情况
没分类20200320070751.png




举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:46