|
左边的数字是一个词总共出现了多少次,右边是这个词出现在几个document(一条被分析的文本)中,如果一个词在一个document出现了多次,这两个数字就不一样了。
手工添加的词与自动分词出来的不一样,自动分词是根据一种统计算法,根据语义,把句子切成词,但是不会做到100%正确,有可能把词切破了,所以,加上手工填词功能,手工加的词,是用字符串匹配法去计算频数的,它也有缺点,有可能没有正确理解上下文。
比如,电视剧中依据台词,老师让夏宇用“果然”造句,夏宇写成“我喝了可乐又吃苹果然后就拉肚子了”,好的自动分词算法不会把“果然”分出来的,但是手工填词会匹配到“果然”。
有用两种方法各有优缺点,所以,要很准确的话,需要人工做一下审核。
针对导出的excel做审核,如果想修改词频数,也在excel中修改
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|