集搜客GooSeeker网络爬虫

标题: 分词原理 [打印本页]

作者: sysysysy    时间: 2020-5-23 13:40
标题: 分词原理
请教一下大家集搜客的分词原理是什么?是基于已有的词典做字符匹配吗?还是说是用统计法来判断一个词是否可以成为一个词?(使用了集搜客做分词,结果老师问我原理,给我整蒙了,所以跪求解答,谢谢)

作者: Fuller    时间: 2020-5-23 15:41
现在的分词一般都是根据统计结果来分的,不是硬匹配。所以,会出现词被切破的时候,比如,一些人名。假设分析微博上的名人之间的关系,往往会发现一些人名切错了。这时候就要自己加词,自己加的词是硬匹配的。
作者: sysysysy    时间: 2020-5-23 16:57
Fuller 发表于 2020-5-23 15:41
现在的分词一般都是根据统计结果来分的,不是硬匹配。所以,会出现词被切破的时候,比如,一些人名。假设分 ...

了解了 谢谢

作者: 发誓学好内容分析    时间: 2020-9-29 15:40
集搜客分词软件具体用的是什么算法呢?我在毕业论文中使用了集搜客分词和文本分析工具,论文中要说明算法原理,能否具体一点说一说


作者: Fuller    时间: 2020-9-29 15:43
发誓学好内容分析 发表于 2020-9-29 15:40
集搜客分词软件具体用的是什么算法呢?我在毕业论文中使用了集搜客分词和文本分析工具,论文中要说明算法原 ...

在nlp领域,文本分词是首先要做的,用的比较多的理论是马尔科夫链。隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。可以看这个帖子:《隐马尔科夫链





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2