基于依存句法分析的科技政策领域主题词表无监督构建

2021-8-19 11:12| 发布者: Fuller| 查看: 3944| 评论: 0

摘要: 为了解决科技政策领域词表构建的问题，本文提出一种基于依存句法分析的科技政策文本关键词抽取算法。在此基础上，提出文本主题词指数来构建文本主题词，利用同义词识别算法及百科知识发现和确定词与词的同义关系，采 ...

今天分享给大家的是一篇对科技政策领域词表的构建进行研究的论文范例。

为了解决科技政策领域词表构建的问题，本文提出一种基于依存句法分析的科技政策文本关键词抽取算法。在此基础上，提出文本主题词指数来构建文本主题词，利用同义词识别算法及百科知识发现和确定词与词的同义关系，采用字面匹配的方法判别上下位词，最终汇合四个部分形成科技政策领域主题词表。为了适应缺乏标记的实际情况，使得文章更具有实际应用价值，本文使用了无监督方法。结果表明，此方法产生的词表具有显著的领域特征，可以解决领域未登录词切分，主题词之间关系缺乏等问题，有效地支持分词及文本分析。

对于收集到的研究数据, 比如政策文本，新闻，在线评论等，如果需要分词后做分析，我们一般推荐同学们使用GooSeeker文本分词和情感分析软件，软件的界面很人性化，文科生可以直接无障碍上手使用，主要功能有：分词，关键词提取，人工筛选，词频统计，词云图，情感分析，社交网络图生成等。

由于有大量的活跃用户在持续使用这个软件帮助他们进行研究工作和写论文，这些用户会经常提出各种优化建议，所以这个软件的功能和易用性一直在优化提高，不像一些开源软件多年没有人维护。

对于本论文范例提到的通用中文分词器对于特定领域分词不准的情况，GooSeeker文本分词和情感分析软件也有解决方案：可以添加和导入自定义的词典。