今天分享给大家的是一篇对科技政策领域词表的构建进行研究的论文范例。 为了解决科技政策领域词表构建的问题,本文提出一种基于依存句法分析的科技政策文本关键词抽取算法。在此基础上,提出文本主题词指数来构建文本主题词,利用同义词识别算法及百科知识发现和确定词与词的同义关系,采用字面匹配的方法判别上下位词,最终汇合四个部分形成科技政策领域主题词表。为了适应缺乏标记的实际情况,使得文章更具有实际应用价值,本文使用了无监督方法。结果表明,此方法产生的词表具有显著的领域特征,可以解决领域未登录词切分,主题词之间关系缺乏等问题,有效地支持分词及文本分析。 对于收集到的研究数据, 比如政策文本,新闻,在线评论等,如果需要分词后做分析,我们一般推荐同学们使用GooSeeker文本分词和情感分析软件,软件的界面很人性化,文科生可以直接无障碍上手使用,主要功能有:分词,关键词提取,人工筛选,词频统计,词云图,情感分析,社交网络图生成等。 由于有大量的活跃用户在持续使用这个软件帮助他们进行研究工作和写论文,这些用户会经常提出各种优化建议,所以这个软件的功能和易用性一直在优化提高,不像一些开源软件多年没有人维护。 对于本论文范例提到的通用中文分词器对于特定领域分词不准的情况,GooSeeker文本分词和情感分析软件也有解决方案:可以添加和导入自定义的词典。 1,本论文范例的研究背景 在政策文本分析过程中,通用的中文分词器对科技政策领域的文本适应性较差,可能导致后续分析的不准确。因为科技政策文本中经常性会出现一些特殊的名词术语,如“京津冀一体化”,“一带一路”,由于分词器对新词、特殊词等未登录词的敏感度很低 [1],所以很难将这些词完整的切分出来,这样就会造成关键信息的丢失。 2,论文范例的基本信息 标题:基于依存句法分析的科技政策领域主题词表无监督构建 关键词:科技政策;无监督构建;依存句法分析;主题词表;文本挖掘 作者: 邵卫 化柏林 北京大学信息管理系 北京 100871 摘要: 为了解决科技政策领域词表构建的问题,本文提出一种基于依存句法分析的科技政策文本关键词抽取算法。在此基础上,提出文本主题词指数来构建文本主题词,利用同义词识别算法及百科知识发现和确定词与词的同义关系,采用字面匹配的方法判别上下位词,最终汇合四个部分形成科技政策领域主题词表。为了适应缺乏标记的实际情况,使得文章更具有实际应用价值,本文使用了无监督方法。结果表明,此方法产生的词表具有显著的领域特征,可以解决领域未登录词切分,主题词之间关系缺乏等问题,有效地支持分词及文本分析。 3,范文的主要研究方法和步骤 3.1 数据收集 从各省直辖市科技厅(科委)官网下的科技政策栏目下采集了全部的政策文本数据(共 2620 条,爬取完成时间:2019 年 9 月) 3.2 关键词无监督抽取方法 3.3 文本主题词无监督抽取方法(连贯性) 3.4 同义词无监督抽取方法 3.5 上下位类词无监督抽取方法 4,后续的学习实践 关于关键词和主题的提取,除了使用GooSeeker文本分词和情感分析软件直接获取外,我们也有在Jupyter Notebook下使用python进行提取的案例,见: 1. Jupyter Notebook使用Python做TextRank关键词提取测试 2. 新闻内容分词后在Jupyter Notebook中使用TF-IDF算法提取关键词 3. 微博内容分词并手工选词后用JupyterNotebook做LDA主题分析 4. 分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook) 接下来,准备先用gooseeker采集一些科技政策文本,然后做以下实践: 1.用文本分词和情感分析软件做分词和关键词提取分析 2.在Jupyter Notebook中对科技政策文本进行基于textRank, tf-idf的关键词提取实践 3.在Jupyter Notebook中对科技政策文本进行LDA主题分析 |