今天分享的这篇研究论文范例,尝试利用词典法辨识和量化我国科技政策文本用语中蕴含的决策者态度及其强弱程度,解决现有中文政策文本研究忽视词语语义强度的问题。立足科技政策的功能定位和用语特征,提出程度词的概念。兼顾数量和语义构建程度词典,包括依据专家知识选取种子词,利用 PMI算法进行词语扩展,使用同义词词林筛选词语。最后结合 TextRank算法进行实验验证。经过信度和效度检验,构建的程度词典有效,得出了结合程度词典的政策文本分析细粒度优于使用单一的文本挖掘算法的结论。 GooSeeker针对微博开发了一套网络爬虫工具——微博数据采集工具箱,例如,微博关键词搜索采集工具,输入要搜索的关键词,设定时间段,如果微博条数太多,要设置细分条件,即可启动网络爬虫工具,为研究课题收集内容。 和微博及电商评论相比,政策文本所在的网页结构一般不统一,收集数据的过程会比较费力。正文内容可以使用GooSeeker网络爬虫大批量采集,正文中分散在文字中的关键概念和名称可以使用GooSeeker的另一个工具获取:集搜客报表摘录软件,用来收集这种非结构化,较零散的网页可以显著提高效率,同学们可以试试。本论文范例要把政策文本一段一段分开,那么就可以用摘录软件,每次摘录一段。 1,论文范例介绍 标题:基于科技政策文本的程度词典构建研究 来源:中国知网( https://www.cnki.net/ ) 作者: 郑新曼 1,2,董瑜 1,2 中国科学院文献情报中心 北京 100190 中国科学院大学经济与管理学院图书情报与档案管理系 北京 100049 关键词:政策文本;特征提取;领域词典构建;意见挖掘 摘要: [目的] 利用词典法辨识和量化我国科技政策文本用语中蕴含的决策者态度及其强弱程度,解决现有中文政策文本研究忽视词语语义强度的问题。 [方法] 立足科技政策的功能定位和用语特征,提出程度词的概念。兼顾数量和语义构建程度词典,包括依据专家知识选取种子词,利用PMI算法进行词语扩展,使用同义词词林筛选词语。最后结合TextRank算法进行实验验证。 [结果] 经信度和效度检验,构建的程度词典有效,结合程度词典的政策文本分析细粒度优于使用单一的文本挖掘算法。 [局限] 程度词典的权重设计有待细化。 [结论] 科技政策文本中的程度词丰富、规范且稳定,具有量化分析的价值;词典法可以有效识别并利用程度词,有助于深入挖掘政策文本的语义特征。 2,本范例主要研究方法和相关知识点 2.1,样本数据的选取 本研究采集了新中国成立以来出台的 10 份国家级科技规划文本作为实验语料,构建适用于中文科技政策文本分析的程度词典。 2.2,基于科技政策文本的程度词典构建方法 主要分为 3 个部分: ①基于专家知识的种子词选取; ②基于词语共现的程度词扩展; ③基于语义相似度的程度词筛选。 2.3 分析流程 首先,将政策文本及其各专栏内容保留成段落形式;并利用 jieba 进行分词、去停用词和词性标注,得到各段落的词汇。接着,统计段落中程度词的频次,并乘以其对应的权重,对乘积进行求和得到段落的程度值。最后,使用 TextRank 算法[46]抽取各段落的关键词。为简化计算,设置程度词的权重为 1,非程度词无权重。 3,本论文范例研究得出的分析结论 首先,科技政策文本中存在丰富的程度词,并且使用规范且稳定,可用于量化分析。 其次,构建的程度词典有效,结合程度词典分析出的政策重要内容能够较好地对应专家解读的内容和任务。 第三,程度词典有助于深入挖掘文本内容。程度词典的引入有助于从重要程度和主题内容两 个维度分析政策文本,兼顾对词语数量和语义强度特征的考虑,有利于大规模政策文本内容的细粒度解读。 |