上周我们和同学们分享过一篇范文《基于依存句法分析的科技政策领域主题词表无监督构建》,该文就科技政策领域词表构建的问题进行了研究。今天分享的这篇研究论文范例,详细阐述敦煌壁画叙词表的构建与其关联数据发布过程,采用自顶向下与自底向上相结合的领域叙词表构建方法,提高叙词表建设效率的同时保证叙词表的高质量。在此基础上,研究实现敦煌壁画叙词表关联数据发布和可视化,与外部词表进行语义关联,并提供开放数据服务。敦煌壁画叙词表的构建和编制,可促进敦煌壁画领域数字人文应用的开发,也为我国文化遗产领域受控词表的建设提供了重要参考和借鉴。 现在是互联网时代,可以很容易地从互联网上获取电子化的文字内容,可以很高效的建立语料库,用于各类自然语言处理研究,包括叙词表构建所需的语料库。另外,做研究写论文,如果需要从web网页上收集数据或者做文献分析,直接使用GooSeeker网络爬虫软件。比如要收集微博数据用于研究分析,可以使用GooSeeker微博数据采集工具箱,添加网址启动采集即可。采集完成后,直接打包下载excel数据表格。 1,研究论文介绍 标题:敦煌壁画叙词表构建与关联数据发布 作者: 王晓光1,2 侯西龙3 程航航1 夏生平4 作者单位: 1. 武汉大学信息管理学院 2. 教育部人文社科重点研究基地武汉大学信息资源研究中心 3. 武汉大学信息资源研究中心 4. 敦煌研究院 关键词:敦煌壁画;叙词表;知识组织系统;关联数据;数字人文; 基金资助: 国家自然科学基金创新研究群体项目“信息资源管理”(编号:71921002); 湖北省自然科学基金创新研究群体项目“大数据资源语义组织与管理应用研究”(编号:2019CFA025)的研究成果之一~~; 摘要: 叙词表在知识组织中发挥着重要作用,然而敦煌壁画领域叙词表的缺失,限制了敦煌壁画研究及其价值的挖掘。通过建立一套规范、全面的敦煌壁画领域叙词表,可以为网络环境下敦煌壁画数字资源语义标注、信息检索和知识组织等提供智力和技术支撑。本文详细阐述敦煌壁画叙词表的构建与其关联数据发布过程,采用自顶向下与自底向上相结合的领域叙词表构建方法,提高叙词表建设效率的同时保证叙词表的高质量。在此基础上,研究实现敦煌壁画叙词表关联数据发布和可视化,与外部词表进行语义关联,并提供开放数据服务。敦煌壁画叙词表的构建和编制,可促进敦煌壁画领域数字人文应用的开发,也为我国文化遗产领域受控词表的建设提供了重要参考和借鉴。 2,本范例主要研究方法和相关知识点 2.1,敦煌壁画叙词表的构建 该文作者提出得构建敦煌壁画叙词表步骤和示意图: 1. 首先由专家分析人文领域叙词表与敦煌学相关词典 2. 设计叙词表结构,确定叙词表的初步框架 3. 从语料库中进行机器分词和新词发现 4. 经过多人协作的主题词归类和领域专家的核对与审核 5. 自底向上地扩充词表术语,同时不断调整优化词表结构,实现叙词表得迭代扩展与完善。 2.2 国际知名的艺术建筑叙词表(AAT) 文中提到了: 对国际知名的艺术建筑叙词表(AAT)进行了调研,深入分析了AAT在领域通用性、组织结构、注释与元数据规范等方面的特征。 这个AAT是什么呢? 笔者查了一下,下面是从豆丁文章《艺术和建筑词表AAT的中文化研究》摘录的解释: 艺术和建筑词表(The Art & Architecture Thesaurus, 简称AAT)是一个全球较为通用的艺术和建筑类结构化词表,是盖蒂词汇(Getty Vocabulary)中有关文物主题概念和相关信息的一个叙词表。盖蒂词汇(Getty Vocabulary)包括4个词表:艺术和建筑类词表(AAT), 盖蒂地理名称表,盖蒂连艺术家名称表,盖蒂文物名称规范。 3,本范例研究总结 本文详细阐述敦煌壁画叙词表的构建与其关联数据发布过程,采用自顶向下与自底向上相结合的领域叙词表构建方法,提高叙词表建设效率的同时保证叙词表的高质量。在此基础上,研究实现敦煌壁画叙词表关联数据发布和可视化,与外部词表进行语义关联,并提供开放数据服务。敦煌壁画叙词表的构建和编制,可促进敦煌壁画领域数字人文应用的开发,也为我国文化遗产领域受控词表的建设提供了重要参考和借鉴。 |