我在读《基于依存句法分析的科技政策领域主题词表无监督构建》,看到“叙词表”这个概念,是否有大牛讲讲什么是叙词表,有什么用?具体怎样使用?
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2021-9-13 10:09

沙发
Fuller 管理员 发表于 2021-8-26 10:21:24 | 只看该作者
叙词表这个概念怎么来的,里面有什么,内容是怎么组织的,可以先看看这个百科词条《叙词表》,摘录几段重要内容:

有关历史:
叙词表最早出现在美国。第一部用于情报检索的叙词表是美国杜邦公司于1959年前后编制的。1960年,美国武装部队技术情报局 (ASTIA)首先编成并用于电子计算机文献检索的叙词表、1961年,美国化学工程师协会(AICHE)出版的《化学工程叙词表》,为叙词表的发展奠定了基础。

看历史,这个东西很重要。然后看这段:
叙词表是在我国又称主题词表,它是概括某一学科或若干学科领域,并由语义相关、族性相关的名词术语组成的规范化的动态词汇表。

看来“叙词表”也叫“主题词表”,你看到的那篇论文说的就是主题词表的构建,而且是想用算法自动构建,要知道要构建一个主题词表,需要投入多少人的多少心血,手工标引和整理。这时候就必须提中国的《汉语主题词表》,参看汉表数据库,其介绍是:

《汉语主题词表》自1980年问世以后,经1991年进行自然科学版修订,在我国图书情报界发挥了应有的作用,曾经获得了国家科学技术进步二等奖。

鉴于《汉语主题词表》对我国情报检索语言发展的历史贡献,以及图书情报界对网络环境下新型《汉语主题词表》的期待,中国科学技术信息研究所于2009年启动了《汉语主题词表》的重新编制工作。《汉语主题词表》的重编工作分四个阶段逐步开展,依次为工程技术卷、自然科学卷、生命科学卷和社会科学卷。工程技术卷已于2014年9月完成,该卷共13册,收录概念19.6万个,词汇36万条,在国家工程技术图书馆进行了示范应用。考虑到生物学与医学、农业有较大的交叉渗透,将生物学从自然科学卷中分离出来,与医学、农业合编为生命科学卷,放第三阶段统一编制。目前的自然科学卷主要包括数学、物理学、化学、天文、地球科学等学科领域,编制工作已于2017年完成。生命科学卷的编制也将在2018年启动,最后将编制社会科学卷。

为了方便工程技术领域不同专业用户使用,《汉语主题词表》(按专业出版,同时建立《汉语主题词表》服务系统,提供在线概念检索和辅助标引服务,通过可视化技术展示各类概念关系,是图书馆、档案馆、出版社、期刊杂志社、文献信息中心等专业工作者及科研、教育及工程技术领域人员必备的参考书。


现在我们看一下这个汉表是什么样子,如下图:



从表面上看,至少能得到这些认识:一些专有名词,划分了类别。


举报 使用道具
板凳
发誓学好内容分析 金牌会员 发表于 2021-8-26 10:22:17 | 只看该作者
Fuller 发表于 2021-8-26 10:21
叙词表这个概念怎么来的,里面有什么,内容是怎么组织的,可以先看看这个百科词条《叙词表》,摘录几段重要 ...

你的这个分享太好了,我明白了很多,对汉表有了直观的认识,那么能否再讲讲具体怎样用呢?
举报 使用道具
地板
Fuller 管理员 发表于 2021-8-26 11:20:53 | 只看该作者
发誓学好内容分析 发表于 2021-8-26 10:22
你的这个分享太好了,我明白了很多,对汉表有了直观的认识,那么能否再讲讲具体怎样用呢?
...

可以看这个读书笔记,写的很好《信息架构6- 元数据及叙词表、受控词表》:

一种受控词表,把很多词对应到某个优选术语或概念上,其中的等价、等级和相关关系会被识别出来,以改进信息检索。

作者以淘宝网的商品搜索体验为例,讲解了叙词表相关的应用,作者假定在淘宝上搜索“铲子”:

叙词表的应用,铲子厨艺,铲子户外等推测用户用途,搜索结果也是多种用途铲子混排

围绕这叙词表这个概念,引出其他概念:

词与词之间的语义关系从简单到复杂我们可以划分为三种:等价、等级、相关

优选术语(Preferred Term,PT)
异形术语(Variant Term,VT)
上位类术语(Broader Term,BT)
下位类术语(Narrower Term,NT)
相关术语(Related Term,RT)
用(Use,U)
代(Used For,UF)
范围注释(Scope Note,SN)

受控词表是一份等价术语(equivalent terms)清单,按同义词环圈(synonym ring)的形式排列。或者是一份优选术语(preferred terms)清单,储存在规范文档(authority file)中。或者定义术语之间的等级关系(上位类——broader、下位类——narrower)就有了分类体系(classification scheme)

同义词环圈(Synonym Rings)

举报 使用道具
5#
马涌河畔 金牌会员 发表于 2021-9-13 09:42:32 | 只看该作者
上周的这篇范文《敦煌壁画叙词表构建与关联数据发布》,介绍了敦煌壁画叙词表的构建与其关联数据发布过程,采用自顶向下与自底向上相结合的领域叙词表构建方法,提高叙词表建设效率的同时保证叙词表的高质量。

看来叙词表的构建,投入满大的,对于这些年出现的新词和新的领域,不知道汉语主题词表是怎样更新的,更新频率是多少




举报 使用道具
6#
Fuller 管理员 发表于 2021-9-13 10:05:07 | 只看该作者
马涌河畔 发表于 2021-9-13 09:42
上周的这篇范文《敦煌壁画叙词表构建与关联数据发布》,介绍了敦煌壁画叙词表的构建与其关联数据发布过程, ...

这篇文章提出的方法不知道有没有产品化,基于依存句法分析的科技政策领域主题词表无监督构建》,应该可以用技术提升初选效率,然后人工确认
举报 使用道具
7#
Fuller 管理员 发表于 2021-9-13 10:09:55 | 只看该作者
国外的wordnet应该可以看作包含了叙词表的完整的语义词表吧。国内也有个很大的叙词表,但是只能在线看,还要登录:https://ct.istic.ac.cn/site/organize/word  ,估计只能像词典一样用,不能用计算机程序接入,直接利用整个叙词表。

另外,在计算机辅助下建立叙词表,一定很需要GooSeeker网络爬虫软件,目前网民语言发展的很快,而且从网络上搜集预料也很容易
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 05:32