集搜客GooSeeker网络爬虫

标题: 集搜客文本分析软件能做量化历史研究和语料库建设吗? [打印本页]

作者: 发誓学好内容分析    时间: 2020-10-2 09:56
标题: 集搜客文本分析软件能做量化历史研究和语料库建设吗?
我看到这篇文章《二十世纪来的道德观变迁:来自语料库的证据》,就像开头说的

提及“道德”,常常带了几分天经地义的意思:从来如此,尽皆如此,如此,最好如此。虽然如此,随着“向微观深处去”的量化历史研究渐渐增加,类似“未必如此”的结论,也在相应涌现。例如,通过对长时段语料的量化分析,Wheeler、McGrath和Haslam阐明:语料中道德词频的整体趋势,在二十世纪有大幅变化;不同类型的道德观念,亦有此消彼长。

还有结论:

总之,原文在“长时段语料分析”、“量化的文化史”和“量化的心理史”等方兴未艾的方向上有所推进,对长时段道德观念的观察结果,也已为后续研究所援用

那么集搜客分词和文本分析软件是否能做这种量化历史研究?是否可以用来建设语料库?



作者: Fuller    时间: 2020-10-2 10:04
内容分析的分析单位有不同粒度,“词”这一级是最细的粒度,还有大粒度的,比如,短语,句子,段落,整篇文章等等。我看了这篇文章,使用了词这一级分析单位。这就很适合使用集搜客文本分析软件做这个工作。

主要的工作无非是在自动分词的基础上,筛选出来特征词或者叫中心词,也筛选出来同义词,然后合并同义词,然后根据特征词代表的语义进行分类。

[attach]13080[/attach]

这是集搜客分词工具的选词界面,是按照词频进行排序的,所以重点选择排在前面的,一屏中的词,如果是需要的特征词,就勾上,点击“确定”就把他们记录了下来,同时翻页到下一屏。如果只要前N个词,在选词结果那里看够不够。如果要所有的都选一遍,那么在筛选词语这里一页一页选择和确定,直到没有词了,就选完了。

最后导出多种excel表格,在excel表格中进行统计分析

作者: 发誓学好内容分析    时间: 2020-10-2 10:04
Fuller 发表于 2020-10-2 10:04
内容分析的分析单位有不同粒度,“词”这一级是最细的粒度,还有大粒度的,比如,短语,句子,段落,整篇文 ...

手工选词岂不很花时间?

作者: Fuller    时间: 2020-10-2 10:12
发誓学好内容分析 发表于 2020-10-2 10:04
手工选词岂不很花时间?

如果能实现精确的自动选词,那么连统计分析都不用人工做了,选词是最麻烦的,要理解语义,所以,在内容分析领域,一定要手工选词和归类,才够精确,不遗漏。

其实,集搜客分词工具考虑了时间花费问题。

首先,常用词语就是几万个,你要分析的预料无论有多少篇文章,词数增加不大,所以,手工选择并不是大问题,一屏45个词,1万个词的话才223屏,很快可以选完。

其次,可以按照词性分开选择,先选名词,因为名词含有更加丰富的语义。其次选择动词和形容词,下图这样根据需要选择。

[attach]13081[/attach]





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2