尽管一些研究以全部文档总体作为研究对象,但是大多数研究不会这么做。抽样主要是出于经济方面的考虑。对于内容分析而言,存在3中抽样总体。1,传播来源;
2,文档;
3,文档中的文本。
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2020-8-4 13:06

沙发
数据分析小白edu 初级会员 发表于 2020-8-4 13:06:38 | 只看该作者
本帖最后由 数据分析小白edu 于 2020-8-4 13:08 编辑

抽样方法的选择主要取决于抽样总体以及从文本进行推论的类型。

传播来源:在传播来源中,报纸、杂质和作者都可能被抽样。在互联网内容分析中通常会选择新闻和社交媒体,在集搜客的快捷采集中可以便捷的采集新闻数据。目前国内比较热门的社交媒体平台,例如新浪微博知乎B站都可以进行便捷采集。

文档:在确认所要研究的传播来源后,可以通过对文档进行抽样以减少待分析的数量。然后,为了避免得出有偏的或错误的结论,研究者必须顾及文档产生的背景条件。

文档中的文本:在研究的样本是某种固定格式的文章下,例如政府工作报告、总统就职演说等官方文件,都有一定的格式或组织形式,这类文本通常有例行的开场白和结束语,这类文本可以从抽样文本中剔除。
文档中的文档是在适应经济的情况下选择的分析类型。如果可能的话,整个文本都应该进行分析。这样就保留了作为分析单位的整个文本的语义连贯性。

要注意的是,句子不应作为抽样单位,即使取自同一个文件的句子也不行,因为分析离散的句子会破坏语义的练练关系,从而导致之后的验证和解释变得极其困难。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-22 02:21