GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
1
7817
内容分析中的文件选择和抽样
数据分析小白edu
于 2020-8-4 12:52
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
数据分析小白edu
积分
133
精华
0
威望
44
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
尽管一些研究以全部文档总体作为研究对象,但是大多数研究不会这么做。抽样主要是出于经济方面的考虑。对于内容分析而言,存在3中抽样总体。1,传播来源;
2,文档;
3,文档中的文本。
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 1 个关于本帖的回复 最后回复于 2020-8-4 13:06
数据分析小白edu
积分
133
精华
0
威望
44
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
数据分析小白edu
初级会员
发表于 2020-8-4 13:06:38
|
只看该作者
本帖最后由 数据分析小白edu 于 2020-8-4 13:08 编辑
抽样方法的选择主要取决于抽样总体以及从文本进行推论的类型。
传播来源:在传播来源中,报纸、杂质和作者都可能被抽样。在互联网内容分析中通常会选择新闻和社交媒体,在集搜客的快捷采集中可以便捷的采集新闻数据。目前国内比较热门的社交媒体平台,例如
新浪微博
、
知乎
、
B站
都可以进行便捷采集。
文档:在确认所要研究的传播来源后,可以通过对文档进行抽样以减少待分析的数量。然后,为了避免得出有偏的或错误的结论,研究者必须顾及文档产生的背景条件。
文档中的文本:在研究的样本是某种固定格式的文章下,例如政府工作报告、总统就职演说等官方文件,都有一定的格式或组织形式,这类文本通常有例行的开场白和结束语,这类文本可以从抽样文本中剔除。
文档中的文档是在适应经济的情况下选择的分析类型。如果可能的话,整个文本都应该进行分析。这样就保留了作为分析单位的整个文本的语义连贯性。
要注意的是,句子不应作为抽样单位,即使取自同一个文件的句子也不行,因为分析离散的句子会破坏语义的练练关系,从而导致之后的验证和解释变得极其困难。
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
360或火绒等杀毒软件导致GooSeeker爬虫软件
话题分析(NMF模型和LDA模型)软件的安装和
运行Apple无法验证的程序的方法
文本聚类分析软件的安装和使用方法
利用AI阅读和分析文本:扣子COZE记录用户反
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
怎样使用快捷采集(以采集京东评论为例)
3
集搜客文本分词标注工具(V1版)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10607
访问主页>>
wangyong
帖子:1730
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2025-4-22 02:21
快速回复
快速发帖
返回顶部
返回列表
共 1 个关于本帖的回复 最后回复于 2020-8-4 13:06