如果要整理多个领域的统计指标到同一个数据结构里,比如国民经济、人口、财政预决算等,应该怎么设计统一指标的存储结构?

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-3-13 15:05

沙发
ym 版主 发表于 2020-3-13 11:15:07 | 只看该作者
要统一到一个数据结构里,是为了方便检索吗?一般是结构化的数据才方便检索和使用


举报 使用道具
板凳
TodeZehng-童心 新手上路 发表于 2020-3-13 11:18:48 | 只看该作者
本帖最后由 TodeZehng-童心 于 2020-3-13 11:20 编辑
ym 发表于 2020-3-13 11:15
要统一到一个数据结构里,是为了方便检索吗?一般是结构化的数据才方便检索和使用

是的,为了检索使用才要存到同一个结构里,最好是结构化的,这样就能直接生成统计报表,非结构化数据每次都要处理很麻烦,应该是要设计一个结构化的存储结构,并且能兼容多领域的统计指标,未来还会增加其他领域的统计指标
举报 使用道具
地板
ym 版主 发表于 2020-3-13 11:28:37 | 只看该作者
指标条目这么多,可以考虑设计成json格式的key-value形式
举报 使用道具
5#
TodeZehng-童心 新手上路 发表于 2020-3-13 11:48:39 | 只看该作者
ym 发表于 2020-3-13 11:28
指标条目这么多,可以考虑设计成json格式的key-value形式

嗯 对于存储字段有什么建议吗
举报 使用道具
6#
ym 版主 发表于 2020-3-13 12:06:14 | 只看该作者
TodeZehng-童心 发表于 2020-3-13 11:48
嗯 对于存储字段有什么建议吗

可以针对统计指标和数据来源这两个维度来分别设计存储字段。

对于指标,可以有下面属性:
时间(包括时间跨度或时间点)
统计指标
地区(统计的是哪个地区)
指标数值
单位(不同指标的单位不一样,要跟指标数值区分开)
数据来源(记录从哪个资料上整理的)
页码(如果来源是有很多页,建议记录下页码)

对于数据来源,可以有下面属性:
数据来源名称
发布时间
发布机构(网上来源,应记录发布机构)
出版机构(如果是纸质资料,要记录下出版机构)
网址(如果是来源于网页,要记录下网址)
类别属性(可以有多个分类,比如按地区可分为国内、**国、全球等)
有无附件(有没有可以下载的文件)
附件(下载到的文件)

举报 使用道具
7#
TodeZehng-童心 新手上路 发表于 2020-3-13 15:00:48 | 只看该作者
好的 谢谢
举报 使用道具
8#
ym 版主 发表于 2020-3-13 15:05:16 | 只看该作者
如果要对线上的网页摘录指标,可以用集搜客采摘浏览器,软件自带的摘录功能不仅可以直接摘录网页内容,还有多种颜色区分标记,支持写笔记、书签分类、溯源重现,可以导出摘录结果表,从而把网页上的碎片内容快速整理成结构化信息
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 07:29