Jeremy S. Wu, Ph.D.
Jeremy S. Wu, Ph.D.
  • Home
  • About
    • Personal
  • Activities
    • Regency at McLean
  • Big Data
    • Maps
      • Asian Americans by CD 2015
      • Asian Americans by CD 2014
      • Asian Americans by CD 2013
      • Berkeley Earth
      • Chinese Smart Cities
    • 清华论坛
  • Blogs
  • Justice
    • 1882 Timeline
    • 2020 Census
    • APA FISA Watch
    • Fed Cases
    • Profiling

Jeremy S. Wu, Ph.D.

胡善庆博士

Jeremy S. Wu, Ph.D.
  • Home
  • About
    • Personal
  • Activities
    • Regency at McLean
  • Big Data
    • Maps
      • Asian Americans by CD 2015
      • Asian Americans by CD 2014
      • Asian Americans by CD 2013
      • Berkeley Earth
      • Chinese Smart Cities
    • 清华论坛
  • Blogs
  • Justice
    • 1882 Timeline
    • 2020 Census
    • APA FISA Watch
    • Fed Cases
    • Profiling

统计学2.0:动态框架

  • 大数据
  • 统计


摘要
框架涵盖并能识别总体中的每个个体,为普查以及随机抽样提供结构基础, 使有设计的统计学研究能引用成熟的统计理论,来提取最多和最可靠的信息。大数据时代的重要意义在于大部份的数据已数字化,易于批量的存储和处理,并且成本较低。大数据为统计学家提供了前所未有的反思和创新的机会,其中之一是建立动态框架——拥有大量的內容,及时吸收最新的数据,有能力提供实时的结果和分析报告。
传统总体和框架
总体是一个重要的统计学概念。通常被理解为被研究对象的全体,可以是一个国家的全部国民或全部企业,或一天所生产的所有灯泡,或一个大洋所有的鱼[1,2,3]。
框架是一个不太普通的概念,它包括一个能涵盖整个总体的识别系统,对总体中的每个个体排序编号。在实践中,框架是研究总体的工作定义,它能识别总体中的每个个体,为普查和随机抽样对总体描述和分析提供结构和基础[2,4,5]。
 

图1

图1是一个传统的普查或抽样调查的统计研究流程图。引用[4],一个理想的框架应具备如下性质:

  • 每个个体拥有一个逻辑的,数值的识别码
  • 每个个体都可以被找到——联系信息,地理位置或其他相关信息
  • 框架是一个逻辑性,系统性的组织
  • 框架还提供个体的其他信息,使研究可以在更复杂的抽样框架下进行
  • 框架涵盖了相关总体中的每个个体
  • 总体中每个个体只在框架中出现一次
  • 框架不包含相关总体以外的任何个体
  • 数据具有时效性

建模可以被认为是抽样过程的一部分,有时会跳过对框架的需求,直接假设所建立的模型和数据充分代表了研究的总体。
实用统计学家深知框架的重要性——它为统计学研究提供结构基础,使有设计的统计学研究能引用成熟的统计理论,来提取最多和最可靠的信息。 然而,由于被看作是行政及文书方面的工作,极少有统计学方面的论文或论坛探讨怎样去有效的创建和维护框架。
许多人抱怨获取或维护一个框架很困难,或者他们在应用不完整或不准确的框架时所受的痛苦经历。质量差的框架的确可以使一个有良好计划的统计研究搁浅,或导致令人误解或有偏差的结果。
对创建和维护一个有可塑性,时效性的动态框架的长期忽视,对统计学界以及整个美国在效率和创新上起着极其负面的影响。
例如,根据[6],虽然“准确和完整的地址记录是美国普查局在抽样调查和普查中的一个关键因素”,但局內各部门各有自已的记录,这种情况持续了很久,直到不足二十年前,全国性统一框架这个概念才被推进,称作主地址档案Master Address File (MAF)。
主地址档案MAF主要被用来帮助问卷调查的传统邮递[7],这是一种日益趋于过时的信息收集方式。对问卷调查无应答的要靠它来上门访问, 然而紧缩的预算和不断上升的人工成本使这种信息收集方式越来越难进行。美国最近进行的十年一次的2010年人口普查中,基于网络的问卷调查未被允许使用。MAF的设计也未考虑到促进和支持基于网络的应用。
大数据时代的到来似乎令统计学界有点不知所措。虽然统计学家被认为是未来十年最热门的职业[8],这个专业郤感觉它在大数据时代的角色被低估和忽视了,但它仍在找寻它应有的角色[9]。
似乎只有少数人认识到统计学是一门”研究数据的科学”[10],不论数据规模的大小。要想在今后的数据研究上依然起关键作用,现在是这个专业该变革的时候了。
统计学2.0:动态框架
大数据是一个相对的概念。明天的大数据将比今天的大数据大。如果统计学家只考虑数据规模的变大,那么大数据的意义仅局限于现有软件和研究方法的相应提升。
大数据时代的重要意义在于大部份的数据已数字化,数据信息涵盖很广, 比如声音,图像以及写在纸上的内容[例如,11],其中许多是前所未有的。这些信息易于批量的存储和处理,并且成本较低。如今统计学的市场越来越大,需求者们对技术细节的要求越来越低,但他们还希望随时能得到全面的,可靠的和便于应用的信息。
大数据是信息技术行业的一次大变革,在同等程度上是统计学的一次革命性的跃进,因为它为统计学家提供了前所未有的反思和创新的机会。
例如,数理统计清晰明了的论证了一个5% 随机样本要优于一个5% 的非随机样本。但是,若与一个50% 或者95% 的非随机样本比较,结果会怎样?对于大规模的非随机样本,我们一直持警示,不赞成,或不予考虑的态度, 但同时对现有的数理统计框架外的探索又非常少。虽然因情况而异,但对于一个非随机样本,其内在的统计偏差是否能随样本的增大而降到一个可以接受的程度,使得基于这个样本的统计学研究有实用意义?
作为另外一个实例, 图1是典型的统计学研究流程,每次在研究数据前都要经历从设计到最终获得横断面数据的时序。这样就很难在缩短周转时间和度量个体的纵向的发展变化上有所创新[12]。难道实时的提供可靠准确的统计分析是完全不可能的吗?或者是由于我们已经很习惯于现有的软件和工作方式,在这种惯性的舒适下失去了探索其他可能性的动力?
随机抽样作为主要统计应用模式已经存在了近一个世纪[13]。由于大数据的到来,今天研究一个总体就差不多同研究一个随机样本那样方便。我们应否放弃这个机会?
如果统计学家不及时认识到并面对大数据所带来的理论和实践层面的挑战,忽视其在统计学研究中的重要性,那么其他专业就可能会填补这个空缺,比如还未有明确界定的”数据科学家”[14]。
大数据带来了众多机会和可能性,其中之一是建立和维护动态框架——总体框架拥有大量的內容,及时吸收最新的数据,有能力根据需求提供定时甚至实时的结果和分析报告。
数以仡计用户的电子商务公司和社会媒体具备很好的条件对市场进行调研和预期,他们拥有的大量的数据,比如网上交易,电子邮件和博客内容。一个外行人也可以获取比较欠缺结构的巨量数据。
图2
图2为动态框架提供了一个简洁概要的流程图,在美国教育界动态框架也被称为纵向数据系统[15,16]。
本质上,动态框架的重点在于它的建立和维护,使前述的各个性质上都最优化。框架中的每个个体的信息都随时间不断更新。
统计学家必须充分的参与到动态框架的设计,应用和操作,以及对框架中数据的加工、描述、和分析。统计学家可以在很多崭新和传统工作做出贡献。
例如,识别码在发挥大数据的巨大能量上起着关键作用。它的设计和远用决定了其所能涵盖信息的多少,对数据的整体质量和研究起着决定性作用,它也是保护隐私的首要保证。
作为另一实例,动态框架对个体的数量和内容并无任何限制。这完全取决于可获得多少数据,如何整合记录,如何建立数据之间的联系,以及整个系统的设计。有效的操作可以减少记录的不匹配,提高数据的准确性和一致性,同时减低重复收集或对无用数据的收集。适当的填补遗缺数据保证组合数据的质量和及时性。
其它促进统计学的传统工作范围[14]包括,但不局限于,基于数据源建立连续的质量环;发展动态框架中新的定义、度量和标准;应用新的统计学模型来填补缺失数据、轮廓描述、风险评估、建立人工智能;发展新的可视化技术;加强统计学的训练和教育;保护隐私。
总结
 
动态框架不但保留框架原本的目的,即为普查以及随机抽样提供结构基础,还有其他方面巨大的应用潜力,这完全取决于统计学界的想象力和创新精神。统计学家应该欣然的欢迎大数据的到来,并把它看作是统计学本身的一个大变革,带动统计学在运用数据研究社会和人类知识和实践上达到一个新的高度。

胡善庆博士, Jeremy.s.wu@gmail.com

郭俊池, 博士生, junchi@email.gwu.edu

参考文献
[1] Hansen, Morris H.; Hurwitz, William N.; and Madow, William G.  (1953).  Sample Survey Methods and Theory.  Wiley Classics Library Edition, John Wiley & Sons, Inc. 
[2] Kish, Leslie.  (1965).  Survey Sampling.  Wiley Classics Library Edition, John Wiley & Sons, Inc. 
[3] Cochran, William G.  (1977).  Sampling Techniques.  A Wiley Publication in Applied Statistics, Third Edition, John Wiley & Sons, Inc.
[4] Wikipedia.  Sampling Frame.  Available at http://en.wikipedia.org/wiki/Sampling_frame on April 8, 2013.
[5] Baidu.com.  Sampling Frame 抽样框.  Available at http://baike.baidu.com/view/1652958.htm on April 8, 2013.
[6] U.S. Census Bureau.  Master Address File: Update Methodology and Quality Improvement Program, by Philip M. Ghur,  Machell Kindred, and Michael L. Mersch, 1994.  Available at https://www.amstat.org/sections/srms/Proceedings/papers/1994_128.pdf on April 8, 2013.
[7] U.S. Census Bureau.  The Master Address File for the 2010 Census, by Joseph Salvo, April 7, 2006.  Brookings Breakfast Briefings on the Census.  Available at http://www.brookings.edu/~/media/events/2006/4/07community%20development/20060407_salvo.pdf on April 8, 2013.
[8] Varian, Hal.  Hal Varian explains why statisticians will be the sexy job in the next 10 years,  September 15, 2009.  YouTube.  Available at http://www.youtube.com/watch?v=pi472Mi3VLw on April 8, 2013.
[9] Pierson, Steve and Wasserstein, Ron.  Big Data and the Role of Statistics, March 28, 2012.  Available at http://community.amstat.org/amstat/blogs/blogviewer?BlogKey=737fd276-0225-4c87-b7cb-0cfc7cd9e124 on April 8, 2013.
[10] van der Lann, Mark; Hsu, Jiann-Ping; and Rose, Sherri.  Statistics Ready for a Revolution.  Amstat News, September 1, 2010.  Available at http://magazine.amstat.org/blog/2010/09/01/statrevolution/ on April 8, 2013.
[11] Washington Post.  From the President’s Hand to the Internet.  Available at http://www.washingtonpost.com/lifestyle/style/from-the-presidents-hand-to-the-internet/2013/03/21/0b609e66-9282-11e2-9cfd-36d6c9b5d7ad_graphic.html on April 8, 2013.
[12] Diggle, Peter J.; Heagerty, Patrick J.; Liang, Kung-Yee; and Zeger, Scott L. (2001).  Analysis of Longitudinal Data.  Second Edition, Oxford University Press.
[13] Wu, Jeremy S., Chinese translation by Zhang, Yaoting and Yu, Xiang.  One Hundred Years of Sampling, invited paper in Sampling Theory and Practice, ISBN7-5037-1670-3, 1995.  China Statistical Publishing Company.
[14] Wu, Jeremy S. 21st Century Statistical Systems, August 1, 2012.  Available at https://jeremy-wu.info/21st-century-statistical-systems/ on April 8, 2013. 
[15] Data Quality Campaign.  Using Data to Improve Student Achievement.  Available at http://www.dataqualitycampaign.org/ on April 8, 2013.
[16] U.S. Department of Education.  Statewide Longitudinal Data Systems Grant Program, National Center for Education Statistics.  Available at http://nces.ed.gov/programs/slds/ on April 8, 2013.
动态框架 框架
April 9, 2013 Jeremy

Post navigation

The Essentials of Identification Codes → ← D3.JS Introduction

Related Posts

推动中国智慧城市发展,小统计势在必行

胡善庆 王琼 刘真This blog in simplified Chinese describes the status and need for statistical monitoring in Smart City development in China; it includes an interactive map of the 291 test […]

识别码的要义

简体中文版: 《海外学人》2013年 - 大数据专刊   This blog is a simplified Chinese translation of my blog on The Essentials of Identification Codes. Published version in Chinese Association for Science and Techonology special […]

21世纪的统计系统

简体中文版。This is a simplified Chinese translation of the Blog on 21st Century Statistical Systems.20世纪期间,传统普查和新引进的隨机抽样调查共同被应用于各国人口和经济的测量与推论。这两种统计数据方法在全世界支持决策、政策的制定、和传递信息都非常重要。21世纪开始在全球数据大量电子化及大数据爆发成长,刺激和引起对更及时和更广泛信息的更多要求。因为传统的普查和隨机调查是静态、定时的,它不可能毫无基本变化地满足不断扩张的动态需求。21世纪统计系统和方法的特徵将会在於精巧地应用大量纵向数据、連接组合多个数据来源、迅速简单地递送信息,同时继续严格地保护稳私和数据安全,並认证準确与可靠度。包括美国的一些国家统计局领導最近已反复地解说这些需要和趋势。能成功地克服这些议题的政府机关将会帮助它们的国家拥有全球独特的竞争优势及利益,否则它们会面临淘汰。作为一个快速成长的经济大国,中国的统计数字日益受到重视、並对世界具有重大映响力,但也面对许多相同的挑战。本文介绍一些在美国和其他国家漸露頭角的成功故事,並讨论面对21世纪动态、组合数据系统挑战所必须改革的意识和做法。20世纪统计系统普查,也就是对总体每一个單位收集数据,已经是多世纪以来测量人口分布和特证的传统统计方法。中国在2,200多年前已进行了它的第一次人口普查[1]。西元2年西汉朝代,存在记录[2,3,4,5] 顯示中国人口接近5,800万、户口超过1,200万。1983年中华人民共和国制定它的第一批组织管理统计工作的法律[6]。从1949年开始,中国进行了6次全国人口普查, 1990年后是每十年一次[7]。基於它的憲法规定,美国在2010年进行了它两个多世纪以来的第23次和最近一次全国人口普查[8,9]。美国、中国和其他国家都很普遍地举行多范围包括经济、工业和农业的普查。举例来说,美国每五年举行一次有关商务活动的经济普查。下次的经济普查预定在2012年开始[10]。2007年的经济普查复盖了非务农私人经济的2,400万家企业,约佔美国国内生产毛额(GDP)的96% [11]。中国最近期的经济普查是在2008年[12]。虽然每项普查都有不同的法律背景或动机,但最终目的是相似的-提供有关联的、及时的、和可靠的数据以作研究、分析、支持最后决策制定。虽然普查在过去许多世纪已经证明它的重要,不过它也有一些众所周知的实际弱点。最重要的是,人类活动是连续和动态的,但普查只能为一个指定的普查日子或短暂时期提供一个比较全面的速映。通常普查结果在被宣布时,它们已经过时了。动态的人类行为和社会、经济和政治现象不可能会被定時静态的普查完全地描述解释。设计全国性普查的操作与数据收集典型地复杂,需要多年的準備。更多的时间然后被花费在数据处理、分析、及报告结果。高费用的全国性普查还需要小型及較常发生的隨机调查补充輔助。经过十多年设计、发展和测试之后,"美国社团调查"(ACS)在2005年开始在美国人口和住屋的特性上運用"连续性测量"[13]。每年大约300万个住址(每月25万个住址)隨机被選为一个5年旋转周期的抽样單位。ACS的估计是基于每月的调查数据聚集一段时间后以日历年为單位而产生的。人口較少的地方,ACS估计需要五年时间的数据聚集才可以报告[14]。据报导,中国以"全国人口样品调查"及2011年的结构改变而重估它的最近总人口[15]。抽样方法为成层、多阶段、成群、及按比例概率。在31个省市区、4,800个村庄、4,420个镇区和2,133个城区中的150万人接受面谈提供数据。抽样调查是挪威统计局局长在1895年的国际统计学会(ISI)年会中提出的新观念[16]。国际统计界花了30多年辩论它的优劣利害才最后決定抽样调查是可行的科学方法。在这期间,今天的数理统计学理论和实践应用发展成长,支持隨机抽样调查的想法。美国文理科大学首开先例在1935年创建统计系的是乔治华盛顿大学[17]。学术界会成为未来统计家的培训基地。根据美国人口普查局资料,隨机抽样调查首先在1937年经济大萧条期间被用于对失业问题的测试[18],部分回应当时对及时资讯的需要。政府会成为未来统计家的主要雇主。得到新理论的支援並在多方面实践的考验,加上1950年代商业计算机及后来引进的台式计算机,隨机抽样调查很快成为收集数据及运行统计分析以作决定的标准统计方法。现代统计系统的基础主要依靠1970年代计算技术而建造的,在1990年代互联网商业化推进新信息時代之前。到20世纪末期,包括普查和调查数据的统计系统不僅是政府的核心操作,亦是为市场调查、政治预测、农业和经济发展计划、环境管理、公共卫生、运输计划、自然科学、和其他人类和社会活动应用分析的基础。然而,数据一定要依照统计设计收集,包括概率原则的应用,才能作统计推论。大规模的统计分析典型地会被政府或学术界的统计家或主题专家包辦操作。21世纪数据需要和趋势21世纪頭十年很显著的是数据迅速从模拟轉型为数码,並很快被神速增加的网民接受认同使用。大部份的网民都不是在学术界或政府的统计或主题专家。根据南加州大学的一项研究[19,20],世界电子储藏数量在2002年第一次超越了非电子储藏数量。但到2007年,地球上至少94%的所有资讯都以电子形式储藏。据报导,世界制造与储存容量在2010年第一次超过1 zettabyte (1 ZB) [22,23]。相对地,2007年是0.29 ZB和1986年是0.00002 ZB [19,20]。一位行业领袖宣布"我们(人类)现在每两天产生的数据相等于从文明的破晓到2003年"[24]。举例说明相对份量,一个人的整个基因组,包括沿染色体的30亿化学基础,只需大约3 GB (0.000000000003 ZB)的计算机储藏,以今日标准而论是不稀奇的[25]。阿尔发磁性分光器每秒钟就记录1 GB的宇宙光数据[26]。实际意义来说,纸用记录已陈旧被荒废,私营企业正在产生大量的数据,而数以亿计的数据消费者不必是统计或主题专家。数据可以没有抽取样品的需要或考虑,将其完整地电子化直接輸入机器处理和计算。这个巨大变化的速度与电子数据广泛无政治、地理边界的散播配合得天衣无缝。通路和信息科技的使用在发达国家和发展中国家是差不多同样的普遍。无论世界任何一个角落,只要一部计算机能上网,它就能被存取数据应用。大数据是一个尚未定型有关非常大量电子数据的新用词,它很可能不是根据传统统计系统的结构和概率原则而收集的。行政记录、社会媒体、条码和电波扫描仪、运输感应器、能源和环境监视器、在线交易、流影像、和人造衞星图像都是大数据来源和爆发生长的因素。大部分的大数据都没有传统统计分析和推论的结构,也沒有很多简易软件和统计系统可用。然而,大数据也有一部份是前所未有可作政策决定的丰富信息,尤其是当它们能适合地整合融入政府数据庫中。私营企业在生产大数据已领先起歩,组合政府的统计,发展数据挖掘技术和方法来识别潜在的消费者、扩张市场、测试新产品、並抽取新讯息以作其它巿场及客户研究。有些情况下,他们甚至可向传统的政府功能挑战。举例来说,一些社会媒体搜索的言詞被用来做感冒的指标,它的表现不比公共卫生机关的指标差,在及时方面更胜一筹[27]。尽管它在大数据汪洋中的份量逐渐减少,政府统计仍然擁有其支持全球化的经济体制及解决不断扩张的社会需求的独特重要。然而,当我们活在可以数秒钟內上网搜索展示百万计的结果和国际股票市场日夜即时报導成交数据的时代,要等多月甚至多年才可收集、处理、发放在地理、企业、与人口都有限制的静态结果将失去它的意义。大部份国家,甚至发达国家,都面对严格的财政预算限制。现在的高费用、低回收的普查和调查辦法否定了它们新引进或扩张一贯做法的可能性。全球普查和调查反应率下降亦把问题搞得复杂。举例来说,尽管多方计划和努力,美国2010年的普查参与率僅僅达到2000年的74%[28]。到了个人面谈的地步,普查平均费用升到每户56美元,超过最初的邮寄费用的100倍[29]。事实上,美国众议院在2012年5月通过结束"美国社团调查",表示对保护隐私和预算金额的担心。2012年的经济普查能否如期进行,目前尚不能确定。国家统计局面对的挑战是真实、令人畏懼的: 20世纪的统计系统不能满足21世纪的需求。应用政府统计的网民正在快速地在数字和广度方面增加。他们需要更广泛、更动态、更及时的数据,並能容易地存取和了解,但现有方法必需的资源和时间都不可得或不能负担。政府仍然要提供準确又可靠的统计数字,亦要同时严格地保护回应單位的隐私。不能满足这些需求的话,澳大利亞统计局不能肯定它"将能保持在社会官方数据核心"的地位[30]。大数据时代的来臨与数据使用者需求的增加是无可避免的,但许多政府和统计机关仍然沒有充份准备如何善用大数据。面对这些21世纪的挑战,跟本地改革普查和调查的意识形态与一贯做法是必要的。渐进小修理由1970年代的智識和技术建造的统计系统不足以应对大数据革命的要求。21世纪统计系统的特徵21世纪统计系统和方法的特徵将会在於精巧地应用大量纵向数据、連接组合多个数据来源、迅速简单地递送信息,同时继续严格地保护隐私和数据安全,並认证準确与可靠度。纵向数据是对同一單位(例如一个工人、一位学生、一个家庭、一门生意、一所学校、或一座医院)在时间上重复观察所得的数据。它能在个体水平提供独特的底线和变化计量。传统的定点研究同时对多單位收集数据,不能像纵向数据可以直接追踪变化。纵向行政记录是建造广泛详细的统计系统的潜在数据来源。加拿大统计局非常简单地把行政记录定义为"各种非统计计划收集的数据"[31]。潜在数据来源包括出生和死亡证明书、关税公告、婚姻和驾驶执照、个人和生意税务、失业保险、社会福利和医药处方。下列例子说明巨大量纵向行政记录的存在。在它能开始操作之前,一门新生意一定要完成登记表格。一般支付薪水和税务都有报告可查。如有贷款或合并和收购,另有文件一定要完成。公司掛牌上股市,一定要申请批准才可交易。一位学生一定要填好表格才可进一所学校。他一定要登记才加入某班某级。个别测验考试分数都被记录。从一所学校轉移到另一所学校需要一份成绩报告单。当一位学生毕业的时候,他会收到一张文凭或学位。同样地,每个人每次到医生的办公室或一所医院检查或看病都会有纪录,包括健康指标数据、疾病的症状和医疗处方內的藥物类型和数量。如有适当设计和自动化,编联电子数据的费用只会是密集劳力收集普查和调查的数据费用的一小部份。因为管理的记录已经存在,也没有对个人或公司增加负担。一次确定后,一些个人资料的輸入,例如性別、出生日期和种族,都可以大量減少,因为它们不会变或会循序轉变。20世纪最后20年间,把行政记录组合到统计系统去替换人口普查的潜能被活跃的辩论[例如32,33,34,35,36]。1981年由丹麦提倡,现在欧盟27个国家中至少有20国家正在使用人口登记或人口登记和传统的户口普查合併计算他们的人口[37]。虽然纵向数据研究在医学临床实验中被相当广泛地採用多年,在其他的区域中它的组合应用比较稀疏和有限制,主要因为设计弄得太复杂、处理和数据储藏的费用曾经很高、理解及存取数据困难、和对有关保护隐私的担心。来自澳大利亞、加拿大、新西兰、英国和美国的统计局领袖最近开了一个高峰会,会议內容包括讨论对21世纪统计系统的共識和远见。美国人口普查局局长在博客中描述未来远见如下[38]:"中央政府统计局的焦点工作一定要用传统的调查和普查(使用纸、互联网、电话、面谈)混合連接多种可得的数据来源(行政、其他记录)而生产高质量、及时的统计量来讲一个与经济、社会、环境进步密切相关的故事。" 政府统计局一定要继续生产维持普查或调查的抽样框架,但又要增加组合和最理想地利用已存在的数据来源。这些框架过去曾是静态,包含极少內容。在21世纪,这些框架一定要改型到动态结构及丰富內容,有能力第一时间常规地或在要求下生产广泛、高质量和及时的统计量,並能轻易引进和融合新来源与数据。这些动态全国性框架包括统计和地理的数据,有能力隨时隨意绘作地图及报告,並保持傳统的抽样框架作用。"说一个密切相关的故事"是统计局21世纪在意识形态上必须改革的一部份。长久以来,统计专业人士总把推论统计排在第一位角色,冷落描述统计到第二位或補助角色。在大数据时代,无论从那一角度来看,现代可视化与其他技术从烦复数据抽取重要信息是很有價值的统计实践。当政府和学术界专家已不是唯一或甚至大多数的数据供应者或分析家,理解、通路和使用的安逸一定要是迅速递送结果的主要部份。组集和维持广泛、动态的统计系统需要大量的敏感个人的和商务数据。然而,以统计摘要的形式分析结果,又必须消除任何暴露个人和企业身份的可能性。个人和企业理所当然地应该关心和了解他们的隐私是如何受到保护,並绝对防止无意误用或悪意滥用他们的数据。数据安全亦要有最嚴格的保护,防止任何对系统数据及发布统计的干预和变更。初现的成功故事一些国家已开始建造有关就业、教育和公共卫生的公众纵向数据计划。这些计划虽在不同的发展阶段,但提供了在大数据時代建造和维持广泛、详细动态统计系统是可行的令人鼓舞消息,虽然它们仍然有许多挑战存在。超过20个国家的代表在1998年參加一个国际论坛,讨论组合雇员-雇主数据的研究[36,39]。美国人口普查局同年成立一个纵向雇主-家庭动态计划,联编组合现有的雇主-雇员数据而生产创新的统计产品[40]。到今天美国联邦政府已经和所有54个州、直轄巿和地区政府签订協议,保障每州每季不断提供工人和雇主的失业保险记录。美国人口普查局维持及不断更新一个从1990年开始的全国纵向工作抽样框架。每份工作把一个工人连接一个雇主,而一个工人能有多份工作。这个数据系统是设计来跟踪和每三个月更新超过1亿4,000万工人的就业状态与薪资,和超过1,000万雇主(包括自我雇用的)的状态,同时仍然继续严格地利用法律、政策、隔离、技术各种方法保护每一个工人和雇主的隐私。这个纵向数据系统已经成功地鼔励建造创新、实际的在线应用来推进新数据的使用, […]

Recent Posts

NSD201801-042

Trade Secrets to South KoreaOn May 1, 2015, Kolon Industries, Inc., a South Korean industrial company, was sentenced in the Eastern District of Virginia to 5 years’ probation and was ordered […]

More Info

NSD201801-040

Theft of Trade Secrets by Chinese Professors for Technology to ChinaOn May 16, 2015, Tianjin University Professor Hao Zhang was arrested upon entry into the U.S. from the People’s Republic [...]

More Info

NSD201801-029

Theft of Valuable Source Code for ChinaOn June 14, 2016, Jiaqiang Xu was charged in the Southern District of New York in a six-count superseding indictment with economic espionage and theft […]

More Info

NSD201801-028

Satellite Trade Secrets to Undercover AgentOn July 7, 2016, in the Central District of California, Gregory Allen Justice was arrested by FBI special agents on federal charges of economic [...]

More Info
Powered by WordPress | theme SG Window