- 每个个体拥有一个逻辑的,数值的识别码
- 每个个体都可以被找到——联系信息,地理位置或其他相关信息
- 框架是一个逻辑性,系统性的组织
- 框架还提供个体的其他信息,使研究可以在更复杂的抽样框架下进行
- 框架涵盖了相关总体中的每个个体
- 总体中每个个体只在框架中出现一次
- 框架不包含相关总体以外的任何个体
- 数据具有时效性
图2 |
郭俊池, 博士生, junchi@email.gwu.edu
图2 |
郭俊池, 博士生, junchi@email.gwu.edu
胡善庆 王琼 刘真This blog in simplified Chinese describes the status and need for statistical monitoring in Smart City development in China; it includes an interactive map of the 291 test […]
简体中文版: 《海外学人》2013年 - 大数据专刊 This blog is a simplified Chinese translation of my blog on The Essentials of Identification Codes. Published version in Chinese Association for Science and Techonology special […]
简体中文版。This is a simplified Chinese translation of the Blog on 21st Century Statistical Systems.20世纪期间,传统普查和新引进的隨机抽样调查共同被应用于各国人口和经济的测量与推论。这两种统计数据方法在全世界支持决策、政策的制定、和传递信息都非常重要。21世纪开始在全球数据大量电子化及大数据爆发成长,刺激和引起对更及时和更广泛信息的更多要求。因为传统的普查和隨机调查是静态、定时的,它不可能毫无基本变化地满足不断扩张的动态需求。21世纪统计系统和方法的特徵将会在於精巧地应用大量纵向数据、連接组合多个数据来源、迅速简单地递送信息,同时继续严格地保护稳私和数据安全,並认证準确与可靠度。包括美国的一些国家统计局领導最近已反复地解说这些需要和趋势。能成功地克服这些议题的政府机关将会帮助它们的国家拥有全球独特的竞争优势及利益,否则它们会面临淘汰。作为一个快速成长的经济大国,中国的统计数字日益受到重视、並对世界具有重大映响力,但也面对许多相同的挑战。本文介绍一些在美国和其他国家漸露頭角的成功故事,並讨论面对21世纪动态、组合数据系统挑战所必须改革的意识和做法。20世纪统计系统普查,也就是对总体每一个單位收集数据,已经是多世纪以来测量人口分布和特证的传统统计方法。中国在2,200多年前已进行了它的第一次人口普查[1]。西元2年西汉朝代,存在记录[2,3,4,5] 顯示中国人口接近5,800万、户口超过1,200万。1983年中华人民共和国制定它的第一批组织管理统计工作的法律[6]。从1949年开始,中国进行了6次全国人口普查, 1990年后是每十年一次[7]。基於它的憲法规定,美国在2010年进行了它两个多世纪以来的第23次和最近一次全国人口普查[8,9]。美国、中国和其他国家都很普遍地举行多范围包括经济、工业和农业的普查。举例来说,美国每五年举行一次有关商务活动的经济普查。下次的经济普查预定在2012年开始[10]。2007年的经济普查复盖了非务农私人经济的2,400万家企业,约佔美国国内生产毛额(GDP)的96% [11]。中国最近期的经济普查是在2008年[12]。虽然每项普查都有不同的法律背景或动机,但最终目的是相似的-提供有关联的、及时的、和可靠的数据以作研究、分析、支持最后决策制定。虽然普查在过去许多世纪已经证明它的重要,不过它也有一些众所周知的实际弱点。最重要的是,人类活动是连续和动态的,但普查只能为一个指定的普查日子或短暂时期提供一个比较全面的速映。通常普查结果在被宣布时,它们已经过时了。动态的人类行为和社会、经济和政治现象不可能会被定時静态的普查完全地描述解释。设计全国性普查的操作与数据收集典型地复杂,需要多年的準備。更多的时间然后被花费在数据处理、分析、及报告结果。高费用的全国性普查还需要小型及較常发生的隨机调查补充輔助。经过十多年设计、发展和测试之后,"美国社团调查"(ACS)在2005年开始在美国人口和住屋的特性上運用"连续性测量"[13]。每年大约300万个住址(每月25万个住址)隨机被選为一个5年旋转周期的抽样單位。ACS的估计是基于每月的调查数据聚集一段时间后以日历年为單位而产生的。人口較少的地方,ACS估计需要五年时间的数据聚集才可以报告[14]。据报导,中国以"全国人口样品调查"及2011年的结构改变而重估它的最近总人口[15]。抽样方法为成层、多阶段、成群、及按比例概率。在31个省市区、4,800个村庄、4,420个镇区和2,133个城区中的150万人接受面谈提供数据。抽样调查是挪威统计局局长在1895年的国际统计学会(ISI)年会中提出的新观念[16]。国际统计界花了30多年辩论它的优劣利害才最后決定抽样调查是可行的科学方法。在这期间,今天的数理统计学理论和实践应用发展成长,支持隨机抽样调查的想法。美国文理科大学首开先例在1935年创建统计系的是乔治华盛顿大学[17]。学术界会成为未来统计家的培训基地。根据美国人口普查局资料,隨机抽样调查首先在1937年经济大萧条期间被用于对失业问题的测试[18],部分回应当时对及时资讯的需要。政府会成为未来统计家的主要雇主。得到新理论的支援並在多方面实践的考验,加上1950年代商业计算机及后来引进的台式计算机,隨机抽样调查很快成为收集数据及运行统计分析以作决定的标准统计方法。现代统计系统的基础主要依靠1970年代计算技术而建造的,在1990年代互联网商业化推进新信息時代之前。到20世纪末期,包括普查和调查数据的统计系统不僅是政府的核心操作,亦是为市场调查、政治预测、农业和经济发展计划、环境管理、公共卫生、运输计划、自然科学、和其他人类和社会活动应用分析的基础。然而,数据一定要依照统计设计收集,包括概率原则的应用,才能作统计推论。大规模的统计分析典型地会被政府或学术界的统计家或主题专家包辦操作。21世纪数据需要和趋势21世纪頭十年很显著的是数据迅速从模拟轉型为数码,並很快被神速增加的网民接受认同使用。大部份的网民都不是在学术界或政府的统计或主题专家。根据南加州大学的一项研究[19,20],世界电子储藏数量在2002年第一次超越了非电子储藏数量。但到2007年,地球上至少94%的所有资讯都以电子形式储藏。据报导,世界制造与储存容量在2010年第一次超过1 zettabyte (1 ZB) [22,23]。相对地,2007年是0.29 ZB和1986年是0.00002 ZB [19,20]。一位行业领袖宣布"我们(人类)现在每两天产生的数据相等于从文明的破晓到2003年"[24]。举例说明相对份量,一个人的整个基因组,包括沿染色体的30亿化学基础,只需大约3 GB (0.000000000003 ZB)的计算机储藏,以今日标准而论是不稀奇的[25]。阿尔发磁性分光器每秒钟就记录1 GB的宇宙光数据[26]。实际意义来说,纸用记录已陈旧被荒废,私营企业正在产生大量的数据,而数以亿计的数据消费者不必是统计或主题专家。数据可以没有抽取样品的需要或考虑,将其完整地电子化直接輸入机器处理和计算。这个巨大变化的速度与电子数据广泛无政治、地理边界的散播配合得天衣无缝。通路和信息科技的使用在发达国家和发展中国家是差不多同样的普遍。无论世界任何一个角落,只要一部计算机能上网,它就能被存取数据应用。大数据是一个尚未定型有关非常大量电子数据的新用词,它很可能不是根据传统统计系统的结构和概率原则而收集的。行政记录、社会媒体、条码和电波扫描仪、运输感应器、能源和环境监视器、在线交易、流影像、和人造衞星图像都是大数据来源和爆发生长的因素。大部分的大数据都没有传统统计分析和推论的结构,也沒有很多简易软件和统计系统可用。然而,大数据也有一部份是前所未有可作政策决定的丰富信息,尤其是当它们能适合地整合融入政府数据庫中。私营企业在生产大数据已领先起歩,组合政府的统计,发展数据挖掘技术和方法来识别潜在的消费者、扩张市场、测试新产品、並抽取新讯息以作其它巿场及客户研究。有些情况下,他们甚至可向传统的政府功能挑战。举例来说,一些社会媒体搜索的言詞被用来做感冒的指标,它的表现不比公共卫生机关的指标差,在及时方面更胜一筹[27]。尽管它在大数据汪洋中的份量逐渐减少,政府统计仍然擁有其支持全球化的经济体制及解决不断扩张的社会需求的独特重要。然而,当我们活在可以数秒钟內上网搜索展示百万计的结果和国际股票市场日夜即时报導成交数据的时代,要等多月甚至多年才可收集、处理、发放在地理、企业、与人口都有限制的静态结果将失去它的意义。大部份国家,甚至发达国家,都面对严格的财政预算限制。现在的高费用、低回收的普查和调查辦法否定了它们新引进或扩张一贯做法的可能性。全球普查和调查反应率下降亦把问题搞得复杂。举例来说,尽管多方计划和努力,美国2010年的普查参与率僅僅达到2000年的74%[28]。到了个人面谈的地步,普查平均费用升到每户56美元,超过最初的邮寄费用的100倍[29]。事实上,美国众议院在2012年5月通过结束"美国社团调查",表示对保护隐私和预算金额的担心。2012年的经济普查能否如期进行,目前尚不能确定。国家统计局面对的挑战是真实、令人畏懼的: 20世纪的统计系统不能满足21世纪的需求。应用政府统计的网民正在快速地在数字和广度方面增加。他们需要更广泛、更动态、更及时的数据,並能容易地存取和了解,但现有方法必需的资源和时间都不可得或不能负担。政府仍然要提供準确又可靠的统计数字,亦要同时严格地保护回应單位的隐私。不能满足这些需求的话,澳大利亞统计局不能肯定它"将能保持在社会官方数据核心"的地位[30]。大数据时代的来臨与数据使用者需求的增加是无可避免的,但许多政府和统计机关仍然沒有充份准备如何善用大数据。面对这些21世纪的挑战,跟本地改革普查和调查的意识形态与一贯做法是必要的。渐进小修理由1970年代的智識和技术建造的统计系统不足以应对大数据革命的要求。21世纪统计系统的特徵21世纪统计系统和方法的特徵将会在於精巧地应用大量纵向数据、連接组合多个数据来源、迅速简单地递送信息,同时继续严格地保护隐私和数据安全,並认证準确与可靠度。纵向数据是对同一單位(例如一个工人、一位学生、一个家庭、一门生意、一所学校、或一座医院)在时间上重复观察所得的数据。它能在个体水平提供独特的底线和变化计量。传统的定点研究同时对多單位收集数据,不能像纵向数据可以直接追踪变化。纵向行政记录是建造广泛详细的统计系统的潜在数据来源。加拿大统计局非常简单地把行政记录定义为"各种非统计计划收集的数据"[31]。潜在数据来源包括出生和死亡证明书、关税公告、婚姻和驾驶执照、个人和生意税务、失业保险、社会福利和医药处方。下列例子说明巨大量纵向行政记录的存在。在它能开始操作之前,一门新生意一定要完成登记表格。一般支付薪水和税务都有报告可查。如有贷款或合并和收购,另有文件一定要完成。公司掛牌上股市,一定要申请批准才可交易。一位学生一定要填好表格才可进一所学校。他一定要登记才加入某班某级。个别测验考试分数都被记录。从一所学校轉移到另一所学校需要一份成绩报告单。当一位学生毕业的时候,他会收到一张文凭或学位。同样地,每个人每次到医生的办公室或一所医院检查或看病都会有纪录,包括健康指标数据、疾病的症状和医疗处方內的藥物类型和数量。如有适当设计和自动化,编联电子数据的费用只会是密集劳力收集普查和调查的数据费用的一小部份。因为管理的记录已经存在,也没有对个人或公司增加负担。一次确定后,一些个人资料的輸入,例如性別、出生日期和种族,都可以大量減少,因为它们不会变或会循序轉变。20世纪最后20年间,把行政记录组合到统计系统去替换人口普查的潜能被活跃的辩论[例如32,33,34,35,36]。1981年由丹麦提倡,现在欧盟27个国家中至少有20国家正在使用人口登记或人口登记和传统的户口普查合併计算他们的人口[37]。虽然纵向数据研究在医学临床实验中被相当广泛地採用多年,在其他的区域中它的组合应用比较稀疏和有限制,主要因为设计弄得太复杂、处理和数据储藏的费用曾经很高、理解及存取数据困难、和对有关保护隐私的担心。来自澳大利亞、加拿大、新西兰、英国和美国的统计局领袖最近开了一个高峰会,会议內容包括讨论对21世纪统计系统的共識和远见。美国人口普查局局长在博客中描述未来远见如下[38]:"中央政府统计局的焦点工作一定要用传统的调查和普查(使用纸、互联网、电话、面谈)混合連接多种可得的数据来源(行政、其他记录)而生产高质量、及时的统计量来讲一个与经济、社会、环境进步密切相关的故事。" 政府统计局一定要继续生产维持普查或调查的抽样框架,但又要增加组合和最理想地利用已存在的数据来源。这些框架过去曾是静态,包含极少內容。在21世纪,这些框架一定要改型到动态结构及丰富內容,有能力第一时间常规地或在要求下生产广泛、高质量和及时的统计量,並能轻易引进和融合新来源与数据。这些动态全国性框架包括统计和地理的数据,有能力隨时隨意绘作地图及报告,並保持傳统的抽样框架作用。"说一个密切相关的故事"是统计局21世纪在意识形态上必须改革的一部份。长久以来,统计专业人士总把推论统计排在第一位角色,冷落描述统计到第二位或補助角色。在大数据时代,无论从那一角度来看,现代可视化与其他技术从烦复数据抽取重要信息是很有價值的统计实践。当政府和学术界专家已不是唯一或甚至大多数的数据供应者或分析家,理解、通路和使用的安逸一定要是迅速递送结果的主要部份。组集和维持广泛、动态的统计系统需要大量的敏感个人的和商务数据。然而,以统计摘要的形式分析结果,又必须消除任何暴露个人和企业身份的可能性。个人和企业理所当然地应该关心和了解他们的隐私是如何受到保护,並绝对防止无意误用或悪意滥用他们的数据。数据安全亦要有最嚴格的保护,防止任何对系统数据及发布统计的干预和变更。初现的成功故事一些国家已开始建造有关就业、教育和公共卫生的公众纵向数据计划。这些计划虽在不同的发展阶段,但提供了在大数据時代建造和维持广泛、详细动态统计系统是可行的令人鼓舞消息,虽然它们仍然有许多挑战存在。超过20个国家的代表在1998年參加一个国际论坛,讨论组合雇员-雇主数据的研究[36,39]。美国人口普查局同年成立一个纵向雇主-家庭动态计划,联编组合现有的雇主-雇员数据而生产创新的统计产品[40]。到今天美国联邦政府已经和所有54个州、直轄巿和地区政府签订協议,保障每州每季不断提供工人和雇主的失业保险记录。美国人口普查局维持及不断更新一个从1990年开始的全国纵向工作抽样框架。每份工作把一个工人连接一个雇主,而一个工人能有多份工作。这个数据系统是设计来跟踪和每三个月更新超过1亿4,000万工人的就业状态与薪资,和超过1,000万雇主(包括自我雇用的)的状态,同时仍然继续严格地利用法律、政策、隔离、技术各种方法保护每一个工人和雇主的隐私。这个纵向数据系统已经成功地鼔励建造创新、实际的在线应用来推进新数据的使用, […]