《智慧政府:大数据治国时代的来临》

现在,人类社会已经进入了一个全新的历史阶段——大数据时代。人成为一切数据足迹的总和,人们的一切行为都以数据的形式被记录、被储存、被处理。

作为最大的数据占有者,政府掌握着社会方方面面的数据,但各部门间的数据没有进行高效整合,给政府管理和民众生活带来了极大不便。

十八届三中全会将“推荐国家治理的体系和治理能力现代化”列为全面深化改革的总目标。而如何达成目标,本书给出了符合时代发展的答案。本书首次将大数据与国家治理紧密结合,主张政府管理者应该具备大数据思维。通过对数据的整理与分析,政府管理者可预测民众的下一步公共服务需求,进而提供更加智能与高效率的管理和服务,促进国家和社会发展。

作者指出,大数据并不仅是一场技术变革,更意味着一场社会变革,而这种社会变革又伴随并呼唤着公共管理与公共服务领域的变革。

大数据治国时代已悄然来临,一场改变世界格局和人类生活的大数据变革即将引爆。

【作者简介】

目录

推荐序一大数据时代的国家治理

推荐序二大数据,政府管理改革的新机遇

推荐序三大数据助推公共管理转型

前言智慧政府:大数据引领国家治理大变革

第一章大数据的一天

工作的白天

生活的夜晚

第二章大数据:一个新的政府治理命题

大数据时代来临

大数据

大知识

大价值

大数据浪潮中的政府

大数据政府的大应用

政府应成为大数据时代的领跑者

大数据推动管理的现代化转型

中国的大数据实践

作为基础设施的大数据

作为基础性制度的大数据

政府大数据观

从拍脑袋到大数据决策

从行政主导到以人为本的服务型政府

第三章万千气象:感受数据之大

什么是大数据

大数据与数据有何不同

打开数据利用的想象空间

第三次工业革命的战略资源

大数据的特征

大容量

多样性

快速度

真实性

数据大爆炸

数字数据的增长

非结构化数据的增长

信息时代的三大定律

摩尔定律

吉尔德定律

麦特卡尔夫定律

第四章思维变革:大数据主义来袭

一切皆可量化

我们的数字足迹

发现未知的数据世界

万物皆有关联

追踪“蝴蝶效应”

“是什么”比“为什么”更重要

预测:大数据的核心

庞杂赢得胜利

全景式观察与盲人摸象

拥抱数据的杂乱

数中自有黄金屋

把数据负担变成数据红利

大象与蚂蚁共同起舞

第五章多算胜:驾驭大数据

数据采集:遍布全球的触角

业务数据

调查数据

环境数据

用户生成数据

数据存储:海量吞吐的威力

大数据量:考验存储能力

即时记录:解决延迟问题

信息防护:保证数据安全

提升效率:降低存储成本

数据分析:无序中建立有序

“淘金”路上的数据清洗

大数据分析呼唤新技术

数据挖掘的6个阶段

数据呈现,信息可视化之美

一图胜千言

数据如此美丽

描绘大数据

第六章智慧政府:大数据应用面面观

快速反应的公共安全管理

多渠道数据采集:高效打击犯罪

快速反应:分钟的黄金救援

联合行动:跨部门数据共享

数据开放:为食品安全护航

数据化调控的公共交通

畅通无阻:大数据式治堵

全景式调控:数据化的智能交通系统

出租车管理:打造城市的流动名片

以人为本的综合社会管理

社区网格:中国特色的社会管理

创新服务:一张通行证搞定全部政务

以人为本:“移民城市”的出租屋治理

智慧监测下的公共卫生与医疗

实时监测:将流行病爆发控制在萌芽期

全面呈现:切断危机传播路径

智慧医疗:破解“看病难”问题

精准识别:医疗欺诈难逃大数据法眼

创意与实用兼备的环境保护

优美宜居:数据驱动的绿色城市

虚拟河流:智慧的水污染治理

污染地图:督促企业行动起来

第七章智慧城市:立体的大数据生态系统

智慧城市让生活更美好

抗击“城市病”

城市的智慧化演进

跃动全球的智慧城市实践

各国智慧城市:高招各有不同

中国智慧城市:新型城镇化风向标

智慧城市的生长之道

智慧城市的四大法宝

物联网:智慧城市的感觉器官

移动互联网:编织城市数据网

飘在城市上空的“云”

第八章组合拳:让大数据全面落地

打造政府信息化航母

盘活数据资产

消除信息孤岛

建立政府云平台

让听得见炮火的人决策

用数据说话,让数据做主

数据驱动的管理模式

开放公共数据

席卷全球的数据开放运动

公共资料,增值再用

数据如何开放

与“小伙伴们”共建新型政府

找最聪明的人为你工作

公民参与政府创新

缔造GBCP和谐三角

全面实施大数据战略

把大数据上升为国家战略

大数据产业引爆新增长点

数据科学家的崛起

第九章问题与挑战

数据质量:清醒认识数据的缺陷

数据造假:威胁数据质量的生命线

错误发现:数据呈现与解读的谬误

信息安全:个人隐私与国家安全的威胁

“棱镜门”事件:山姆大叔在窥探你

隐私保护:寻找新的制衡机制

数据独裁:呼唤政府对公民权的救济

群体歧视:无法抗争的社会标签

行为预测:未来罪责判定的隐忧

公民力量:指向政府的达摩克利斯之剑

信息公开:倒逼政府行为的变革

网络问政:考验政府对民意的回应

网络监督:大数据时代的技术反腐

庞大能耗:数据中心背后的环境代价

后记

致谢

参考文献

早上7点,你在浪漫悦耳的G大调钢琴曲中醒来,又是一个崭新的早晨。床头那个猫头鹰造型的闹钟传出的旋律让起床变成一件轻松开心的事情。

你哼着音乐起床。房间感知到了你起床的信号,窗帘徐徐拉开,金色的阳光洒进卧室。咖啡的香味从厨房飘来,厨房电器刚刚自动做好了一顿美味的早餐。

你一边吃着早餐,一边看着电视新闻。电视节目都是个性化定制、智能推送的,现在正在报道的是流感爆发。主播对着动态地图指出了当前受流感影响的地区,分析了流感的传播路径、未来发展趋势,就像播报天气一样。在地图上,公共卫生机构抗击流感的部署一目了然。让人放心的是,因为控制及时,这次流感并没有带来大范围的不良影响。

电视提醒你,该出发上班了。于是你整理好公文包,吻了一下熟睡中的妻子和孩子的额头,走出了家门。

你按下手机上的一个按钮,新买的汽车从车库徐徐驶出,开到了你的眼前。这是一辆自动驾驶的汽车,是你升职后给自己的奖赏。刚买这辆车时,你的父亲还有些担心,怕不够安全。后来才发现,这种担心完全没有必要。与人类驾驶相比,这辆自动驾驶的汽车不仅可以探测到360度范围内的一切事物,包括它们的距离、速度和温度,而且知道如何避开其他司机的视觉盲点,预知各个方向车辆的情况。你开玩笑地跟父亲说:“这辆汽车比开过很多年车的老司机还要可靠,因为它不会疲劳、酒驾抑或是赌气发火。”

汽车驶出小区的大门,经过一个路口时,它忽然停了下来,原来它探测到20米外有一个滚动的皮球。接着便冲出一个小孩,丝毫没有意识到可能面临的危险。待确认小孩离开车道后,汽车又平稳地启动了。

8点半,你准时到达了非凡公司。这是一家信用评级公司,你作为公司引进的首位数据科学家,已任职5年。

这一信用评级模型的研发和应用让非凡公司一举成名,而你也因为在这一过程中的优秀表现被提拔为部门经理。

你走进办公室,计算机桌面上已经自动筛选出了需要今天处理的信息。它就像一个贴心的秘书,使你的工作井井有条,同时又能与公司的同事、与世界各地的合作伙伴保持密切的合作。

今天,你需要集中精力准备一个发言稿。因为下午你需要在公司的高层会议上汇报两个政府委托的大数据项目方案:一个是社会保障反欺诈系统,通过异常数据分析,自动识别冒领养老金、骗取医药费用、套取保险基金等欺诈行为,保障基金安全,管好、用好百姓的“养命钱”、“救命钱”;另一个是环境数据群体采集系统,通过在汽车车轮上安装传感器,记录城市各角落的路况、空气质量及噪声、温度、湿度等信息,实现城市环境的移动监控。

在会上,你用动态的信息可视化图表展示自己的观点,随时调用各种数据支撑方案的论证。发言的最后,你激动地总结道:“大数据能帮助我们和我们的客户获得对于未来更加智慧的预测,而只有做到预见未来,才能遇见未来!”公司领导肯定了你的计划和设想,鼓励你尽快推广大数据在各个项目中的应用,以提升公司的竞争力。看来,接下来半年的大数据探索工作将充满挑战和乐趣。

2010年,联合国哥本哈根世界气候大会前后,美国麻省理工学院感应化城市实验室的学生设计了一款自行车辅助工具-哥本哈根车轮。车轮内置一些检测装置,可以对路况、一氧化碳、氮氧化物及噪声、温度、湿度等信息进行检测,全球定位系统装置帮助记录位置信息。通过蓝牙模块与智能手机关联,你可以参考这些实时数据调整自己的出行计划。更有意义的是,你还可以将这些数据上传,帮助建立一个庞大的环境状况数据库,绘制城市环境地图。车轮内还包含一个发动机、多组电池和一个内部齿轮系统,刹车时可存储能量,上坡或者行驶疲劳时可将存储的动能释放出来帮助骑行。

一天充实的工作结束后,你终于可以放松下来,准备回家。走出公司,外面的天有些阴沉,一阵凉风夹杂着小雨滴刮了过来。你缩缩脖子,按下手机上的汽车按钮,它快速且准确地停在你面前。

超市货架上的食品整齐摆放着,井然有序。你逛有机食品区时看到了一种新出的杂粮麦片,看上去很有营养。你用手机扫描了食品包装上的二维码,手机屏幕上便出现了麦片的产地、成分、是否有过食品安全召回记录和其他购买者的评价信息,你甚至发现了隔壁邻居对这款产品的评价:“我们家小孩很喜欢吃。”你会心地笑了笑,果断将其放进购物篮。快速采购完这个月家庭所需食品后,按照多年以前的规矩,你该走到收银台前结账,但在今天的超市早已没有了结账柜台。将商品放入购物篮的一刹那,传感器便能把商品的价格和结算信息传输到你的手机上,生成一个订单。你确认订单后,便可在手机上完成支付。

从超市回家的途中,在驶过一条社区街道时,你忽然发现头顶有两三盏路灯忽明忽暗地闪烁着,你猜可能是出了故障。你拿起手机,拍了张路灯的照片,并将其上传到城市公共平台-这是一个供市民反馈问题的应用程序。它自动记录你拍照的位置,并将路灯受损的信息报告给了市政设施维修公司。几分钟后,你收到了一条短信,是市建设局发来的,他们告诉你路灯明天就会修好,感谢你作为热心市民提供了这条线索。

到家已是晚上7点,妻子早已接孩子放学回来,准备好了一顿丰盛可口的晚餐。饭桌上,妻子谈到了今天去行政服务大厅办事的经历。“我们单位计划到境外投资,听同事说以前审批立项要盖70多个章、跑好几个月才能办下来,今天我跑一趟就全办好了。你说我厉不厉害?”妻子一脸微笑地看着你,向你讨要表扬。你假装不解风情地说:“厉害的不是你,是我们数据科学家。没有我们设计的跨部门协作系统,你照样要一个部门一个部门地盖章;没有我们设计的在线申请系统,仅填审批表就够你忙活好一阵了。”

夜色渐浓,一天即将结束。

睡前,孩子躺在床上听你讲故事。你有感而发,没有像以往那样讲王子与公主的童话,而是给他讲了一个你小时候的故事。他听完将信将疑,很难相信你年轻时曾经为了进入一所理想的学校,参加各种不同的考试,填写各类成绩单、获奖证明和家庭状况表,之后才能拿到录取通知书。今天的孩子们就幸福多了,他们不再需要为中考或者高考而苦恼。因为数据库记录了孩子多方面的潜在能力和性格特点,会定制适合其发展的教育培训课程,推荐适合的学校。

站在今天的角度观察,人类社会的信息化进程其实可以划分为三个时代,即计算机时代、互联网时代和大数据时代。

到20世纪90年代中期,发达国家已经基本度过了计算机时代。计算机的普及,解决了信息的机器可读化和数据的可计算化问题。目前,发达国家和部分发展中国家也基本走完了互联网时代的路程。互联网的建立解决了信息传递和信息服务问题。在计算机和互联网的基础上,而今我们正步入一个全新的历史阶段-大数据时代。

剑桥大学教授维克托·迈尔-舍恩伯格在其《大数据时代:生活、工作与思维的大变革》中写道:“大数据开启了一次重大的时代转型。就像望远镜让我们感受宇宙、显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……未来数据将会像土地、石油和资本一样,成为经济运行中的根本性资源。”

2013年被国外媒体称为“大数据元年”。大数据如浪潮一般席卷全世界,不仅在信息技术行业备受瞩目,更成为变革科研、商业、政府运作方式乃至人类思维方式的一个热点。

我们可以用三个词勾勒出大数据时代的全景-大数据、大知识、大价值。

1969年,美国阿波罗登月舱使用的自动控制计算机内存容量只有63KB(千字节);而如今,一部普通的苹果手机运行内存就有1GB(吉字节),是前者的6.45万倍,这还不包括16-64GB不等的存储内存。阿波罗登月舱只有一个,而仅在2013年第一季度,就销售了大约3800万部苹果手机。人们用手机社交、购物、阅读,产生的数据量是惊人的。

随着计算机技术全面融入组织运作和社会生活,数据正在以一种超乎想象的速度爆发式地增长。据统计,人类存储信息量增长速度是世界经济增长速度的5倍,而计算机数据处理能力增长速度则是世界经济增长速度的10倍。根据联合国的研究报告,全球的大数据存量从2005年的150EB(艾字节)增长到2010年的1200EB,并预计将以40%的年增长率继续增长,2020年将达到2007年的44倍,平均每20个月翻一番。1EB等于260B(字节),相当于13亿中国人人手一本500页的书加起来的信息量,5EB则相当于3.7万个美国国会图书馆的信息量。

一天能产生多少数据?

MBAonline网站发布的一张题为“互联网的一天”的信息图显示:

每天有2.5亿张照片上传至社交网站脸谱网,如果把它们都打印出来,摞在一起有80个埃菲尔铁塔那么高。

每天有86.4万小时的视频被上传至视频网站Youtube,不间断播放则需98年。

每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台计算机从公元元年就开始播放这些音乐会,到现在还没完没了地接着放。

累积起来,互联网一天之内产生的信息总量可以装满1.68亿张数字多功能光盘。

人们通过大数据获得的知识更快速、更准确、更便捷,而这些在传统的数据利用思维和技术的基础上是难以完成的。例如,个人收入对于银行放贷、社会保障等机构而言是一项关键数据。然而,收入又是一个比较敏感的话题,要调查个人收入,不仅过程烦琐、成本较高,而且还存在瞒报的可能。著名征信机构益百利有一项服务,即通过分析信用卡历史记录和美国国税局的匿名税收数据,对个人的收入状况进行较为精准的预测,其预测结果售价不足1美元,而通过传统的办法证明一个人的收入状况要花费10美元左右。

大数据使得组织决策将越来越依赖于数据和分析,而非经验和直觉。迈克尔·刘易斯于2003年出版的《点球成金》中讲述了棒球统计学的一个真实案例。该书的主角比利·比恩是一家棒球队的总经理,他在一位统计学家的帮助下,尽可能地将球员能力数据化,并以此作为衡量球员能力的唯一标准,而非基于主观经验的判断。通过这套计算机程序和数学模型,比利以有限的预算寻找那些被价值低估的球员,实现了最高的“投入产出比”,创下了美国职业棒球大联盟百年历史上的连胜20场的空前纪录。与那位统计学家相比,专业棒球星探们在挑选球员方面的精准程度相形见绌。

从商业、科技领域到医疗、政府、教育、经济、人文、社会领域,大数据越来越显示出非凡的发展潜力和广泛的应用前景。2011年5月,麦肯锡全球研究所发布了一份专门的研究报告《大数据:下一个创新、竞争和生产率的前沿》,该报告分析指出:大数据可以在任何一个行业内创造更多价值。比如,零售业可以利用大数据增加60%的运营利润;如果医疗业全面使用大数据,仅在美国,每年能多创造3000亿美元的价值,同时减少8%的医疗支出;如果运用到公共领域,欧洲政府每年可以减少1000亿欧元的开支,同时可以有效避免偷税漏税行为;服务业如果抓住大数据机会,利用个人行为信息刺激消费,可以带来6000亿美元的营业额。

大数据的创新运用和实时分析还被认为能够推动失业、饥饿和疾病爆发等社会问题的解决,对于发展中国家的发展而言尤其具有特殊意义。近些年全球粮食、能源和金融危机告诉人们,尽管当今世界信息技术非常发达,但决策者得到有用信息并及时采取行动以保护弱势群体的速度却总是慢于危机的出现。为了改变这种状况,2009年,联合国启动“全球脉动”计划,旨在为各国提供实时数据分析,以便更准确地了解人类福利状况,降低全球性危机对人类生活的影响。与传统的统计仅能有效跟踪中长期发展趋势相比,“全球脉动”计划旨在发现新的数字化指标,实时了解情况,并及时为决策者提供反馈。联合国秘书长潘基文说:“我们事实上是在一个实时信息的海洋中游泳,手机和数据服务的爆炸式增长意味着世界各地的人在为全球知识库做出海量的信息贡献。他们还通过交流、购买、出售和其他日常活动以免费的方式提供信息。私营部门正在研究这些新数据以便实时了解顾客。联合国也必须为自己的服务对象(全世界那些失去工作、生病、难以养活自己和家人的人)做同样的事情。”

《大数据:正在到来的数据革命》的作者涂子沛深刻地指出,大数据之大,不仅在于其容量之大,而是通过数据的交换、整合和分析,发现新知识,创造新价值,带来大知识、大科技、大利润和大发展。

是的,我们已经走到振奋人心的历史关口。让我们抓住这场历史机遇,以引领者的姿态迎接大数据时代的到来。

大数据政府的5大应用

在公共管理领域,国内外一些先行者已经在运用大数据,通过多渠道的数据采集和快速综合的数据处理,增强治理社会的能力,实现政府公共服务的技术创新、管理创新和服务模式创新。大数据在公共管理领域的应用不仅使传统难题迎刃而解,更成为新时期应对新挑战、解决新问题的必然选择。

利用大数据治国,美国政府早已先行一步。奥巴马认为,数据在未来将是领地权、领海权、领空权之外的另一种国家核心资产。美国白宫科技政策办公室在2012年3月发布《大数据研究和发展计划》,同时组建大数据高级指导小组,以协调政府在大数据领域的两亿多美元投资,这标志着美国把大数据提高到国家战略层面,形成全体动员的格局。

根据麦肯锡的报告,大数据技术可为欧盟23个最大的政府公共部门管理活动的成本提供15%-20%的下降空间,在未来10年,每年创造1500亿-3000亿欧元的价值,并将公共部门的预计效率提高0.5个百分点。

对各个国家地区大数据实践的研究表明,大数据的应用可以从5个方面提高公共管理水平。

二是通过评估公共部门的绩效,增强内部竞争,激励工作表现,提高公共建设效率,提升行政服务质量,降低政府的管理成本。例如,荷兰政府推出了一项名为数字三角洲的工程,通过协调环境部、税务部门和国家研究所三方的财力、人力和物力,研究如何利用大数据预测,改变防洪策略以及整个荷兰水资源系统的管理工作。对比传统的水资源建设项目,这种合作组合预计可以节省高达15%的荷兰年度水资源管理预算。

五是引导公共部门内部和外部的创新,例如,商业、非营利机构、第三方通过开发出大数据工具和分析,对公共服务进行反馈,为改善现有的方案提出建议,从而为公共部门创造新的价值。作为大数据惠民的一项重要探索,北京市于2012年10月推出政府数据资源网测试版,并面向企业及个人征集应用程序。由社会力量开发的“游北京”和“爱健康”两个程序目前已经可以下载试用。前者可以查阅北京旅游景点、餐饮、促销信息和卫生间信息等,后者是北京市所有卫生保健设施的指南应用,包括诊所、医院和养老院等信息,用户可以利用这款程序定位附近的医疗设施,查看现场网络图像。

奥巴马的大数据战略

奥巴马依靠有效的互联网推广赢得了2008年的美国总统大选,因而被称为继“电台总统”罗斯福、“电视总统”肯尼迪后的第一位“互联网总统”。2012年,奥巴马再次赢得总统大选。在这两次竞选中,被称为“核代码”的数据分析团队都发挥了至关重要的作用。

在奥巴马看来,数据是未来的新石油,对数据的占有和控制是领地权、领海权、领空权之外的另一种国家核心能力。他将大数据上升到国家科技战略的高度,重要性堪比当年的信息高速公路。

2012年3月29日,美国联邦政府宣布开展《大数据研究和发展计划》,同时组建大数据高级指导小组,以协调政府在大数据领域的两亿多美元投资。根据这一计划,美国希望利用大数据技术在多个领域实现突破,包括科研教学、环境保护、工程技术、国土安全和生物医药等,具体的研发计划涉及美国国家科学基金会、美国国立卫生研究院、美国国防部、美国能源部、美国国防部高级研究计划局、美国地质勘探局6个联邦部门和机构。此举标志着,美国把应对大数据技术革命带来的机遇和挑战,提高到国家战略层面,形成了全体动员格局。

麦肯锡研究指出,尽管大数据能够在各个领域显著提高创新力、竞争力和产出率,但是,对于不同部门而言,大数据所带来的受益程度不同,利用大数据时所面临的困难程度也不同。如图2-1所示,与其他部门相比,政府部门在应用大数据的时候面临的困难最小,从大数据中获得的收益更多,价值潜力更大。

把大数据的手段和方法引入管理领域,是实现管理现代化的有效路径,也是大数据时代的必然要求。

在广东省,伴随着经济的迅猛发展,地方税收纳税登记户从1994年60多万户增加到2011年的285万多户,地税收入从184亿元增加到4248亿元,而同期,地税系统干部人数仅增加了20%。海量数据的即时获取和精确分析成为摆在管理者面前的一道难题。广东省通过率先建设省级地税集中征管信息系统,使全省共用一套服务器、一套程序和一个网络。目前,广东省税收管理员系统的数据总量已达到53TB,承载了覆盖税收执法、税源管理、涉税提醒服务等100多项业务。下面以广东省地税系统为例,从6方面揭示大数据推动公共管理从传统向现代转型的趋势。

从粗放化管理向精细化管理转型

广东地税通过建立省级数据应用大集中平台,告别了靠手工操作和人海战术的粗放型管理模式,实现了税款自动入库、自动划解和实时监控,取得了税款的稳定快速增长。通过对海量数据的分析和比对,广东地税对每个行业、每家企业、每个税种实现了精细化分析和掌控。例如,房地产业和建筑安装业流动性大、中间环节复杂,难以监控,历来是征管难点。广东地税依托大数据平台,开发了建筑安装业和房地产行业税源控管系统。通过该系统,可实时获取房地产开发项目明细信息,包括土地使用权信息、建筑工程进度、房产销售进度、销售明细以及各阶段的税款缴纳情况等,实现了项目从产生到消亡的全过程监控。

从单兵作战型管理向协作共享型管理转型

过去,不同政府部门拥有自己的信息系统,但很多数据相互隔离,形成了一个个信息孤岛,大数据的一大应用就是要实现数据信息共享,最大限度地发挥数据的功效,为经济社会发展服务。广东地税借助大数据平台,积极推进第三方涉税信息共享,明确了28个部门共享涉税信息的内容和方式。目前,工商税务信息每天都进行实时交换,推动了地税机关在办证服务上的创新,从原来的限时办证发展到现在的即时办证,从原来填写100多项登记信息,升级到填写8项必要信息内容,甚至可以享受免填服务。

从柜台式管理向自助式全天候管理转型

从被动响应型管理向主动预见型管理转型

为更好地主动服务于纳税人,广东地税通过税收大数据平台,推出全省集中统一的短信服务,为673万纳税人提供短信订阅服务,有针对性地对目标群体提供了发票开具提醒、逾期未申报短信提醒、未到期未申报短信提醒等多项主动短信服务。借助于大数据平台,避免了轰炸式、无目的性的短信服务方式,实现了针对特定受众发送定制短信内容的精确式短信服务,提升了服务质量。经统计,2011年的短信服务量超过1800万条;2012年前10个月的短信服务量已超过5220万条。

从纸质文书管理向电子政务管理转型

从风险隐蔽型管理向风险防范型管理转型

广东地税坚持走科技防腐之路,开创了全国税务系统以信息化推进惩防体系建设的先河。依托大数据平台建立的惩防体系信息管理系统,对地税干部的税收执法和行政管理进行全程分析监控,有效防控了各类执法和廉政风险。对全省地税税收执法的监控预警数据从2008年刚上线时的每月近7000个,大幅回落到2012年的不到500个,下降了92%。国地税分设18年来,全系统违法违纪发案率基本控制在0.5‰以下的较低水平,没有发生重大违法违纪案件,省局机关未发生违法违纪案件。

精细化管理、协作共享型管理、自助式全天候管理、主动预见型管理、电子政务管理、风险防范型管理,这些关键词也许还无法完全概括出大数据赋予现代管理的种种前景,然而却有助于我们把握前进的方向。令人欣喜的是,由于现代管理具有信息化、标准化的特征,只要有一种好的模式被创造出来,就可以迅速在其他区域、其他部门予以复制和推广。

网格化是北京市加强社会管理工作的重要创新,也是大数据应用于公共管理的生动实践。在微软全球移动应用开发合作伙伴大会上,比尔·盖茨特意介绍了北京市东城区政府运用移动应用技术开展网格化试点的业绩,并称赞这种城市管理新模式是一项“世界级案例”。目前,北京市已初步构建起全市网格化社会服务管理体系框架,构建了一个“天上有云(云计算中心)、地上有格(社会管理网格)、中间有网(互联网)”的新型社会服务管理信息化支撑体系。网格化的推进使得社会服务管理工作变得更具预警性、主动性和协同性,为建设首善之都、世界城市提供了有力的保障。

大数据在城市管理中的综合应用-智慧城市,也得到了各级政府的高度重视。目前,我国已经确定了国家智慧城市试点名单。据不完全统计,全国已有95%的副省级以上城市、76%的地级以上城市,总计230多个城市提出或在建智慧城市,计划投资规模近万亿元。当前,我国的智慧城市建设尚处在起步阶段。在不远的将来,一座座集智慧交通、智能电网、智慧物流、智慧医疗、智慧环保、智慧社区、智慧建筑、智慧农业于一体的智慧城市,将让每一位居住在城市的居民都能感受到生活更加美好。

工业时代的基础设施是铁路、公路、航空以及水、电等。在大数据时代,云计算、高速的泛在网、数据中心成为新一代的基础设施。这些基础设施的建设有的依靠的是政府强有力的投入,更多的投资来自市场,因为企业都在争抢大数据这块“大蛋糕”。

2013年1月11日,工业和信息化部发布《关于数据中心建设布局的指导意见》,明确了科学推动数据中心的建设和布局的指导思想、基本原则,对新建超大型数据中心、新建大型数据中心、新建中小型数据中心和已建数据中心进行布局导向,并从强化政策引导、加强应用引领、夯实网络能力、落实安全保障和发挥示范作用5个方面提出了数据中心建设布局的保障措施。

李克强总理在2013年召开的国务院常务会议上提出了“宽带中国”战略,要求加快网络、通信基础设施建设和升级;加快实施“信息惠民”工程,建立公共信息服务平台;拓展新兴服务业态,开展物联网重大应用示范;增强网络信息安全保障能力。这一政策的出台将对大数据的技术基础设施建设起到巨大的推动作用,大数据引擎发展的效果也将愈加明显。

云计算

云计算是在计算量越来越大、数据越来越多、越来越动态、越来越实时、越来越需要结构化的产业背景下催生出来的一种基础架构和商业模式。它将分布在世界范围的计算资源整合为一个虚拟的统一资源体,并且按需服务、按量计费,使得计算资源的利用就像使用电力和自来水一样方便。

美国国家标准与技术研究院如此定义云计算:它是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用程序、服务),使用者只需投入很少的管理工作,或与服务供应商进行很少的交互,便能从巨大的资源共享池中获得自己所需的信息。

云计算和大数据就像一个硬币的两面。如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。未来,以大数据为基础,以“云计算+智能终端(如智能手机)+社会化网络(如微博、政民互动应用程序)”的形式,将进一步渗透到人们工作和生活中的每个场景。

在社会学专家看来,基础性制度是一种能制约、派生或影响其他制度的原生性行为规则,在经济发展的制度框架中居于基础位置。在我国的体制改革中,基础性制度的建设情况决定了社会经济发展的基本环境,对其他层面的制度运行和体制改革具有深刻的影响。通常来说,能够起到制约其他制度的基础性制度主要有信用制度、市场秩序、产权制度、生产要素、社会保障、政府治理环境以及法律、文化道德传统等。例如,信用制度是现代市场经济的重要基础性制度,市场经济是一种信用经济,良好的社会信用体系会大幅降低交易成本,提高整个国民经济的运行效率;社会信用缺失则会影响经济发展,甚至造成整体经济的混乱。“房叔”、“房姐”事件就是钻了不动产统一登记制度尚未建立的空子。

可以预见,在不远的未来,我国政府建立起这些基础性制度后,不仅可以通过掌握官员的家庭财产和消费状况让腐败分子无可遁形,而且可以通过调用个人居住、出行、金融信息,识别社会保障领域的诈骗,可以对食品产业链进行全程监管,保障食品安全质量,还可以大幅缩减行政申报环节、提高行政审批效率,为公众提供“快半拍”的人性化服务。

大数据不仅是一种海量的数据状态、一系列先进的信息技术,更是一套科学认识世界、改造世界的观念与方法。树立这套世界观和方法论,有利于我们转变拍脑袋决策的作风,提高科学决策能力;有利于我们转变行政主导的传统思维,树立以人为本的核心意识;有利于我们深入把握科学发展观的精神内涵,把握科学发展的题中之义。

个别领导干部把决断误认为武断和盲断,结果导致决策失误、劳民伤财。这样的领导干部被群众戏称为“三拍”干部,即“事前拍脑袋决策、事中拍胸脯保证、事后拍屁股走人”。

然而,政府决策是对地方经济、政治、文化和社会建设提思路、做规划、定政策、出措施的过程,决策一经出台实施,就必然会在社会各个层面引起程度不同的反响,必然会涉及各方面利益格局的调整。决策失误将给国家、人民造成损失。此外,随着公共管理事务的日益复杂,仅凭个人感知已经很难全面了解所有正在发生的事情,并做出正确的判断。这就要求政府部门提高改革决策的科学性,把大数据技术与思维运用到管理与决策中,掌握决策依据、优化决策过程、跟踪决策实施。

“以人为本”是科学发展观的核心。在公共服务方面,大数据观的树立有助于使政府改变传统的指令导向的公共管理模式和供给导向的公共服务模式,开启人本导向、需求导向的公共管理与服务新模式,为公众提供更优质、高效、个性化的公共服务。

三是公众参与,形成共建共治的社会治理格局。依靠群众、发动群众是中国共产党的制胜法宝。政府要维护庞大的社会良性运行,不能仅依靠公务人员的力量,还应调动广大人民群众的力量。这与互联网带来的一种新的资源组织形式“众包”不谋而合。

政府2.0/我的政府

政府2.0是“网络2.0之父”蒂姆·奥莱利提出的一种新的政府形态,它以用户为中心、以服务为导向,作为一个整体、开放的平台,与民众直接互动和沟通,将政府为主体的政府行政过程转变为以社会公众为主体,是政府、市场、社会三方协同互动的公共价值塑造过程。在这一进程中,以移动技术为代表的云计算、物联网等新一代信息技术工具和社会性网络服务、社交媒体为代表的社会工具起到了关键的作用。

威廉·D·埃格斯2004年在《政府2.0:通过信息技术来改善教育、削减开支、缓解交通拥堵、增强民主》中进一步提出了“我的政府”的概念,即以市民为中心的政府,政府可以根据公众不同的需求提供个性化服务,并将需求者和服务提供者匹配起来。

与电子政府不同,政府2.0/我的政府更强调整合政府职能,改变条块分割的传统架构,提供一站式服务;更强调开放、协同、合作,公众通过移动客户端参与政府提供公共服务产品的全过程。它是电子公务理论的体现,即用信息技术实现以公共产品与服务为核心,政府、企业、公众和社区充分互动协同,涵盖公共管理与服务各方面的完整动态循环系统。

本章主要讲述大数据的发展趋势,以及把大数据的思维、技术和方法应用于公共管理领域的重要意义。但是,大数据究竟是什么?它有哪些特征?我们需要做好哪些准备迎接大数据时代的来临?中国应如何通过技术、组织和文化的变革应对大数据带来的机遇与挑战?这是本书后面几章要回答的问题。

“人类历史上最早的一批城市都诞生在河边,河流为人类提供了食物、水和交通。而我们要做的就是创造一条数据的河流,滋养信息经济的发展。”

——纽约一家数据网站首页的标语

“大数据”一词已经无处不在,然而其概念仍然存在混淆。有人从数量大、速度快、种类多等特征定义大数据;有人把大数据看作一项新技术,例如大数据处理技术Hadoop和非关系型数据库NoSQL;有人从大数据与数据的区别角度提出,大数据不仅包括人们过去搜集、存储和分析的交易数据,更包括人们从点击网页等操作中得到的交互数据以及机器自动搜集的观察数据;还有人认为大数据是一种新的预测信号,在传统情况下,当数据被记录时,人们已经无法对它们采取任何行动,组织在不断管理“失效的数据”,而在“新世界”,组织可以使用信号数据预测将发生什么,并通过干预改善情况。

值得注意的是,无论如何定义,业界几乎所有人都普遍认同,大数据不只是更多的数据,大数据是一个大事件,在未来几年将带来重大的机遇。

有人可能有这样的疑问:大数据不就是数据分析的另一种说法吗?大数据与数据究竟有何不同?大数据与传统的数据挖掘相比,与其说是一种量的进步,不如说是一种质的飞跃。人们在大数据的基础上可以做到的事情,在小规模数据的基础上是无法完成的。

高德纳的一份报告认为:大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。这一概念虽然简洁,却内涵丰富:第一,它认为大数据是一种信息资产;第二,这种信息资产具有海量、高增长率和多样化的属性;第三,它指出了大数据的应用价值和革新意义,即具有更强的决策力、洞察力和流程优化能力。

笔者更赞同高德纳的定义,把大数据看作一种战略和习惯,一种新的世界观和方法论。例如,谷歌不用分发口腔试纸和联系医院,就能给出和基于大量真实病例所得到的流感情况一致的结果,并且比疾控中心提前了两周,就是因为它分析了数千亿的数据,建立了强大的预测模型。从2009年10月起,“谷歌流感趋势”网站开始提供全球每周流感疫情预测,对于数据较完备国家的预测能精确到省份,并能显示横跨7年的历史数据。

另一个有代表性的例子发生在能源计量领域。美国软件公司Opower与多家电力公司合作,在几百万户家庭安装了智能电表,这些电表每隔15分钟就读一次用电数据。Opower公司据此每个月向每户家庭提供一份个性化报告,把该家庭的电费与周围邻居进行对比,显示该家庭的用电情况在全美类似家庭中所处的水平,以鼓励节约用电,预计每年为美国消费用电节省5亿美元。由此可见,大数据成为政府节能减排的千里眼、万只手,并且做到了深入每户家庭、量身定制解决方案,这在入户抄电表的传统工作方式下根本是无法想象的事情。

分析师马特·艾斯莱特将大数据定位为“之前因为技术限制而被忽略的数据”。的确,尽管从数据中发现价值的实践由来已久,但是在大数据时代,数据的价值才真正被发掘出来,人们用数据说话、用数据决策、用数据管理、用数据创新的意识才真正被唤醒。

至顶网副总编赵效民提出了一个非常有意思的观点。他认为:“大数据的出现标志着人类在数据利用方面进入了一个新的阶段,它代表了一种理念(数据能源)、一种思路(从数据搜集到数据分析再到数据呈现的整体构想)和一种新工具(将结构化与非结构化数据和语义与机器化数据汇聚、统一处理、分析与呈现的工具)的集合。它赋予了人类认知数据的新能力,也进一步打开了人类在数据利用方面的想象空间。”

赵效民进一步阐述,放眼地球上的各种能源,就会发现大数据与其有太多相似之处。物质成为能源的前提在于人类对它们的认知。在远古时期,人类因雷电引火,发现了火和木材这两种能源。随着人类文明的进步,人类逐渐发现了越来越多的能源,比如煤、天然气、石油和太阳能。它们已经在地球上静静地存在了成万上亿年,只是在人类掌握了相应的科技与工具之后,它们才得到利用。数据也是如此,如果数据存在一个生成/采集-应用/加工-保存/管理-分析/挖掘-再保存或删除这样的一个周期,那么从其生成的那一刻起,它就存在应有的价值,只是在于你是否有能力发现它们。这需要新的理念、知识、技术与相应的工具。原始人即使知道地下有石油,也无法开采,对所谓的数据分析,道理也是一样的。

从人类发展的历史来看,不断发现新能源是一种公理似的注定。当我们掌握了越来越先进的理念基础,并依此开发出越来越先进的工具,出现新的惊喜可以说理所当然。就像刚发明汽车时,谁也不会想到电、水会成为汽车可行的燃料。从这个角度讲,当前的大数据所带来的种种神奇只是人类在数据搜集、管理和分析等领域的一次进步而已,它有出现的必然,而非人类的一种顿悟。

新的数据技术既是数据大爆炸产生的基础,也为应对数据大爆炸提供了解决方案。信息和通信技术的融合与发展,廉价的存储、传感器和数据采集技术的快速发展,通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,是驱动大数据发展的技术基础。这些数据分析技术横跨数据库、统计学和机器学习等交叉学科。

从某种角度讲,大数据其实就是人类能源开拓历史在信息技术领域的一种再现与映射。大数据中谈到的数据搜集、汇总、保存、管理、分析、呈现,与能源的勘探、开采、汇聚、保管、提炼、使用一一对应。在数据利用的愿景方面,大数据与原来的数据仓库、数据挖掘、商业智能等概念是同出一辙、一脉相承的。它是人类信息技术水平发展到一定阶段的必然结果。它赋予了人类对数据认知的新能力,也进一步打开了人类在数据利用方面的想象空间。

美国经济学家杰里米·里夫金提出了第三次工业革命的概念。在他看来,通信技术和能源技术的基础设施的变革是工业革命的主要推动力,并引发了经济和社会的转型。互联网技术与可再生能源的结合正在孕育第三次工业革命的基础设施-能源物联网。而第三次工业革命的主要内容便是解决前一次工业革命没有解决的问题。

在农业化浪潮中,一个木匠做家具可以是一把好手,但他在扩大再生产、创造社会化价值上是业余水平。在工业化浪潮中,生产者具有了大规模社会化地生产有用的东西的能力与环境,但是由于信息不对称,生产者的生产和服务经常是盲目的。生产者缺乏信息,不知道消费者需要什么,经常费了很大劲生产出市场不需要的东西,也就是创造了一大堆有价值而无意义的东西,因而实现不了价值。故第三次工业革命的使命便是通过信息化与数据化实现价值的最大化,通过个人对个人的一对一关系发展起来,以数据为中介,在经济上表现为多样化、差异性、个性化体验。

2012年4月21日,《经济学人》专题讨论了第三次工业革命,并强调3D(三维)打印是第三次工业革命的核心推动力。如同第一次工业革命实现了机器生产对手工作坊的替代,第二次工业革命实现了规模化生产一样,以3D打印为代表的数字化制造将推进新软件、新工艺、机器人和个性化网络服务的普及,最终实现大规模定制化生产、分散式就近生产。

为了提升中国在第三次工业革命中的发展速度,为进入下一个经济周期做好准备,我们的每一个企业、科研团队和政府,都有责任通过一些计划,有目的地搜集、处理、分析、索引数据,IBM(国际商业机器公司)设立了“智慧地球”项目,现在,中国也有一些行业(如通信运营商、金融银行企业单位、政府交通部门)在制订类似的行业计划,通过信息化改造实现海量数据的搜集和处理,这些数据在未来可能产生现在所想象不到的价值,也需要现在的企业家、政府部门做好准备。

总之,无论是以智能电网为基础的能源物联网,还是以3D打印为基础的数字化制造,大数据都是以第三次工业革命的“新石油”这一重要战略资源的形态存在。可以想象,未来云计算、物联网和大数据将成为基础设施,移动互联网和3D打印技术将成为共性平台,数据分析和机器人等人工智能控制将成为服务手段,那么数据、知识和价值的按需分配、多次挖掘将成为新经济形态的不竭动力。

3D打印

3D打印是以计算机三维设计模型为蓝本,通过软件分层离散和数控成型系统,利用激光束、热熔喷嘴等方式将金属粉末、陶瓷粉末、塑料、细胞组织等特殊材料进行逐层堆积黏结,最终叠加成型,制造出实体产品的技术。

普通喷墨式打印机将墨水喷到纸的表面形成二维图像。而在3D打印时,软件通过计算机辅助设计完成一系列数字切片,并将这些切片的数据传送到3D打印机上,后者会将连续的薄型层面堆叠起来,直到一个固态物体成型。3D打印机与传统打印机最大的区别在于它使用的“墨水”是实实在在的原材料。有些打印机还能结合不同介质,令打印出来的物体一边坚硬而另一边柔软。

这也与传统制造业通过模具、车铣等机械加工方式对原材料进行定型、切削以最终生产成品不同,3D打印将三维实体变为若干个二维平面,通过对材料处理并逐层叠加进行生产,大大降低了制造的复杂度。这种数字化制造模式不需要复杂的工艺、不需要庞大的机床、不需要众多的人力,直接从计算机图形数据中便可生成任何形状的零件,使生产制造得以向更广的生产人群范围延伸。

科学家们正在利用3D打印机制造简单的活体组织,如皮肤、肌肉和血管片段,未来某一天我们有可能制造出像肾脏、肝脏甚至心脏这样的大型人体器官。如果生物打印机能够使用病人自身的干细胞,那么器官移植后的排异反应将减少。人们还可以打印食品,比如康奈尔大学的科学家们已经成功打印出杯形蛋糕。英国埃克塞特大学的研究人员推出了巧克力3D打印机,其成熟的产品现已推向市场。

在莱尼的理论基础上,IBM提出大数据的4V特征,得到了业界的广泛认可。

第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;

第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;

三,速度(Velocity),即处理速度快;

第四,真实性(Veracity),即追求高质量的数据。虽然不同学者、不同研究机构对大数据的定义不尽相同,但都广泛提及了这4个基本特征。

天文学和基因学是最早产生大数据变革的领域。2000年,斯隆数字巡天项目启动时,位于新墨西哥州的望远镜在短短几周内搜集到的数据已经比天文学历史上总共搜集的数据还要多;在智利的大型视场全景巡天望远镜一旦于2016年投入使用,其在5天之内搜集到的信息量将相当于前者10年的信息档案。2003年,人类第一次破译人体基因密码时,用了10年才完成了30亿对碱基对的排序;而在10年之后,世界范围内的基因仪15分钟就可以完成同样的工作量。

我们周围到底有多少数据?数据量的增长速度有多快?许多人试图测量出一个确切的数字。

据他们估算:2007年,人类大约存储了超过300EB的数据;1986-2007年,全球数据存储能力每年提高23%,双向通信能力每年提高28%,通用计算能力每年提高58%;预计到2013年,世界上存储的数据能达到约1.2ZB。

这样大的数据量意味着什么?据估算,如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。如果存储在只读光盘上,这些光盘可以堆成5堆,每堆都可以伸到月球。在公元前3世纪,希腊时代最著名的图书馆亚历山大图书馆竭力搜集了当时其所能搜集到的书写作品,可以代表当时世界上其所能搜集到的知识量。但当数字数据洪流席卷世界之后,每个人都可以获得大量数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多。

随着传感器、智能设备以及社交协作技术的飞速发展,组织中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。

越来越多的数据挖掘趋于前端化,即提前感知预测并直接提供服务对象所需要的个性化服务。例如,对绝大多数商品来说,找到顾客“触点”的最佳时机并非在结账以后,而是在顾客还提着篮子逛街时。电子商务网站从点击流、浏览历史和行为(如放入购物车)中实时发现顾客的即时购买意图和兴趣,并据此推送商品,这就是“快”的价值。

在以上3项特征的基础上,IBM归纳总结了大数据的第四个特征-真实性。数据的重要性就在于对决策的支持。数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。

业界还有人把大数据的基本特征从4V扩展到了11V,包括价值密度低(Value)、可视化(Visualization)、有效性(Validity)等。例如,价值密度低是指随着物联网的广泛应用,信息感知无处不在,信息海量,但在连续不间断的视频监控过程中,可能有用的数据仅一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

国际数据公司报告里有一句话,概括出了大数据基本特征之间的关系:大数据技术通过使用高速的采集、发现或分析,从超大容量的多样数据中经济地提取价值。

除了上述主流的定义,还有人使用3S或者3I描述大数据的特征。3S指的是:大小(Size)、速度(Speed)和结构(Structure)。3I指的是:

(1)定义不明确的(Ill-de。ned):多个主流的大数据定义都强调了数据规模需要超过传统方法处理数据的规模,而随着技术的进步,数据分析的效率不断提高,符合大数据定义的数据规模也会相应不断变大,因而并没有一个明确的标准;

(2)令人生畏的(Intimidating):从管理大数据到使用正确的工具获取它的价值,利用大数据的过程中充满了各种挑战;

在人类利用信息的历史上,共发生了5次媒介技术革命,每一次媒介革命都催生了一次数据大爆炸,并推动人类文化实现跨越式的发展。

历史学家伊丽莎白·爱森斯坦发现,1439年前后,古腾堡发明印刷机以后(第三次媒介革命),1453-1503年,这50年大约有800万本书被印刷出来,比1200年前君士坦丁堡建立以来整个欧洲所有的手抄书还要多。换言之,欧洲的信息存储量花了50年才增长100%(当时的欧洲占据了世界上大部分的信息存储份额),而如今大约每3年就能增长100%。

这次媒介革命产生的数据洪流之猛烈,是前几次媒介革命难以企及的。美国电影《阿凡达》的制作团队动用了将近40000个处理器,电影制作过程中产生的数据量达到了3PB,而同期的美国国会图书馆存档网络数据大小不足100TB,也就是说制作一部《阿凡达》产生的数据量相当于30个美国国会图书馆的数据量。这仅是数据大爆炸的一个缩影。我们正在经历一场前所未有的数据大爆炸,不仅数据的容量在扩大、数据的种类在增长,数据产生的速度也在日益加快。

表3-1五次媒介革命

第一次媒介革命

人类史前时期

语言的出现:语言促进了人类思维能力的增强,并为人们相互交流思想、传递信息提供了有效的工具

第二次媒介革命

公元前3500年

第三次媒介革命

15世纪

印刷术的普及:书籍、报刊成为重要的信息储存和传播的媒体,打破了知识的垄断,极大促进了信息的共享和文化的普及

第四次媒介革命

19世纪中期

第五次媒介革命

20世纪中后期至今

计算机与互联网的使用:数字化、多媒体和网络化快速推进,人类进入信息社会,信息对整个社会的影响逐步提高到空前重要的地位,信息量、信息传播的速度、信息处理的速度以及信息应用的程度等都以几何级数的方式增长

媒介革命是形成数据大爆炸的重要原因。联合国报告认为,与经济社会发展有关的大数据一般都具有以下特征:

(1)数据是数字化产生的,可以进行数字化存储并通过计算机处理;

(2)数据是被动产生的,来自人们日常生活和活动中的数字化服务;

(3)数据是自动搜集的,在产生的同时被搜集并存储;

(5)数据是被实时分析的。这些特征使巨量数据的采集成为可能。在传统的数据采集方式下,例如通过登记申报、人口普查,要获得这样规模庞大、形式多样的数据是根本无法想象的事情。

希尔伯特研究发现:全球数字数据的数量每3年多就会翻一番,而模拟数据的数量则基本上没有增加。2000年,世界上3/4的数据都是存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上的模拟数据,数字存储信息只占全球数据量的1/4。2002年,数字技术的全球数据存储量首次超过模拟技术。而在2007年,只有7%的数据是存储在报纸、图书、图片等媒介上的模拟数据,其余全部是数字数据。预计到2013年,非数字数据只占不到2%。1986-2007年,纸质媒介存储的数据在全球数据总量中的比重从33%降到了的0.007%。

电子书替代了纸质书,数字影像替代了胶片影像,数字语音替代了模拟语音,数字视频替代了模拟视频,甚至公交卡替代了传统的公交票,存储在手机上的票据可以充当电影票、登机牌……当文本、图像、声音、视频都可以用1和0表示,都能够以数字格式记录、存储、编辑并传播时,数据便开始全面进入我们工作和生活。信息生产和传播变得更加简单,通过计算机智能化地处理这些信息成为可能。

数字化的力量是强大的。2010年纸质版《大英百科全书》,全套书售价

1395美元,包含32册,重达58.5千克。然而,它的全部内容还装不满一个4G的U盘。有鉴于此,《大英百科全书》的出版社于2012年3月对外宣布,具有244年历史的《大英百科全书》将不再推出纸质版,内容全面数字化。实际上,4年前,大英百科全书公司总裁乔治·考茨就曾表示,《大英百科全书》的网络版和电子版的发行量已经超过纸质版,纸质版的发行收入只占总收入的20%。

有研究认为,组织一直在分析应用的数据只占数据总量20%,这些数据主要是结构化数据,另外80%的数据并没有得到很好的利用,这部分数据主要是非结构化数据。

结构化数据是指在固定字段集合中存放的数据,如关系型数据和电子表格数据,属于传统的数据技术。非结构化数据是指难以用数据库二维逻辑表表现的数据,包括文本数据以及未标记的视频、音频和图像数据等。半结构化数据则介于两者之间,是用标签和其他标志划分数据元素的数据,可扩展标记语言和超文本标记语言都属于半结构化数据。广义的非结构化数据包括了半结构化和多结构化数据。

非结构化数据目前普遍被认为占数据总量的85%以上,而且增速比结构化数据快得多,有说法是快10-50倍。尽管上述数据的准确性有待研究确定,但无法否认的是,非结构化数据富含难以估量的价值,然而如何管理非结构化数据,把“数据坟墓”变成“数据金矿”却是一项新的挑战。

在医疗行业,既存在结构化的电子病历数据,也存在非结构化数据,包括病人描述病情的自然语言以及临床产生的X光片、CT(计算机X射线断层扫描)片、核磁共振片、病理切片等影像文件。这些数据在资料传递交换、临床全面展示和医学科研等方面有重要的价值,然而对于它们的整合利用还处于非常初级的阶段。再比如,到银行办理存贷款业务时,要复印很多证件,户口本、身份证、收入证明等,这些纸质原始资料都会以扫描或拍照的形式转化为电子文档,被永久保存起来。目前这些文档只起到了备查的作用,并没有被很好地开发利用。

非结构化数据管理能力是大数据的一项核心能力。在IBM发布的白皮书《分析:大数据在现实世界中的应用》中,报告了基于对全球95个国家、26个行业的1144名业务人员和信息技术专业人士的调研结果。在超过一半的大数据项目中,受访者表示其所在组织采用了先进技术分析自然状态的文本,例如,呼叫中心对话内容的文字记录。这些分析技术包括解释和理解细微的语言特征,包括情绪、俚语和意图等,帮助企业了解客户当前的情绪状态,获得能够直接用于推动客户管理战略的宝贵信息。

物联网

国际电信联盟发布的互联网报告如此定义物联网:通过二维码识读设备、射频识别装置、红外感应器、GPS和激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。

和传统的互联网相比,物联网有其鲜明的特征:

第一,它是各种感知技术的广泛应用。物联网上部署了海量的多种类型传感器,每个传感器都是一个信息源,不同类别的传感器所捕获的信息内容和信息格式不同。传感器获得的数据具有实时性,按一定的频率周期性地采集环境信息,不断更新数据。

第二,它是一种建立在互联网上的泛在网。物联网技术的重要基础和核心仍旧是互联网,通过各种有线和无线网络与互联网融合,将物体的信息实时准确地传递出去。在物联网上的传感器定时采集的信息需要通过网络传输,由于其数量极其庞大,形成了海量信息,在传输过程中,为了保障数据的正确性和及时性,必须适应各种异构网络和协议。

第三,物联网不仅提供了传感器的连接,其本身也具有智能处理的能力,能够对物体实施智能控制。物联网将传感器和智能处理相结合,利用云计算、模式识别等各种智能技术,扩充其应用领域。从传感器获得的海量信息中分析、加工和处理有意义的数据,以适应不同用户的不同需求,发现新的应用领域和应用模式。

正如牛顿力学三定律奠定了工业文明的基础,信息时代的三大定律也在驾驭着数字文明的快车,从而深刻改变着我们的世界。这三大定律就是摩尔定律、吉尔德定律和麦特卡尔夫定律。

李开复早在2000年就指出:“这些定律的意义非常重大,它们不一定会永远存在,因为网络经济几乎每天都在改变。但它们完全适用于今天的网络经济,这是无可置疑的。如果遵循它们,就有机会成功;如果不遵循的话,就一定会失败。”

1965年,英特尔创始人之一戈登·摩尔在计算机硬件的发展规律的基础上提出了著名的“摩尔定律”。该定律认为:同一面积集成电路上可容纳的晶体管数目每18个月会翻一番,与此同时,其性能也将提升一倍。

晶体管的集成度越高,其价格越便宜。在20世纪60年代初,一个晶体管要10美元左右,但随着晶体管越来越小,直到小到一根头发丝上可以放1000个晶体管时,每个晶体管的价格只有千分之一美分。这就使得物理存储器的性能在不断提高的同时,价格不断下降。1955年,IBM推出了第一款商用硬盘存储器,每MB的存储量需要6000多美元;而到了1993年,购买1MB的存储量只需大概1美元;2010年,这个价格又下降到不足1美分。多数专家都相信,计算机硬件技术将持续发展,价格还将下跌,直到2020年,摩尔定律将仍然有效。有人据此总结出“贝尔定律”,即保持计算能力不变,微处理器的价格和体积每18个月减小一半。

根据摩尔定律和贝尔定律,全世界数据存储和处理不仅越来越快、越来越方便,而且越来越便宜。国际数据公司估计,由于计算机技术进步的持续推动,2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资2005年以来反而上升了50%。国际数据公司认为,数据产生成本是符合反摩尔定律的,即数据产生成本大概每两年下降50%,而这一趋势起码会持续到2015年。数据产生成本的下降和投资规模的增加成为催生大数据时代的基础。

吉尔德定律又被称为“胜利者浪费定律”,由乔治·吉尔德提出。该定律认为,最成功的商业运作模式是价格最低的资源将被尽可能地消耗,以此保存最昂贵的资源。在蒸汽机出现的时代,因为蒸汽机的成本已经低于当时传统的运输工具马匹,因此聪明的商人将蒸汽机投入使用。如今最廉价的资源就是计算机及网络宽带资源。据此,吉尔德预测:未来25年,主干网的带宽每6个月将翻一番,其增长速度是摩尔定律预测的中央处理器增长速度的4倍。

根据国际数据公司的统计数据,2005年的全球数据流量为1300亿GB,到2010年,这个数据增加了近900%,达到了12270亿GB,过了两年,到2012年,数据量又翻一番。预计到2020年,数据流量将是2010年的30多倍,达到40ZB。数据流量近几年每年翻一番的现实使得对数据基础设施的需求和投资极为旺盛。今天,几乎所有知名的电信公司都在乐此不疲地铺设缆线。而当带宽变得足够充裕时,上网的成本也会下降。

根据吉尔德的观点,在可预见的将来,总有一天,人人可以免费上网。他认为正如20世纪70年代昂贵的晶体管如今变得如此便宜一样,主干网如今还是稀缺资源的网络带宽,有朝一日会变得足够充裕,上网的成本也会大幅下降。实际上,在美国,今天已经有很多互联网服务提供商向用户提供免费上网服务。

随着带宽的增加,将有更多设备能以有线或无线的方式上网。而移动通信技术的发展则产生了3G(第三代移动通信技术)。3G与2G(第二代移动通信技术)的主要区别是传输声音和数据的速度上的提升,3G手机等移动客户端因此具有了处理图像、音乐和视频流等多种媒体信息的能力。4G(第四代移动通信技术)则集3G与WLAN(无线局域网络)于一体,能够以100Mbps(兆位/秒)的速度下载,比拨号上网快2000倍,上传的速度也能达到20Mbps。4G网络能够传输高质量的视频图像,满足几乎所有用户对无线服务的要求。如同各行业的营业执照一样,由工业和信息化部许可发放4G牌照后才可经营4G业务。目前,中国移动、中国电信、中国联通已获颁4G牌照。而中国移动则表示,到2013年年底,中国移动4G网络覆盖将超过100个城市,4G终端采购将超过100万部,覆盖人口超过5亿,从而建成全球最大的4G网络。

泛在计算

支撑物联网的技术基础是泛在计算,而实现“无所不在计算”的网络称为泛在网。

在泛在计算的环境中,无线传感器网络将广泛普及,整个世界是一个网络的世界,数不清的为不同目的服务的计算和通信设备都连接在网络中,在不同的服务环境中自由移动。泛在计算的目的是建立一个充满计算和通信能力的环境,同时使这个环境与人们逐渐地融合在一起,在这个融合空间中,人们可以随时随地、透明地获得数字化服务。平板电脑等移动设备、谷歌文档或远程游戏技术等云计算应用程序、4G或广域WiFi等高速无线网络将整合在一起,削弱计算机作为获取数字服务的中央媒介的地位。随着每辆汽车、每台照相机、每块手表以及每台电视都拥有几乎无限的计算能力,计算机将彻底退居幕后,以至于用户感觉不到它们的存在。近年来,在物联网、互联网、电信网和传感网等网络技术的共同发展下,实现社会化的泛在网也逐渐形成。而基于环境感知、内容感知的能力,泛在计算为个人和社会提供了泛在的、无所不含的信息服务和应用。如今,随着手机支付、医疗监控等一批移动通信新应用的不断涌现,有望促成移动通信网向智能网络的成功转型。与此同时,为了适应泛在计算兴起的需求,移动通信网也必将迎来一系列的变革。

麦特卡尔夫定律的提出者为以太网的发明人罗伯特·麦特卡尔夫。该定律认为,网络的价值同网络用户数量的平方成正比,即N个连结能够创造出N的平方的效益。

传统经济时代最稀有的东西是最有价值的,所以人们为使自己立于不败之地,往往不愿意共享技术和信息,也就是中国人常说的“独门绝技”。但在网络经济时代,共享程度越高,拥有的用户群体越大,其价值越能得到最大程度的体现,而闭关自守、不愿将信息和技术与他人共享是没有出路的。因此,如何充分领会麦特卡尔夫定律的实质,转变思想,摆脱传统模式,进一步适应网络经济时代的新挑战,已经成为所有组织必须考虑的问题。

按照摩尔定律和吉尔德定律,未来的计算机成本将持续回落,网络将呈指数级发展;随着网络用户数量迅速膨胀到数以亿计,网络的价值越发不可估量,这又与麦特卡尔夫定律不谋而合。这三大定律是有机统一的,它们勾勒出信息技术发展的历程,也是大数据运作的基础。

IBM资深大数据专家杰夫·乔纳斯提出要让数据“说话”。这听起来很平常,但是要做到并不容易。

随着数据量越来越大,数据格式越来越多元化,数据产生的速度越来越快,数据的处理也变得越来越困难。如何应对大数据是摆在我们面前的大考验。如果处理不好,大数据就会成为大包袱、大问题;如果应对得当,大数据则会带来大价值。但要做到这些,首先需要就我们对于数据价值的认知、利用进行一次颠覆性的改变。

测量一切可以测量的东西,把一切还不能测量的东西变成可以测量的东西。

——伽利略

“不会量化就无法管理”已成为管理学界的共识。借助“一切均可量化”的技术背景与思维方式,在这场大数据的思维革命后,未来的政府以及企业可以获得更多基于管理对象的知识,以精准地量化和管理,实现更可靠的预测和更明智的决策。

“一切皆可量化。”这是斯蒂芬·贝克在《当我们变成一堆数字》一书中提出的观点。

在那本汇聚数字报告和分析的力作中,斯蒂芬·贝克向我们展示了我们正在进入一个鲜活的量化世界,告诉我们谁在支配人类:每一天,我们的身后都拖着一条由个人信息组成的长长的“尾巴”,我们点击网页、切换电视频道、驾车穿过自动收费站、用信用卡购物、使用手机等行为-这些过去完全被忽略的信息,现在都通过各种方式被数据化记录下来。数学精英正千方百计地以惊人的准确性测量和剖析我们的每个举动,将我们标注为工薪族、购物者、恋人、选民、博主,甚至抑郁症患者。

耶鲁大学计量经济学和法学教授伊恩·艾瑞斯在《超级数字天才:为什么用数字思考是变聪明的新方法》一书中谈到,每个人的各种个人信息,即经常在哪个商店购物、常买哪个牌子的衣服,甚至每一次消费的记录、收到的每一张超速罚单,人类在生活中产生的足迹都可以被数据化地记录。

现代记录和存储信息的技术进步让这些数字足迹纷纷现形,大大丰富了公共管理的手段。美国政府已经着手进行恐怖分子追踪的大数据挖掘计划。美国政府认为如果恐怖分子要策划一次袭击,必定会在各个角落留下某种痕迹,通过对在各个部门产生的这些数据进行挖掘,就能发现和追踪恐怖分子。广东省地税集中征管信息系统系统自动将采集的异常征管数据变为任务模式,主动推送给税收管理员,帮助税收管理员清楚了解纳税户现有和潜在的不规范的纳税行为,增强税源管理的针对性和实效性,同时也为纳税人降低了纳税遵从风险。

佛蒙特大学的幸福测试仪

幸福能够测量吗?2011年,佛蒙特大学的克里斯多夫·丹佛斯主持了一项关于幸福感的研究,不仅检测出了世界各地人们的幸福度,还研究出了幸福度与地理位置这两类看似风马牛不相及的信息之间的关系。

一条微博不仅能反映当下的热点话题,还会暴露发布者的情绪信息和位置信息。丹佛斯从全世界逾18万用户发布的3700万条推特信息中,筛选出带有用户精确地理位置信息的信息,这类信息约占总体的1%。为了评估用户的幸福度,佛蒙特大学的研究小组研制了一种幸福测试仪:这种测试仪能检测出文本中表示积极、快乐情绪的词汇(比如,“新鲜的”、“极好的”、“咖啡”和“午餐”)以及表示消极情绪的词汇(比如,“没有”、“不”、“讨厌”、“该死的”、“无聊的”)。幸福测试仪会以此为根据,评出每一条信息的幸福指数。

丹佛斯感兴趣的问题是:信息的内容怎样随用户离家距离的变化而变化。那么怎样才能知道用户的家在哪里呢?当数据搜集上来后,结果一目了然。人们通常会有两个最常去的地方,且这两个地方相距不远,其中一个是家,另一个就是工作地点。

研究还发现了另一个有意思的现象:离家越远,人们所发信息中含有的开心词汇越多。所以,如果你感觉情绪低落或者工作劳累、焦虑,那么就来一次说走就走的旅行吧!

通过GPS,方向和位置可以被数据化;对微博状态进行分析,心情能够被数据化;安装了感应器,空气质量能够被数据化……信息技术的发展为我们打开了一扇大门,世界上那些从未被量化过的层面顿时以丰富多彩的数据形态呈现在我们面前。

对学校教育而言,最大的难题是如何克服一对多讲授的不足,为每个学生提供个性化的、持续性的指导和评价。现在的在线课堂可以做到这一点。

为了搜集尽可能多的学习行为数据,哈佛大学和麻省理工学院斥巨资打造了大量优质课程,免费供世界各地的学习者们使用。这些数据将被用来改进学校教育,进而巩固其在教育界的领航者地位。

诚如舍恩伯格所预言的那样:“将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。”

一切事物背后都隐藏着未被发掘的数据。如果你没有大数据的理念,很可能与很多有价值的数据失之交臂。比如某城市的公交车因为不分段计价,所以能够反映重要通勤信息的数据被工作人员“自作主张”地丢弃了。一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。

谷歌数字图书馆

正如活字印刷取代雕版印刷,将汉字、字母分离,再自由组合到一起,大幅提升了印刷的效率,推动了知识的传播与普及。如今,谷歌电子图书馆正在通过现代识别软件,把纸质书籍、图片数据化。

在项目初期,谷歌主要是使用扫描仪对实体书的内容进行电子化存储,于是珍藏在美国国会图书馆里的书本内容就变成了能在亚洲某个大学教室里使用的电子课件,这种网络的数字化传播方式极大地方便了渴望求知的人。但是这种电子化的读书方式首先需要读者明确自己所搜寻的内容,其次借助搜索引擎在浩如烟海的数字化图书海洋中找到自己需要的内容。因为没有对数字文本的内容进行数据化的处理和分析,谷歌数字图书馆中实际只储藏着这些书本的扫描图片。

近两年,随着识别软件和通信技术的发展,谷歌得以把这些数字化的图片转化为可处理的数据,使之“跃然纸上”。借助能识别数字图像的光学字符识别软件转化扫描图片上的字、词、句、段,如此处理后,谷歌的数字化图像也就顺利地转化为数据化的内容,让这些信息的潜在价值得到最大程度的释放,打造一个开放又可关联的知识世界。

“一只南美洲亚马孙河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可以在两周以后引起美国得克萨斯州的一场龙卷风。”麻省理工学院专家洛伦兹把这种现象称作“蝴蝶效应”。它告诉我们,一件表面上看来毫无关系、非常微小的事情可能与千里之外的一件事情发生关联,并且带来巨大的改变。

在大数据时代,万事万物都可以被数据化地描述出来,建立特定的模型,通过复杂的计算,向我们呈现一个充满关联的世界。

寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难且用途不大,人类还是习惯提出“为什么”。在日常生活中,人们总是热衷于用因果关系看待周围的一切。科学家们也都在努力探寻现象背后不变的真理与因果关系,以作为后续行为的指导。

进入大数据时代,如潮的数据涌来,信息更新和环境变迁的速度远快于我们思考和验证的速度,纷繁复杂的关系需要我们快速地梳理,我们无须知道现象背后的原因。

在气象经济学界流行这样一条“德尔菲气象定律”,即气象投入与产出比为1∶98,也就是说,在气象信息方面每投入1元,就可以得到98元的经济回报。一个典型的例子是,气温每降低1摄氏度,北京市燃气供暖系统日消耗天然气将增加约200万立方米。如果提高气象预报的精度,实时对供暖系统进行合理调控,无疑将节省一笔很大的能源消耗和经费开支。

从有人类智慧起,我们便努力学习预测明天的天气,进而决定是否播种,预测哪块土地不会被河流淹没,预测自己的疾病何时能痊愈,预测子孙能否平安健康。人类一直想要通过认识现在、理解过去,以获得对未来的预测。

起初,许多人的“知识”是基于迷信和预感,所以在原始社会,“巫师”是一个令人敬畏的群体,因为他们能通过手里的“水晶球”看到未来的世界。

1947年,第一台计算机问世一年后,管理大师赫伯特·西蒙就像先知一样指出:人类所有的决策都是基于有限理性的结果,如果能利用存储在计算机里的信息辅助决策,人类理性的范围将扩大,决策的质量就能提高。在后工业时代,人类社会面临的中心问题将从如何提高生产率转变为如何更好地利用信息辅助决策。

只有预测才能做到“未雨绸缪”。美国运输公司USXpress通过“任何数据都不能少”计划,从成千上万的货车运输系统中搜集了900个数据元素,包括轮胎和汽油使用的传感器数据、引擎运行、货运车队的地球空间数据,以及货车司机博客上的抱怨。这些数据经过集成处理和分析,对车辆进行预防性维护。你可以预测哪辆车的哪个部件什么时候可能出故障,因此,你不用等到这辆车实际抛锚了再维修。

如果说传统管理流程是出现问题-逻辑分析-找出因果关系-提出解决方案的事后“救火”模式,大数据战略下的管理流程则是搜集数据-量化分析-找出相互关系-提出优化方案的正向思维模式。越早用大数据武装自己的思维,获得最佳预测的机会越多。接下来,就让大数据“水晶球”转动起来。

用大数据拍一部热播美剧

“大象无形”出自老子的《道德经》,可以理解为世界上最巍峨的气势往往并不拘泥于一定的规则和格局,而是表现出气象万千的形态,无法捉摸。但在大数据时代,这种无法捕捉的“气”和“形”也许会随着技术的发展被描绘出来。

过去,随机抽样一直被公认为一种最有效率的数据搜集方法。样本选择的科学性比样本数量更重要,统计学家这样告诉我们如何精确预测。抽样的目的是用最少的数据得到最准确的信息,抽样的科学程度(尤其是样本的随机性和代表性)对于统计结果的准确性至关重要。在传统数据思维下,寻找更大的样本量根本没有必要。因为当样本量达到一定程度后,我们从新增的个体样本上获得的信息只会越来越少,呈现出边际效应递减的规律。因此,并不是数据越大越好。

然而,统计学家们已经开始抱怨抽样方法的缺陷:它注定让我们无法观察事物全面的细节,抽样结果会受到主观偏见的影响,有如盲人摸象。有人说,用抽样的方法分析整体人口状况时,正确率能达到97%,但也许正是那被忽略的3%会完全颠覆已有的结论,尤其是当我们想了解更深层次的微观情况时,抽样方法就有些爱莫能助了。例如,1000人看似是一个比较大的样本,但如果将研究对象细分至一线城市大龄单身女性,符合条件的可能只有10多个样本。从这样小规模的数据中,无法分析出任何有意义的结论。

即便不抽样,动员大量人力、物力进行普查,也是在事先确定调研问题和被访问人群后才开始执行的。从有限的问卷题目中,注定只能看到事物的某几个方面,无法获得更加客观和深入的信息。

以前由于缺乏存储和处理全量数据的工具,我们通常把这种无奈看作理所当然。在大数据时代,“样本=全体”的数据处理模式已经成为可能。我们可以分析更多的数据,而不再依赖于随机抽样。

谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美网络搜索市场,而在这些数据中,已经完全没有必要抽样调查这些数据:所有的记录都在数据仓库躺着等待人们挖掘和分析。

大数据导航的自动驾驶汽车能够实现360度全方位感知,安装在驾驶室内的摄像头会识别交通指示牌和信号灯,轮胎附近的传感器可以根据速度和方位推算汽车当前所在的位置,而连接GPS和谷歌地图的路线系统可以让它找到通往目的地的最快捷路线。

执著于精确性是信息缺乏时代的产物。传统的数据分析师很难容忍数据中存在的错误和噪声,他们会花大量的精力让数据更加精确和标准,提升基础数据的精准度以降低分析结果的错误概率。

曾经我们大部分的习惯都建立在一个预设立场上,即用来进行决策的信息必须是少量、精确且至关重要的。然而,当数据量变大、数据处理速度加快且数据变得不那么精确时,这些预设立场都不复存在了。随着互联网的发展,特别是社交媒体、电子商务以及智慧终端的快速发展,数量巨大的数据碎片时刻都在产生。这些数据来自不同的渠道、不同的领域,有着不同的格式与标准。数据的杂乱变得不可避免,如果只是执迷于数据的精确性,你可能会感到无所适从。

在大数据时代,我们完全可以用一种更轻松的心态看待杂乱性,并接受它带来的精确性问题。试想,如果杂质是偶然的,它一定会被更多的正确数据淹没;如果噪声存在规律,足够多的数据可以发现这个规律,从而过滤噪声;如果误差是内在的必然性,更多样化的数据采集和信息融合也必然能纠正误差。例如,GPS在监测地理位置时可能有几十米的误差,但加上了地图数据可以保证导航准确性。基于单个摄像头的车牌抓取和识别可能受光照条件、空气能见度、车辆运行速度和遮挡情况的影响,但获得的部分信息(不完整车牌和车辆特征),可以与其他摄像头获取的信息进行对照和相互印证。现代技术让我们能够对庞杂的数据进行快速高效的整理,帮助我们做出更好的决策。

大数据所依仗的就是数据量大。要想获得大数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。接受数据的不完美和不精准,承认它们的杂乱,我们才能够更好地进行预测,更好地认识和理解世界万物。一旦我们能正确地看待各类数据存在的价值,我们就会发现完全不必为数据的杂乱烦恼,拥抱数据的杂乱让我们进一步接近事实的真相,更加全面地认识这个世界。这就是大数据最美的地方。

基于数据发现的五种知识类型

(1)广义型知识:根据数据的微观特性发现其表征的、带有普遍性的、高层次概念的、中观或宏观的知识。

(2)分类型知识:反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识。用于反映数据的汇聚模式或根据对象的属性区分其所属类别。

(3)关联型知识:反映一个事件和其他事件之间依赖或关联的知识,又称依赖关系,这类知识可用于数据库中的归一化、查询优化等。

(5)偏差型知识:通过分析标准类以外的特例、数据聚类外的离群值、实际观测值和系统预测值间的显著差别,对差异和极端特例进行描述。

舍恩伯格在演讲中说:“我们可以看到一个全球性的趋势,就是从原来的生产制造的思维方式到把自己视作一个数据的平台。”未来竞争优势不一定来自制造,而是来自数据,来自搜集、分析和使用数据的能力。

数据的价值从来没有像现在这样受到人们的重视。通过思维变革,重新审视自己在这个大数据时代所处的位置,应当是每一个身处大数据时代的组织和个人必须思考的问题。

在大数据时代,决策者需要通过一场思想启蒙运动树立这样的大数据观:数据不是累赘,采完、用完数据不要急着扔掉,把它存起来,因为数据的存储和搬运成本越来越低,而数据的价值将越来越大。

“数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在海面之下。”舍恩伯格不止一次地强调由数据产生的知识价值。“数据的价值在变。以前小数据的时代,数据的价值是一次使用的价值,也就是在我们搜集使用一次之后就没用了,但是在未来真正的数据价值在于一而再、再而三地使用这些数据,它的价值从第一次使用到第二次使用可能会翻两番,所以数据的再使用更重要。”

Inrix是美国西雅图的一家交通数据公司,它的业务是帮助人们导航,用实时的交通流量数据帮助上下班的人避开交通堵塞。然而最近,它开始做起了经济预测的生意。

2011年,美国经济复苏放缓,虽然政治家们极力否定这一事实,但是增长放缓的信号还是被Inrix披露了出来。Inrix分析发现,上下班高峰期的交通状况变好了,说明失业率上升、经济状况变差了。同时,Inrix把它搜集到的数据卖给了一支投资基金,这支投资基金把交通情况视作反映一家大型零售商场销售量的信号,一旦附近车辆增多,就说明商场的销售量会增加。在商场的季度财政报表公布之前,这支基金还利用这些数据分析结果置换了商场的一部分股份。大数据的分析和重复使用为Inrix创造了巨大的价值。

不同于物质性资源,大数据资源的使用是非竞争性的。数据的价值不会随着它的利用率提高而减少,数据可以不断被处理、不断产生新的价值。而今,数据不再是静止和陈旧的。对已有数据进行创新整合、多次挖掘,已成为抢占数据红利的强大武器。

对于大数据落地的可行性,你的脑海里可能产生一个疑问:大数据对于那些资金充足、装备了高科技的大型组织而言能够发挥强大的作用,但是现在在中国,大量存在的都是传统的组织、中小型组织,它们如何利用大数据构建竞争优势呢?你可能还会问:目前,我没有身居高位,资源调动能力有限,我能够在本职岗位做点儿什么?

这两个问题回答起来既简单也复杂。

简单是因为在大数据时代比拼的不是规模,而是思路。

以往,人们认为组织规模越大越好,组织大才能实现规模效应,组织大才能钱多好开路、人多好办事;认为要启动大数据,就必须投资建自己的数据库,建大量的信息基础设施。就像网络搜索巨头公司谷歌,它拥有100万台服务器,办公机构遍布全球各地,这是以规模制胜的。而在大数据时代,大象和蚂蚁一起跳舞,大组织和小组织所面临的机会是均等的。资金已不是制约发展的首要障碍,技术的难题得到解决,需要比拼的核心竞争要素是是否具备大数据的思路。一家网络公司每天要处理的数据量达到数十亿,但是这家公司规模却很小,只有30人,而且它自己连一台服务器都没有,完全通过云的基础架构得以实现。

思路决定出路,眼光决定成败。要笑傲数据江湖,首先必须成为一个大数据主义者,要意识到数据的重要性,意识到数据是组织成功的重要资源;要对传统的数据利用思维进行变革,拥抱数据的杂乱,积极寻找万事万物之间的数据关联;要告别“数据小农”心态,积极把数据负担变成数据红利。如果你能想明白这些事情,那么恭喜你,你已经在大数据时代抢占了先机。

接下来再回答复杂的问题。

大数据是成为组织内最大的资产,还是成为其最严重的负担,取决于为应对数据量、复杂性、多样性和快速度所部署的战略和解决方案。然而实际情况是,我们的很多组织并没有足够多的数据和足够强的数据搜集、处理能力。

面对扑面而来的大数据热潮,我们应当还原其本质,将精力放在应该投放的地方:数据采集的渠道够广吗?数据汇聚的能力够强吗?数据管理是不是过于复杂?数据处理能力是不是太弱?数据分析是不是缺少智能?数据的呈现是不是易用性与友好度不高?在可预计的未来,这些都将成为组织和个人的一种基本能力。在下一章,我们将就这些问题进行深入的探讨。

THE END
1.我校《面向可得可靠可用的高校数据治理实践》成功入编2024年近日,教育部教育管理信息中心公布了2024年数字化赋能教育管理信息化建设与应用典型案例名单。我校信息化建设与管理办公室提交的《面向可得、可靠、可用的高校数据治理实践》案例成功入编此份案例榜单。 “十四五”期间,我校成功构建了基于大数据实践的工具型数据中台——“明远数栈”。该平台通过全面收集、系统整合及深入https://info.scu.edu.cn/info/1017/2331.htm
2.教育信息化成都团队应邀参加国家资源平台应用培训活动 2024-11-21 AIGC赋能 “智”驭未来 2024-11-19 成都教师团队在全国论坛上分享成都人工智能教育经验 王敏红:STEM创新教育的思考与分享 2016-11-25 教育大数据研究综述 2016-11-25 【蓝皮书】教育大数据的采集技术 2016-11-25 https://www.cdjky.com/channels/359.html
3.梨花教育获评新华网教育论坛“数字教育优秀案例”新闻频道在这样的时代背景下,此次新华网的教育领域优秀案例荣誉,是对梨花教育在数字新职业教育领域所取得成就的充分肯定。未来梨花教育通过不断丰富数字教育应用场景和服务水平,积极引入现代信息技术,打造线上线下相结合的教学平台,推动数字技术与传统教育融合发展,进一步推动数字教育的创新和发展,为成人教育的全面发展赋能,为构建https://news.hexun.com/2024-12-16/216204047.html
4.互联网早报7月30日星期四4、神州数码TDMP数据脱敏系统成功签约平安人寿大数据平台脱敏项目 5、小雨伞保险发布新书《做自己的保险规划师》,致力保险理念知识科普 住房地产 1、万通地产更名为“万通新发展集团”,向多元化发展调整 2、华侨城9.63亿挂牌与万达地产合资公司的60%股权及债权 https://maimai.cn/article/detail?fid=1508607847&efid=B3km989TtpCZ2Oggw4PHWA
5.长沙公共资源交易电子服务平台大数据显示系统 小型计算机 1、平台可通过集成图书馆各系统终端数据,形成对大数据提取、分析、统计,从此实现智慧化管理,为管理者提供准确高效的数据支持。2、平台可同时部署于管理者电脑、展示在原图书馆大屏、也可通过手机随时随地查看。进出馆人次实时统计、图书借阅排行统计、热门图书排行榜、图书借还统计(在馆图书、https://fwpt.csggzy.cn/jyxxzczbgs/28373.jhtml
6.聚力2020丨数研院14款科研产品齐亮相进而演化出数研院“专业建设-师资培训-教学科研平台-实习实训平台-新工科认证-BDCI数据智能大赛-打通产业与就业通道”的“产、学、研”结合的闭环人才培养体系,已与河南省十余所高校达成不同层次合作。 新学科AI会客厅 智慧教育联合实验室工程师姜志强进行产品介绍https://www.ictbda.com/article/311/
7.华橙数字智能校园视觉管理系统数据中台华橙数字智能校园视觉管理系统 生态环境智能监测创新应用的关键词是应用,其核心是数字化,信息建设是其基本保障。充分发挥科技创新驱动的新驱动力,要求高速公路抓住发展机遇,转变发展理念,注重科技创新,加快大数据推广5G、人工智能、新材料、新能源等前沿技术在高速公路行业的应用,加快智能高速公路建设,加强与新基础设施的https://www.yixinjie.net/news/show-17668.html
8.辽宁省大学生智慧就业创业平台沈阳捷登教育培训学校 沈阳市沈河区惠工街217号,德郡7号大厦,1619(集团总部面试地址) 高中物理教师软件测试工程师,软件测试工程师,java开发工程师,人力资源管理,大数据开发,java开发工程师,大数据开发 金橙财税服务(辽宁)有限公司 辽宁省沈阳市铁西区建设中路1-1号(901) 工商助理会计(主办会计培养岗https://bys.lnrc.com.cn/zphui.do?method=view&pkid=a8b9ef9b-df9e-4548-a386-2d773830dddf
9.社区智慧心理云平台系统(社会心理服务体系)智慧心理云平台(大数据云平台)多级管理的大数据云平台,各平台间数据互相独立,且可以实现信息资源共享。该社会心理服务云平台还可以对工作人员及社区心理服务工作人员进行心理体检,系统预留接口提供后续接入,是定期组织社会心理服务活动的重要工作平台。http://ygxinjian.com/photodetail_photo_6533.html
10.中国煤科常州研究院副总经理陈晓晶分享煤矿智能化综合管控平台智能矿山基础信息平台基于工业互联网架构体系,结合煤炭工业大数据平台实现煤矿环境安全监控、人员定位、“掘、采、运、通、排”等生产环节的监测监控、安全生产管理、经营管理数据信息等多模态海量异构数据的采集、治理、计算与存储,并具备低延迟控制指令下发与业务工作流驱动机制,在同一平台实现数据融合、协同控制、业务联https://www.zyny.org.cn/newsinfo/3111691.html