在看《大数据》之前,我只知道社会越来越数字化了,看完之后,才觉悟到:人类将迎来一个新的时代。
数字化已经把我们带入一个信息时代,大数据却把我们卷进了一场科技风暴之中,这本书中,作者为我们开启了一个更包容更广阔的新时代,大数据把社会的方方面面融合在了一起,曾经看似因果联系紧密的事物,可能变得不再那么重要;毫无关联的事物,可能隐藏着重要的信息,从科技、商业,到医疗、政治、教育、文化,大数据一概席卷囊括,它改变着我们的传统思维,为这个时代注入了新鲜的血液,就像作者书中所说:“这项技术终将改变我们所居住的星球上的许多东西。”
大数据最显著的影响是对于电子商务,通过大数据,最先洞察出潜在市场的,也必然最先占领市场。而电子商务对实业的冲击又是势不可挡,可见,掌握了大数据就主导了市场,拥有了先进的科技才能拥有坚实的竞争力。在医疗方面,曾经的非典时期,就是一个很好的例证,正是有大数据的预测功能,才使疫情得到了控制。在更小的方面,他也同样改变着我们的生活,书中提到美国著名计算机专家奥伦·埃齐奥尼发明了飞机机票价格预测软件,就是利用大数据造福我们生活的很好例子。
这本书中作者提到最多的是:改变我们的传统思维,摒弃精确性转向宏观。从总结因果转向预测。这个世界正以惊人的速度向前发展,数据大爆炸的波及范围远超乎我们的想象,单纯靠人类的主观判断力是多么的有限,大数据早晚会取而代之这一现象,这必将影响我们的生活和工作,我们也只有认清这种趋势,改变思维,调整步伐,紧跟时代才行。即使不能与时代同步,也尽量做到避免固步自封,认识大数据、利用大数据趋利避害,为我们的生活造福!
近年来,大数据技术如火如荼,各行各业争先恐后投入其中,希望通过大数据技术实现产业变革,银行作为数据密集型行业,自然不甘人后。我行在大数据分析领域,也进行了有益的探索,并且有了可喜的成绩。作为从事内部审计工作的农行人,我们长期致力于数据分析工作。但受内部审计工作性质的限制,我们也苦于缺少有效的数据分析模型,不能给审计实践提供有效的支持。这次培训,我正是带着这样一种期待走进了课堂,期望通过培训,打开审计的大数据之门。
通过这次培训,使我对大数据分析技术有了全新的认识,对审计工作如何结合大数据技术也有了一些思考。
一是审计平台技术架构可以借鉴数据挖掘平台。目前,审计平台采用单机关系型数据库。随着全行业务不断发展,系统容量不断扩充。超过45度倾角的数据需求发展趋势,已经令平台不堪重负。这次培训中介绍的数据挖掘平台技术架构,很好地解决了这一难题。挖掘平台利用大数据平台数据,在需要时导入、用后即可删除,这样灵活的数据使用机制,即节省了数据挖掘平台的资源,又保证了数据使用效率。审计平台完全可以借鉴这一思路,也与大数据平台建立对接,缓解审计平台资源紧张矛盾。
这次培训对于我来说,只是打开了一扇窗,未来大数据分析的道路还很长、也一定很曲折,但我也坚定信念,要在这条路上继续努力,所谓“独行快、众行远”,有这样一批共同走在大数据分析路上的农行人陪伴,相信农业银行大数据之路必将有无限风光。
《大数据》不是一本纯技术的书籍,作者用美国多年来丰富而详细的案例说明了大数据的趋势和发展历程,大数据的初衷就是将一个公开、高效的政府呈现在人民眼前。书中从美国《信息自由法》说起,其发展历程充满了坎坷,经过各个时期信息自由倡议者的努力,终于出现端倪,并迅速成长,充分体现出美国政府的信息必须被公开,以及个人的隐私必须被保护。人类可以“分析和使用”的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。
《大数据》开篇讲述美国《信息自由法》历经多任总统,其中有支持者,也有反对者,最后终于签发,标志都美国进入信息公开及隐私保护的大数据时代。现如今全世界现有60多个国家制定、实施《信息自由法》。
有了这么多数据,应该如何利用
首先,在治国方面。1.循“数”管理,减少交通事故死亡人数。2.用数据进行医疗福利打假,可为政府节省开支。3.警方通过CompStat系统,分析犯罪数据,预知犯罪地点。
其次,商务智能方面。1.数据仓库,2.联机分析(OLAP),3.数据挖掘,4.数据可视化。
当然随着数据的增多,如何收集和使用这些数据,就需要制订一系列的法则。1.收集法则:减负;2.使用法则:隐私;3.发布法则:免费,4.管理法则:质量。其中数据质量最为重要,为了保证数据质量颁布了《数据质量法》,同时也带来了困惑,即给商业组织带来了质疑政府公布数据质量的手段,对于这一手段,满足其商业利益,是民主与商业组织之间的对抗和冲突。
同时,统一分析和使用大数据与个人隐私产生的冲突。通过中央数据银行和全国统一ID就获得某个人一生的行动,违反了个人隐私法,但不分析这些信息,又可能导致黑客的袭击,最终以保护个人隐私胜利,但政府还是想执行统一身份认证。
奥巴马的上任加速了政府数据开放的进程,奥巴马上任后立即任命首席信息官,由首席信息官在4个月内推出政府大数据网站,在互联网上为民众提供开放的政府数据。阳光基金会和个人利用开放数据开发出各种分析工具,充分体现出数据价值。
但公益组织并不满足开放数据的数量,为了让民众监督一个更为公正透明的政府,公益组织要求公开白宫访客记录,但这并不是一个简单的要求。经过公益组织不懈的努力,白宫终于公开了访客记录,但公益组织发现了更多的问题,白宫也提出将继续修改访客记录的方式。
大数据有效的监督了政府的公正与民主。民主不是一个结果,而是参与的过程,人民要不断的争取才能实现民主。
本书结尾也较详细的描述除美国外,其它各国通过大数据走向民主的进程,充分说明了这一进程是一个大趋势。首先,英国紧随美国后面实施数据开放,虽然晚于美国,但发展飞快,开放的数据量已超过美国。其次,即美、英两国开放数据之后,更多的国家也加入到其中。20__年9月20日,8个国家宣布成立“开放政府联盟”,要想加入需具备4个条件:1.财政透明,2.信息自由,3.财产公开,4.公民参与。截止20__年4月25日已有50个国家加入。
在大数据时代,数据就是直接的财富,数据分析和挖掘能力就是国家、企业的核心竞争力。中国应该摘下千百年来差不多先生的标签,尽快赶上西方国家大数据的步伐。
一是政府业务数据库公开的广度和深度。近年来,随着我国信息公开工作的推进,各级政府都在通过政府门户网站建设积极推进网上政务信息公开,但我们的信息公开,现阶段还主要是政府的政策、法律法规、标准、公文通告、工作职责、办事指南、工作动态、人事任免等行政事务性信息的公开。当然,实时的政府业务数据库公开也已经取得很大进步。在中国政府门户网,可以查询一些公益数据库,如国家统计局的经济统计数据、环保部数据中心提供的全国空气、水文等数据,气象总局提供的全国气象数据,民航总局提供的全国航班信息等;访问各个部委的网站,也能查到很多业务数据,如发改委的项目立项库、工商局的企业信用库、国土资源部的土地证库、国家安监总局的煤矿安全预警信息库、各类工程招标信息库等等。这是一个非常大的进步,也是这么多年电子政务建设所取得的成效和价值!但是,政务业务数据库中的很多数据目前还没有实现公开,很多数据因为部门利益和“保密”等因素,还仅限于部门内部人员使用,没有公开给公众;已经公开的数据也仅限于一部分基本信息和统计信息,更多数据还没有被公开。从《大数据》一书中记录的美国数据公开的实践来看,美国在数据公开的广度和深度都比较大。
二是对政府对业务数据的分析。目前,中国各级政府网站所提供的业务数据基本上还是数据表,部分网站能提供一些统计图,但很少能实现数据的跨部门联机分析、数据关联分析。这主要是由于以往中国政务信息化的建设还处于部门建设阶段。美国在这方面的步伐要快一些,美国的网站,不仅提供原始数据和地理数据,还提供很多数据工具,这些工具很多都是公众、公益组织和一些商业机构提供的,这些应用为数据处理、联机分析、基于社交网络的关联分析等方面提供手段。如上提供的白宫访客搜索工具,可以搜寻到访客信息,并将白宫访客与其他微博、社交网站等进行关联,提高访客的透明度。
数据是信息化建设的基础,两个大国在大数据领域的互相学习和借鉴,取长补短,将推进世界进入信息时代。我欣喜地看到,美国政府20__年启动了“大数据研发计划”,投资2亿美元,推动大数据提取、存储、分析、共享、可视化等领域的研究,并将其与超级计算和互联网投资相提并论。同年,中国政府20__年也批复了“国家政务信息化建设工程规划”,总投资额估计在几百亿,专门有人口、法人、空间、宏观经济和文化等五大资源库的五大建设工程。开放、共享和智能的大数据的时代已经来临!
《大数据》是去年的一本畅销书,在20__年的广州南国书香节上曾有过一瞥,后来又几次听闻,一直想好好看看。现在是一个技术奔腾、信息爆炸的社会,大数据这个新鲜热辣的概念一经推出,就受到了人们极大的热捧。这也难怪,每天都身处网络的信息海洋中,常常会有被数据、信息“淹没”窒息感和无力感,不识庐山真面目,只缘身在此山中,我们向鱼儿一样亟待跳出海面,看看当下网络之海中正涌动着的大数据暗流,看看这个大家都在谈论的大数据到底是个什么东西
书的扉页上写着作者涂子沛对大数据的定义:大数据(bigdata)指一般的软件工具难以捕捉、管理和分析的大容量非结构数据,一般以“太字节”为单位。构成大数据的信息主要包括:宽带普及带来的巨量日志和通讯记录,社交网络每天不断更新的个人信息,视频通讯、医疗影像、地理信息、监控录像等视频记录,传感器、导航设备等非传统IT设备产生的数据信息,以及持续增加的各种智能终端产生的图片及信息,这些信息呈爆炸性增长,不断涌入网络海洋。大数据之大并不仅仅在于容量之大,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来大知识、大科技、大利润和大发展。当然这个定义并不是唯一的,Intel试图用视频解说的方式告诉我们什么是大数据:《大数据入门:大数据如何产生巨大影响力》。
这本书将美国的奥巴马大选作为引子,从他的建立透明和开放的政府的雄心壮志讲起,阳光是最好的防腐剂,信息公开和公民社会紧密相连,从政府信息公开化的必要性,到如何筛选、甄别、分析、管理、利用海量的政府部门的数据,因为政府部门涉及人类生活的方方面面,也就逐渐引出信息社会大数据的概念,给我们带来如何应对大数据时代的到来的挑战和机遇的思考。因为这本书信奉一句至理名言:除了上帝,任何人都必须用数据说话。
麦肯锡20__年6月的全球市场报告———BigData:Thenextgenerationfrontierforinnovation,competitionandproductivity是深入了解大数据发端和全貌必看的报告。
首先是大数据代表着数据的样本=全体,这是一个与传统统计学的显著区别。大数据有能力获得全体数据并对其进行分析。
第三就是大数据允许存在不精确性、混杂性,由于数据量巨大,存在少量的异变不会对结果产生任何影响,如收益是1个亿与1亿零1元的差别可能决策者不关心。
第四是大数据中的三个主要因素,思维、数据、技术,思维觉得你在哪些地方使用大数据。在这三个因素之中,会产生数据中间商,来处理加工数据并出售。