1、叠加。传统计算机使用的是只包含“1”或“0”的二进制位。而量子计算机则使用量子位,可以描述“1”、“0”或者量子位的可能状态的任意组合(称为“叠加”)。因此,具有n个量子位的量子计算机通过这些量子位彼此叠加,形成了2n种可能性。这使量子计算机具有指数级数量的状态,因此能够比传统计算机更有效地解决一些特定类型的问题。
量子的叠加和纠缠特性使量子计算机能够快速研究一系列可能性,以确定有助于推动业务价值的最佳答案。由于未来的量子计算机在计算某些问题时,速度要比传统计算机快上几个指数级(见下图),因此有望解决极为复杂的业务难题。尽管传统计算机存在局限性,但在可以预见的未来,量子计算机并不会完全取代它们的作用。相反,结合了量子与传统架构的混合型计算机有望浮出水面,将一部分难题“外包”给量子计算机。
▲量子计算为运算加速的潜力远远超过传统计算机
此外,量子计算还有望解决当前令人束手无策的复杂的物流优化问题,从而实现可观的成本节省,显著减少碳排放。我们以量子计算帮助价值数万亿美元的航运业改善全球航线为例。即使量子计算只能将集装箱利用率和运输量提高哪怕一点点,也能为运输企业节省数亿美元的成本。为了利用量子计算的优势获得更多利润,领先竞争对手,前瞻性的企业已开始培养专业能力,探索能给自己的行业带来好处的用例。
量子优势迎来曙光
量子计算机能够解决传统计算机无能为力的一些业务问题—我们通常将这种能力称之为“量子优势”,而实现这一优势的时刻离我们越来越近了。例如,“恒定深度”的量子电路已展现出远超传统电路的优势。下图说明了面向特定业务用例的量子优势。确切地说,由于面向特定用例的量子优势尚不明确,因此,有关未来五年内量子计算市场价值的预测也天差地别—从大约5亿美元到290亿美元不等。
▲量子用例的商业化
为企业选择合适的量子计算机
量子计算机各不相同,解决的问题也各有偏重。从限制最多的类型到最通用的类型,量子计算机主要分为三类:量子退火、嘈杂中型量子(NISQ)计算,以及容错型通用量子计算。
科学界普遍认为,相较于传统计算,量子退火法的提速效果并没有多么明显。此外,量子退火计算机最终也无法发展成为容错型通用量子计算机。因此,量子退火计算机不能算作真正的量子计算机。
在短期内,NISQ计算机最有可能创造业务优势,并且业界已针对这种计算机调整了许多新的算法。此外,随着NISQ计算机不断扩展,它们正朝着量子计算的终极目标迈进—成为容错型通用量子计算机,能够处理重要的商业和科学问题,而且计算速度通常比传统计算机有指数级的提高。
2、由于量子计算的学习难度非常大,因此,“快速跟随”的方法不仅花费巨大,而且只会被先行者越拉越远。
“快速跟随”的方法不仅花费巨大,而且只会被先行者越拉越远量子计算不同于线性或渐进式的技术进步,“快速跟随”的方法不太可能奏效。原因有以下几点:
1、量子计算的学习难度非常大。
把握量子优势,助推企业前进
▲NISQ量子计算的预期用途
虽然还没有数学方法可以证明量子计算能够以指数级提升优化问题的解决速度,但研究人员正努力通过启发式方式来证明这一点。富有远见的企业已开始探索如何利用量子计算来解决优化问题,以期超越竞争对手。一旦量子优势在解决优化问题方面的能力得到确认,这些企业的远见卓识便会给他们带来切实的回报。
量子增强型人工智能。量子计算可以探索传统计算机无法处理的海量可能性,因此有助于提升人工智能的熟练度。事实上,人工智能与量子计算之间的共生关系已开始在这两个领域实现良性循环。例如,量子算法可增强机器学习在数据聚类领域的能力,而机器学习则可用于更好地理解量子系统。
基于量子的认知计算机最终能够渗透到几乎所有行业,主动为专业人士提供高级决策支持;为员工提供针对性的响应式培训;为客户提供专门定制的自适应式供应商关系。
通过五项战略迎接量子的未来
▲通往量子未来之路
1.选择量子精英团队
贵公司可能需要进一步了解量子计算的预期收益。以下是入门方法:1、将企业内的一些领军专业人才指定为“量子精英”。2、为这些“量子精英”充电,帮助他们了解何为量子计算、对行业的潜在影响、竞争对手的应对方式以及贵公司的业务如何从中受益。3、要求“量子精英”定期向高层领导汇报工作,以便在整个企业中开展量子计算教育,确保该计划始终与战略目标保持一致。
待量子精英团队了解了量子计算的原理及其如何助您应对业务挑战和把握机遇之后,让他们开始确定贵公司可在哪些领域借助量子计算领先竞争对手。
根据量子系统的独特能力及其加速解决问题的优势来评估机遇。要求量子精英团队监控量子应用的进展,确定哪些用例可以更快地实现商业化。为确保量子探索与业务成果紧密联系在一起,请选择前景最光明的量子计算应用,例如创建突破性产品和服务或者以全新方式优化供应链。
3.试用真正的量子系统
通过试用真正的量子计算机,揭开量子计算的神秘面纱。要求量子精英团队了解量子计算如何解决业务问题,以及如何与现有工具互动。单一量子解决方案并不能“包治百病”。量子精英团队应专注于解决传统计算机无法有效解决的最高优先级用例。
4.绘制量子路线图
绘制量子计算路线图,包括可行的后续步骤,目的是解决可能会对企业参与竞争以及获得可持续业务优势产生巨大阻碍的问题。为了加速备战量子计算,应考虑加入新出现的量子社区。这样能够帮助您更好地接触了解技术基础架构、不断发展的行业应用,以及有助于增强特定量子应用开发能力的研究人员。
5.灵活敏捷地应对未来量子格局的变化
量子计算在迅速发展。应寻找有望成为行业标准并且推动生态系统整合的技术和开发工具包。应认识到,新的技术突破可能会促使企业调整量子开发方法,包括更换生态系统合作伙伴。应留意企业的量子计算需求如何与时俱进,特别是当您进一步深入地了解哪些业务问题可从量子计算解决方案中获得最大收益之后。
一、边缘计算,5G时代的万亿市场
从边缘计算联盟(ECC)提出的模型架构来看,边缘计算主要由基础计算能力与相应的数据通信单元两大部分所构成。
随着底层技术的进步以及应用的不断丰富,近年来全球物联网产业实现爆发式的增长,这也为边缘计算提供了更多的场景。
参考数据,全球物联网终端设备安装数量有望在2019年达到256亿台,年复合增速高达21%。
国内物联网市场的增速更高,据预测,2020年我国物联网市场规模有望达到18300亿元,年复合增速高达25%。
据表示,到2020年,将有超过500亿的终端与设备联网,而有50%的物联网网络将面临网络带宽的限制,40%的数据需要在网络边缘分析、处理与储存。
因此,边缘计算市场规模将超万亿,成为与云计算平分秋色的新兴市场。
二、5G时代“边云协同”,服务器市场迎来巨大增量
虽然云计算中心具有强大的处理性能,但是边缘计算不仅能够克服云计算网络带宽与计算吞吐量的性能瓶颈,还能够更实时地处理终端设备的海量“小数据”,并在保证终端的数据安全。
因此,在有了云计算的同时,边缘计算市场潜力依旧巨大。5G时代,将会是一个“边+云”的“边云协同”时代,边缘计算与云计算各有所长、协调配合。
作为5G商用的元年,国内的三大运营商无疑都在加紧部署5G基础设施,这其中就包括大量的基站设备。
与此同时,相对于4G,5G定义了eMMB(更高数据速率)、URLLC(更低延迟和更可靠的链接)和mMTC(超大规模设备链接)等三大应用场景。而这些场景化概念的引入无一不对基站的计算性能提出了更高的要求。
因此,5G基站背后的服务器市场不仅将迎来爆发性需求增长,其产品升级也是势在必行的。
这一潜在的巨大市场需求也正是浪潮、曙光、华为等一系列设备制造商不遗余力推动OTII标准迅速落地。
与通用服务器相比,边缘计算服务器面向5G和边缘计算等场景进行针对性定制,能耗更低、温度适应性更宽、运维管理更加方便。
三、5GMEC近在咫尺,通信光模块市场受益最大
1、吸取4G教训、全球统一标准
在4G网络标准制定中,由于并没有考虑把边缘计算功能纳入其中,导致出现大量“非标”方案,运营商在实际部署时“异厂家设备不兼容”,网络互相割裂等,常常需要进行定制化的、特定的解决方案设计,不仅提高了运营商成本,还造成网络架构不能满足低时延、高带宽、本地化等需求。
在2018年,3GPP的第一个5G标准R-15已经冻结。3GPPSA2在R15中定义了5G系统架构和边缘计算应用,其中核心网部分功能下沉部署到网络边缘,RAN架构也将发生较大改变。
预计2020年5G商用以后,MEC边缘云的应用将进入百花齐放、百家争鸣的开放阶段。
2、光模块是5G物理层基础单元,受益巨大
光模块是5G网络物理层的基础构成单元,广泛应用于无线及传输设备,其成本在系统设备中的占比不断增高,部分设备中甚至超过50~70%,是5G低成本、广覆盖的关键要素。
从2G~4G,光模块技术迅速迭代,逐步向高速率发展。
5G作为十年一遇的迭代升级,将是光通信行业下一个爆发机会。
3、三大运营商积极布局5GMEC
5G时代,运营商将会采用通用数据中心云化的组网方式,以区域、本地和边缘三层的数据中心为基础,来构建整个云化网络。同时,5G边缘计算促进采集、控制类业务将会带来运营新的2B业务增量,包括精密工控、远程医疗、车联网等。
对于运营商,5GMEC的部署价值巨大。
目前,中国联通是三大运营商中规划最明确的,中国联通提出MEC边缘云演进路标主要分四个阶段,计划在2025年实现100%云化部署。
而从2014年ETSI成立MECISG开始,中国移动就积极跟踪并加入。2017年中国移动发布MEC白皮书。目前,中国移动已经在10省20多个地市现网开展多种MEC应用试点。同时中国移动要将MEC预制到5G中,为此将从标准、技术、产业等方面发力。
4、云数据中心资本开支持续增长
为了应对大工作负载和低延迟需求,云数据中心正在迁移到“叶脊”架构。
传统大型云数据中心网络架构为三层网络,主要采用纵向的传输方式。伴随着虚拟化、云计算、超融合系统等应用,使得东西向数据流成为主要流量。
原有的结构难以应对日益增长的需求,因而“叶脊”拓扑结构开始成为主流,这种结构在传统纵向传输的基础上增加对横向传输的支撑。
叶脊网络结构使得网络规模变大、网络扁平化、光纤覆盖率提升,使得网络需要更多的交换机、叶/脊交换机之间更快的传输速率,更需要更多横向的流量接口实现(光模块)。
叶脊架构所需要的高端光模块数量10倍于传统三层架构。带来100G高速率光模块市场容量大幅增加。
根据统计,云数据中心内网络设备投资占整个云数据中心ICT投资的32%,仅次于服务器投资,光模块是网络设备间通信重要组成部分。
2019年200G和400G模块有望放量。40G~200G光模块市场规模将从2017年的79亿美元增长到2020年的139亿美元。
同时,数通100G光模块市场规模也将从2017年34亿美元增长到2020年75亿美元,复合增速达到30%。
四、边缘计算典型应用场景
1、自动驾驶:车载平台算力需求在20T以上
随着汽车自动驾驶程度的提高,汽车自身所产生的数据将越来越庞大。
高等级自动驾驶的本质是AI计算问题,车载边缘计算平台的计算力需求至少在20T以上。
从最终实现功能来看,边缘计算平台在自动驾驶中主要负责解决两个主要的问题。
2)做出决策判断、给出控制信号。
2、安防:国内智能前端市场有望突破1500亿
这些行业市场包括运输、物流、能源/公共设施监测、金融、医疗和农业。实现工业国产自动化、无线化和智能化,典型场景包括视频监控、机器人控制、自动巡查安防等。
3)视频监控和无人机巡检:配备无人机进行基础设施、电力线和环境的密集巡检是一项新兴业务,LiDAR扫描所产生巨大的实时数据量将需要>200Mbps的传输带宽。ABIResearch的估计,小型无人机市场将从2016年的53亿美元迅速增长到2026年的339亿美元,包括来自软件、硬件、服务和应用服务的收入。
现阶段VR游戏体验不佳,本地重度游戏为主,设备典型盘根错节,用户容易绊倒;联网游戏时延至容易高达50ms,导致用户眩晕问题。
未来5G设备实现直接边缘云端访问,VR/AR时延问题解决:实时CG类云渲染VR/AR需要低于5ms的网络时延和高达100Mbps至9.4Gbps的大带宽。同时,5G可以支持多用户近距离连线。
云VR/AR将大大降低设备成本,从而提供人人都能负担得起的价格。5G将显著改善这些云服务的访问速度云市场以18%的速度快速增长。
5、视频云:远程医疗、4K/8K高清视频
远程医疗依赖5G网络的低延迟和高QoS保障特性,例如无线内窥镜和超声波这样的远程诊断依赖于设备终端和患者之间的交互。力反馈的敏感性决定低延迟网络才能满足要求。
其它应用场景包括医疗机器人和医疗认知计算,这些应用对连接提出了不间断保障的要求(如生物遥测,基于VR的医疗培训,救护车无人机,生物信息的实时数据传输等)。
ABIResearch预测,智慧医疗市场的投资预计将在2025年将超过2300亿美元,智慧医疗市场将在2025年超过2300亿美元。
同时,5G的高速率特性将是用户不仅能观看当下各类视频内容,还将随时随地体验4K以上的超高清视频。
参考英特尔的《5G娱乐经济报告》,预计未来10年内5G用户的月平均流量将有望增长7倍,而其中90%将被视频消耗,预计到2028年,仅凭消费者在视频、音乐和游戏上的支出就会增加近一倍,全球总体量将达到近1500亿美元。
看点:AI时代,不懂点数据挖掘怎么掘金?
数据挖掘(DataMining)是一门跨学科的计算机科学分支,它用人工智能、机器学习、统计学和数据库的交叉方法,在大规模数据中发现隐含模式,在零售、物流、旅游等行业有着广泛应用场景。
一、数据挖掘与KDD
数据挖掘(DataMining),是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示。
一般来说,数据挖掘过程有五个步骤:确定挖掘目的、数据准备、进行数据挖掘、结果分析、知识的同化。
▲数据挖掘过程基本步骤
1、确定挖掘目的
认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。
2、数据准备
数据准备又分为三个阶段:
1)数据的选择:搜索所有与目标对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据;
2)数据的预处理:研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操作的类型;
3)数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
3、进行数据挖掘
对得到的经过转换的数据进行挖掘。
4、结果分析
解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。
5、知识的同化
将分析所得到的知识集成到所要应用的地方去。
▲数据挖掘的分类表
如上图所示,数据挖掘有多种分类方式,可以按照挖掘的数据库类型、挖掘的知识类型、挖掘所用的技术类型进行分类。
同时,数据挖掘也可以按照行业应用来进行分类,比如生物医学、交通、金融等行业都有其独特的数据挖掘方法,不能做到用同一个数据挖掘技术应用到各个行业领域。
▲数据挖掘是知识发现的过程之一
国际知识发现与数据挖掘大会(ACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining,简称SIGKDD)是数据挖掘领域的顶级国际会议,由ACM的数据挖掘及知识发现专委会负责协调筹办,会议内容涵盖数据挖掘的基础理论、算法和实际应用。
二、数据挖掘源于商业的直接需求
数据挖掘技术从一开始就是面向应用的,源于商业的直接需求。目前数据挖掘在零售、旅游、物流、医学等领域都有所应用,可以大大提高行业效率和行业质量。
举个例子,零售是数据挖掘的主要应用领域之一。这是因为由于条形码技术的发展使得前端收款机系统可以收集大量售货、顾客购买历史记录、货物进出状况、消费与服务记录等数据。
数据挖掘技术有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更高的顾客保持力和满意程度,减少零售业成本。
▲柯洁乌镇大战AlphaGo撼负后的微博热议
微博上每个用户的言论、转发内容等都蕴藏着用户个人的兴趣、话题等信息,文字内容本身的智能分析理解也是数据分析领域长久以来孜孜不倦追求的目标。
社会网络中的聚类被称为社区发现,许多精心设计的高效算法可以很好地处理上亿用户的大规模网络。
此外,数据挖掘在旅游、物流、医学等领域都有着广泛的应用场景。比如数据挖掘可以对旅游客流的趋向有着准确的预知性,同时对于游客的喜好也有着直接性的掌握;从医学数据中寻找潜在的关系或规律,可以获得对病人进行诊断、治疗的有效知识,增加对疾病预测的准确性等。
三、人工智能与数据挖掘
数据挖掘从一个新的视角将数据库技术、统计学、机器学习、信息检索技术、数据可视化和模式识别与人工智能等领域有机结合起来,它组合了各个领域的优点,因而能从数据中挖掘到运用其他传统方法不能发现的有用知识。
一般来说,统计特征只能反映数据的极少量信息。简单的统计分析可以帮助我们了解数据,如果希望对大数据进行逐个地、更深层次地探索,总结出规律和模型,则需要更加智能的基于机器学习的数据分析方法。
所谓“机器学习”,是基于数据本身的,自动构建解决问题的规则与方法。数据挖掘中既可以用到非监督学习方法,也可以用到监督学习方法。
1、非监督学习
这时候,我们就希望每一个类有一个“中心”,“中心”也是特征向量空间中的向量,是所有那一类的元素在向量空间上的重心,即他的每一维为所有包含在这一类中的元素的那一维的平均值。如果每一类都有这么一个“中心”,那么我们在分类数据时,只需要看他离哪个“中心”的距离最近,就将他分到该类即可,这也就是K-means算法的思路。
上图是以随机生成的数据点为例,k=3的K-means算法的迭代过程,其中五角星为聚类中心,点的颜色是其类别。在实际应用中,为了获得一个比较好的特征空间,使得“数据之间的相似性与他们在特征空间上的距离有关,距离越近越相似”这句话尽可能成立,我们往往会构建模型来把原数据变换到这么一个特征空间,然后使用K-means算法来进行分类。
2、监督学习
不同于非监督学习,若已知一些数据上的真实分类情况,现在要对新的未知的数据进行分类。这时候利用已知的分类信息,可以得到一些更精确的分类方法,这些就是监督学习方法。
1)决策树模型
所谓决策树,即是一种根据条件来进行判断的逻辑框架。其中,判断的条件,即提出有区分性的问题,以及对于不同的回答下一步的反映,以及最终的决策给出标签。
决策树算法:
1.选取包含所有数据的全集为算法的初始集合A0:
2.对于当前的集合A,计算所有可能的“问题”在训练集上的F(A,D):
3.选择F(A,D)最大的“问题”,对数据进行提问,将当前的集合由“问题”的不同回答,划分为数个子集;
4.对每个子集,重复b、c,直到所有子集内所有元素的类别相同;
5.在实际应用中,数据往往有很多特征,因此,“问题”往往是选取数据的某一特征,而“回答”则是此特征对应的值。
在决策树中,效度函数F(A,D)的选择非常重要。决策树的发展历史,也基本是围绕着F(A,D)的优化而展开。
2)kNN算法
只知道每个数据在特征空间下的特征向量情况下,可以对数据采用无监督分类方法K-means。如果我们拥有了其中一部分数据的标签,我们就可以利用这些标签进行kNN分类。
数据之间的相似性与他们在特征空间上的距离有关。距离越近越相似,越可能拥有相同的标签。
假设我们已经有了很多既知道特征向量也知道具体标签的数据对于新的只知道特征向量却不知道具体标签的数据,我们可以选取离这个特征向量最近的k个已经知道标签的数据,然后选取他们中间最多的元素所属于的那个标签,作为新数据的预测标签。也可以根据他们与新数据的特征向量之间的距离加权(如最近得5分,第二近得4分等),取权重总和最大的标签作为预测标签。
kNN算法不需要构建模型或者训练,和K-means算法一样,往往是和某个构建特征空间的模型一起使用。
此外,还有回归分类、神经网络、朴素贝叶斯分类等等。
四、巨头们的数据挖掘之路
1、谷歌
谷歌几乎每年都会发表一些让人惊艳的研究工作,包括之前的MapReduce、Word2Vec、BigTable,近期的BERT。数据挖掘是谷歌研究的一个重点领域。
2、亚马逊
亚马逊公司近几年发展势头超级猛,前几年华丽的转身:从一个网上商店公司变为云平台公司再转变到目前的人工智能公司,亚马逊也在数据挖掘领域开始占有一席,尤其是在人才网罗、开源、核心技术研发。
3、微软
4、阿里巴巴
阿里巴巴在电子商务方面做了大量的数据挖掘研究。尤其是在表示学习和增强学习做了几个很有意思的工作。
5、腾讯
6、百度
五、大数据与数据挖掘
大数据是近年随着互联网、物联网、通信网络以及人类社交网络快速发展的结果,成为一个交叉研究学科,和数据挖掘紧密相连。
大数据的迅速发展也使得数据挖掘对象变得更为复杂,不仅包括人类社会与物理世界的复杂联系,还包括呈现出的高度动态化。这使得很多传统数据挖掘算法不再适用,传统数据挖掘算法必须满足对真实数据和实时数据的处理能力,才能从大量无序数据中获取真正价值。
一方面大数据包含数据挖掘的各个阶段,即数据收集、预处理、特征选择、模式挖掘、表示等;另一方面大数据的基础架构又为数据挖掘提供上层数据处理的硬件设施。
▲大数据处理平台技术架构图
从技术架构角度,大数据处理平台可划分为4个层次:数据采集层、数据存储层、数据处理层和服务封装层。
除此之外,大数据处理平台一般还包括数据安全和隐式保护模块,这一模块贯穿大数据处理平台的各个层次。
随着大数据时代的来临,各行各业所积累的数据呈爆炸式增长,数据挖掘在各个领域的需求将会越来越强烈,与各个专业领域的结合也将会越来越广泛。无论是在科学领域还是工程领域、理论研究还是现实生活中,数据挖掘都将有着极为广阔的发展前景。
原文标题:量子计算、边缘计算、数据挖掘前沿研究报告
长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)