什么是实时计算,实时计算的相关技术主要分为哪几个阶段?

实时计算一般都是针对海量数据进行的,一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。

主要应用的场景:

昨天来自每个省份不同性别的访问量分布,昨天来自每个省份不同性别不同年龄不同职业不同名族的访问量分布。

主要分为三个阶段(大多是日志流):

数据的产生与收集阶段、传输与分析处理阶段、存储对对外提供服务阶段

下面具体针对上面三个阶段详细介绍下

1)数据实时采集:

目前的产品:Facebook的Scribe、LinkedIn的Kafka、Cloudera的Flume,淘宝开源的TimeTunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求。他们都是开源项目。

2)数据实时计算

在流数据不断变化的运动过程中实时地进行分析,捕捉到可能对用户有用的信息,并把结果发送出去。

实时计算目前的主流产品:

下面是S4和Storm的详细对比

其他的产品:

早期的:IBM的StreamBase、Borealis、Hstreaming、Esper

4.淘宝的实时计算、流式处理

1)银河流数据处理平台:通用的流数据实时计算系统,以实时数据产出的低延迟、高吞吐和复用性为初衷和目标,采用actor模型构建分布式流数据计算框架(底层基于akka),功能易扩展、部分容错、数据和状态可监控。银河具有处理实时流数据(如TimeTunnel收集的实时数据)和静态数据(如本地文件、HDFS文件)的能力,能够提供灵活的实时数据输出,并提供自定义的数据输出接口以便扩展实时计算能力。银河目前主要是为魔方提供实时的交易、浏览和搜索日志等数据的实时计算和分析。

2)基于Storm的流式处理,统计计算、持续计算、实时消息处理。

在淘宝,Storm被广泛用来进行实时日志处理,出现在实时统计、实时风控、实时推荐等场景中。一般来说,我们从类kafka的metaQ或者基于HBase的timetunnel中读取实时日志消息,经过一系列处理,最终将处理结果写入到一个分布式存储中,提供给应用程序访问。我们每天的实时消息量从几百万到几十亿不等,数据总量达到TB级。对于我们来说,Storm往往会配合分布式存储服务一起使用。在我们正在进行的个性化搜索实时分析项目中,就使用了timetunnel+HBase+Storm+UPS的架构,每天处理几十亿的用户日志信息,从用户行为发生到完成分析延迟在秒级。

3)利用Habase实现的Online应用

4)实时查询服务

关于实时计算流数据分析应用举例:

对于电子商务网站上的店铺:

2)显示某个到访顾客的所有历史来访记录,同时实时跟踪显示某个访客在一个店铺正在访问的页面等信息;

下面对Storm详细介绍下:

整体架构图

整个数据处理流程包括四部分:

第一部分是数据接入该部分从前端业务系统获取数据。

第二部分是最重要的Storm实时处理部分,数据从接入层接入,经过实时处理后传入数据落地层;

第三部分为数据落地层,该部分指定了数据的落地方式;

第四部分元数据管理器。

数据接入层

该部分有多种数据收集方式,包括使用消息队列(MetaQ),直接通过网络Socket传输数据,前端业务系统专有数据采集API,对Log问价定时监控。(注:有时候我们的数据源是已经保存下来的log文件,那Spout就必须监控Log文件的变化,及时将变化部分的数据提取写入Storm中,这很难做到完全实时性。)

Storm实时处理层

首先我们通过一个Storm和Hadoop的对比来了解Storm中的基本概念。

1.Nimbus:负责资源分配和任务调度。

2.Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。

3.Worker:运行具体处理组件逻辑的进程。

4.Task:worker中每一个spout/bolt的线程称为一个task.在Storm0.8之后,task不再与物理线程对应,同一个spout/bolt的task可能会共享一个物理线程,该线程称为executor。

具体业务需求:条件过滤、中间值计算、求topN、推荐系统、分布式RPC、热度统计

数据落地层:

MetaQ

如图架构所示,Storm与MetaQ是有一条虚线相连的,部分数据在经过实时处理之后需要写入MetaQ之中,因为后端业务系统需要从MetaQ中获取数据。这严格来说不算是数据落地,因为数据没有实实在在写入磁盘中持久化。

Mysql

数据量不是非常大的情况下可以使用Mysql作为数据落地的存储对象。Mysql对数据后续处理也是比较方便的,且网络上对Mysql的操作也是比较多的,在开发上代价比较小,适合中小量数据存储。

HDFS

HDFS及基于Hadoop的分布式文件系统。许多日志分析系统都是基于HDFS搭建出来的,所以开发Storm与HDFS的数据落地接口将很有必要。例如将大批量数据实时处理之后存入Hive中,提供给后端业务系统进行处理,例如日志分析,数据挖掘等等。

Lustre

Lustre作为数据落地的应用场景是,数据量很大,且处理后目的是作为归档处理。这种情形,Lustre能够为数据提供一个比较大(相当大)的数据目录,用于数据归档保存。

元数据管理器

元数据管理器的设计目的是,整个系统需要一个统一协调的组件,指导前端业务系统的数据写入,通知实时处理部分数据类型及其他数据描述,及指导数据如何落地。元数据管理器贯通整个系统,是比较重要的组成部分。元数据设计可以使用mysql存储元数据信息,结合缓存机制开源软件设计而成。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来

THE END
1.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 https://blog.51cto.com/u_16213297/12863680
2.《电子商务概论》习题及答案2.B2B电子商务交易过程中有哪几个阶段,主要内容是什么? B2B交易过程中主要包括交易谈判与签订合同、办理交易进行前的手续以及交易合同的履行和索赔三个阶段。交易谈判和签订合同。这一阶段主要是指买卖双方对所有交易细节进行谈判,将双方磋商的结果以文件的形式确定下来,即以书面文件形式或电子文件形式签订贸易合同。办理https://www.360doc.cn/article/80521207_1047343768.html
3.2022年泸州公需科目答案51教学网2019年12月.习近平总书记提出中国经济发展的空间结构正在发生深刻变化.0正在成为承裁发展要素的主要空间形式。A.A.中心城市 正确答案:C 本讲提到.()是国家治理最为重要的部分。A.A.经济治理. 正确答案:C 6.0是推进全面依法治国。建设法治中国的前提.A.A.执法必严 https://www.51jiaoxue.cn/post/1321.html
4.数据挖掘知识总结(精选8篇)6、DBMS须提供以下几方面的数据控制功能:数据的安全性保护、数据的完整性检查、并发控制、数据库恢复。 7、数据管理技术的发展过程:人工管理阶段、文件系统阶段、数据库系统阶段 8、数据库的体系结构为三级结构,它们是存储层、概念层和外部层。 9、在数据库中用数据模型这个工具来抽象、表示和处理现实世界中的数据和https://www.360wenmi.com/f/filep4ahaz92.html
5.北京化工大学人工智能导论期末复习笔记人工智能学科是进来计算机科学领域热门学科,人工智能导论作为一门导论性课程,对我们对机器学习、人工智能、数据挖掘的概念了解还是十分有好处的。 虽然平时这门课没上几节,最后考试也不难,遂把期末复习的笔记整理发布出来,一方面可能有以后的学弟学妹可能有帮助,二来也是做一个小小的记录。 https://www.ihewro.com/archives/798/
6.档案管理试题及答案2.机关之间的工作关系有哪几种( ) A.隶属机关的上下级关系 B.隶属的业务部门的上下级关系 C.隶属于同一组织的平行关系 D.非隶属的业务部门的上下级关系 E.非隶属的非同一组织的平行关系 3.发文处理的全过程分为制文和制发两个阶段,其中制文阶段主要包括哪些环节( ) A.草拟 B.审核 C.复核 D.签发 E.编https://www.danganj.com/news/21257.html
7.人工智能心得体会9篇人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者https://www.unjs.com/fanwenwang/xdth/20221130181133_6041555.html
8.成本控制现状范文12篇(全文)摘要:目前我国医药生产企业的成本控制存在诸多问题,主要有三方面:第一方面是对成本的控制相对不足,注重对成本的事后计量,缺乏成本耗费过程的分析和控制,导致资源没有得到合理的分配;第二方面是成本的核算不够规范,由于对成本的核算规范化不够充分,导致间接费用没有得到准确地分配;第三方面是成本决策方面缺乏数据依据,https://www.99xueshu.com/w/ikeygi8nwngl.html
9.房地产论文(15篇)我国房地产营销策划大致经历了概念策划模式、卖点群策划模式、等值策划模式以及增值策划模式几个阶段,从忽视顾客需求到以顾客需求为导向逐步发展。营销不再限于解决楼盘的广告推广和销售问题,而是要对项目立项、市调、定位、规划、推广、销售直至后期管理的全过程进行策划,增值策划模式就是以提高房屋的顾客让渡价值为目标的https://www.ruiwen.com/lunwen/7095095.html
10.语言表达过程由哪几个阶段构成刷刷题APP(shuashuati.com)是专业的大学生刷题搜题拍题答疑工具,刷刷题提供语言表达过程由哪几个阶段构成A.外部语言B.内部语言C.语义切迹D.表达动机E.感知辨识的答案解析,刷刷题为用户提供专业的考试题库练习。一分钟将考试题Word文档/Excel文档/PDF文档转化为在线题库,https://www.shuashuati.com/ti/f80c74c50d3c42f8a54cf24133708fc8.html
11.人工智能心得(11篇)逐步建立课程——空间——活动的人工智能教育活动实践,在论坛中也介绍了人工智能教育需要遵循学生各年龄层的学情特点,分为三个阶段,第一阶段大班STEM基础教学,第二轮实践教学建立社团校队,第三开展项目式专训,培育科技特长生,或者各年级年级培养学生人工智能教育的不同目标,小学低年级可以主要培养综合素养,小学高年级跨https://www.cnfla.com/xindetihui/2905941.html
12.安徽省高校毕业生就业创业政策百问各高校要根据人才培养定位和创新创业教育目标要求,促进专业教育与创新创业教育有机融合,调整专业课程设置,挖掘和充实各类专业课程的创新创业教育资源,在传授专业知识过程中加强创新创业教育,面向全体学生开发开设创新创业必修课和选修课,纳入学分管理。 各地人力资源社会保障部门根据处在不同创业阶段的创业人员有针对性地开展https://www.lixin.gov.cn/XxgkContent/show/2306929.html
13.智慧矿山理论与关键技术探析3.3.2 微观运用数据挖掘、认知心理学、信息安全等理论 微观上从智慧矿山实施过程中涉及数据的分析与挖掘、分析结果的展示以及信息的安全性3个方面对相关指导理论进行阐述。在综合自动化、工程数字化与管理信息化的信息系统建设下,通过物联网等感知技术实时传输至信息系统中,矿山企业信息系统内的各类主题数据库已经存储了https://www.zyny.org.cn/newsinfo/1822417.html
14.卫星,未来太空数据的「智能平台」曹德志:我一直猜想,有个重要的双轮逻辑。一个轮是指,技术层面上卫星在不断地降低成本,集成度变高。也就是通过批产能力、供应链体系的变化来表达卫星产品的变化,例如成本,例如功能和设计。另外一轮,是数据价值的挖掘,也就是说传感器能够获取什么数据,这些数据能应用在什么领域,比如国防、国土监测、水域、陆地、海洋https://wallstreetcn.com/articles/3668888