什么是实时计算,实时计算的相关技术主要分为哪几个阶段?

实时计算一般都是针对海量数据进行的,一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。

主要应用的场景:

昨天来自每个省份不同性别的访问量分布,昨天来自每个省份不同性别不同年龄不同职业不同名族的访问量分布。

主要分为三个阶段(大多是日志流):

数据的产生与收集阶段、传输与分析处理阶段、存储对对外提供服务阶段

下面具体针对上面三个阶段详细介绍下

1)数据实时采集:

目前的产品:Facebook的Scribe、LinkedIn的Kafka、Cloudera的Flume,淘宝开源的TimeTunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求。他们都是开源项目。

2)数据实时计算

在流数据不断变化的运动过程中实时地进行分析,捕捉到可能对用户有用的信息,并把结果发送出去。

实时计算目前的主流产品:

下面是S4和Storm的详细对比

其他的产品:

早期的:IBM的StreamBase、Borealis、Hstreaming、Esper

4.淘宝的实时计算、流式处理

1)银河流数据处理平台:通用的流数据实时计算系统,以实时数据产出的低延迟、高吞吐和复用性为初衷和目标,采用actor模型构建分布式流数据计算框架(底层基于akka),功能易扩展、部分容错、数据和状态可监控。银河具有处理实时流数据(如TimeTunnel收集的实时数据)和静态数据(如本地文件、HDFS文件)的能力,能够提供灵活的实时数据输出,并提供自定义的数据输出接口以便扩展实时计算能力。银河目前主要是为魔方提供实时的交易、浏览和搜索日志等数据的实时计算和分析。

2)基于Storm的流式处理,统计计算、持续计算、实时消息处理。

在淘宝,Storm被广泛用来进行实时日志处理,出现在实时统计、实时风控、实时推荐等场景中。一般来说,我们从类kafka的metaQ或者基于HBase的timetunnel中读取实时日志消息,经过一系列处理,最终将处理结果写入到一个分布式存储中,提供给应用程序访问。我们每天的实时消息量从几百万到几十亿不等,数据总量达到TB级。对于我们来说,Storm往往会配合分布式存储服务一起使用。在我们正在进行的个性化搜索实时分析项目中,就使用了timetunnel+HBase+Storm+UPS的架构,每天处理几十亿的用户日志信息,从用户行为发生到完成分析延迟在秒级。

3)利用Habase实现的Online应用

4)实时查询服务

关于实时计算流数据分析应用举例:

对于电子商务网站上的店铺:

2)显示某个到访顾客的所有历史来访记录,同时实时跟踪显示某个访客在一个店铺正在访问的页面等信息;

下面对Storm详细介绍下:

整体架构图

整个数据处理流程包括四部分:

第一部分是数据接入该部分从前端业务系统获取数据。

第二部分是最重要的Storm实时处理部分,数据从接入层接入,经过实时处理后传入数据落地层;

第三部分为数据落地层,该部分指定了数据的落地方式;

第四部分元数据管理器。

数据接入层

该部分有多种数据收集方式,包括使用消息队列(MetaQ),直接通过网络Socket传输数据,前端业务系统专有数据采集API,对Log问价定时监控。(注:有时候我们的数据源是已经保存下来的log文件,那Spout就必须监控Log文件的变化,及时将变化部分的数据提取写入Storm中,这很难做到完全实时性。)

Storm实时处理层

首先我们通过一个Storm和Hadoop的对比来了解Storm中的基本概念。

1.Nimbus:负责资源分配和任务调度。

2.Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。

3.Worker:运行具体处理组件逻辑的进程。

4.Task:worker中每一个spout/bolt的线程称为一个task.在Storm0.8之后,task不再与物理线程对应,同一个spout/bolt的task可能会共享一个物理线程,该线程称为executor。

具体业务需求:条件过滤、中间值计算、求topN、推荐系统、分布式RPC、热度统计

数据落地层:

MetaQ

如图架构所示,Storm与MetaQ是有一条虚线相连的,部分数据在经过实时处理之后需要写入MetaQ之中,因为后端业务系统需要从MetaQ中获取数据。这严格来说不算是数据落地,因为数据没有实实在在写入磁盘中持久化。

Mysql

数据量不是非常大的情况下可以使用Mysql作为数据落地的存储对象。Mysql对数据后续处理也是比较方便的,且网络上对Mysql的操作也是比较多的,在开发上代价比较小,适合中小量数据存储。

HDFS

HDFS及基于Hadoop的分布式文件系统。许多日志分析系统都是基于HDFS搭建出来的,所以开发Storm与HDFS的数据落地接口将很有必要。例如将大批量数据实时处理之后存入Hive中,提供给后端业务系统进行处理,例如日志分析,数据挖掘等等。

Lustre

Lustre作为数据落地的应用场景是,数据量很大,且处理后目的是作为归档处理。这种情形,Lustre能够为数据提供一个比较大(相当大)的数据目录,用于数据归档保存。

元数据管理器

元数据管理器的设计目的是,整个系统需要一个统一协调的组件,指导前端业务系统的数据写入,通知实时处理部分数据类型及其他数据描述,及指导数据如何落地。元数据管理器贯通整个系统,是比较重要的组成部分。元数据设计可以使用mysql存储元数据信息,结合缓存机制开源软件设计而成。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来

THE END
1.www.stats.gov.cn/zsk/snapshoot?reference=d466cfa12a8d807d0知识库 知识分类:|知识来源: |发布日期:https://www.stats.gov.cn/zsk/snapshoot?reference=d466cfa12a8d807d0c267a76a75d1e42_E0F468B5FB2CC522BBE4AE797AF15DAE
2.数据挖掘概念(AnalysisServices显示另外 3 个 数据挖掘是从大型数据集中发现可行信息的过程。数据挖掘使用数学分析来派生存在于数据中的模式和趋势。通常,由于这些模式的关系过于复杂或涉及数据过多,因此使用传统数据浏览无法发现这些模式。 这些模式和趋势可以被收集在一起并定义为“数据挖掘模型”。挖掘模型可以应用于特定的业务方案,例如: https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
3.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 https://blog.51cto.com/u_16213297/12863680
4.大数据分析与挖掘第2篇洞察研究大数据分析与挖掘-第2篇-洞察研究 下载积分: 1388 内容提示: 大数据分析与挖掘 第一部分 数据预处理:清洗、整合和规约 2 第二部分 数据探索性分析:可视化和统计检验 4 第三部分 关联规则挖掘:频繁项集和关联规则生成 https://www.doc88.com/p-90990192352266.html
5.案例分析报告精选15篇二、调查方法与过程 1. 调查工具:采用问卷调查法,设计包含工作环境、薪酬福利、职业发展、企业文化等多维度的问卷。 2. 样本选择:随机抽取企业内不同部门、职位的员工作为调查对象,确保样本的代表性和广泛性。 3. 数据收集与分析:通过在线问卷平台收集数据,运用SPSS软件进行统计分析,包括均值分析、方差分析等。 https://www.ruiwen.com/fenxibaogao/8282184.html
6.人工智能心得体会(精选13篇)人工智能的发展历史大致可以分为这几个阶段: 第一阶段:50年代人工智能的兴起和冷落 人工智能概念首次提出后,相继出现了一批显著的成果,如机器定理证明、跳棋程序、通用问题s求解程序、lisp表处理语言等。但由于消解法推理能力的`有限,以及机器翻译等的失败,使人工智能走入了低谷。 https://www.oh100.com/a/202212/5696010.html
7.数据挖掘学习日记4·分类初阶一般分类问题的基本包括哪2个阶段数据挖掘学习日记4·分类初阶 1 基本概念 根据预测结果是否离散,预测问题分为分类和数值预测(回归)两大门类。 1.1 分类的基本任务与两阶段 分类的基本任务是: 构建分类器来来预测类标号。 基于这个基本任务,可以将分类过程分为两个阶段: 学习阶段:构建分类模型https://blog.csdn.net/mustuo/article/details/88526370
8.数据挖掘的六个阶段是什么帆软数字化转型知识库数据挖掘的六个阶段包括:数据准备、数据清洗、数据转换、数据挖掘、模式识别、结果评估。数据准备是数据挖掘过程的第一步,这一步骤的主要目的是获取和整理数据源,使其适合后续的处理和分析。具体来说,数据准备包括收集数据、选择数据、合并数据和初步整理数据。通过数据准备,可以确保数据的完整性和一致性,为后续的数据清https://www.fanruan.com/blog/article/594221/
9.数据挖掘技术过程中,数据预处理阶段最为重要()数据挖掘技术过程中,数据预处理阶段最为重要() 参考答案:错 点击查看答案进入题库练习 查答案就用赞题库小程序 还有拍照搜题 语音搜题 快来试试吧 无需下载 立即使用 你可能喜欢 判断题 IaaS的优点是用户只需低成本硬件,按需租用相应计算能力和存储能力,大大降低了用户在硬件上的开销() 参考答案:对 点击查https://m.ppkao.com/mip/tiku/shiti/8512584.html
10.人工智能心得体会9篇人工智能的发展历史大致可以分为这几个阶段: 第一阶段:50年代人工智能的兴起和冷落 人工智能概念首次提出后,相继出现了一批显著的成果,如机器定理证明、跳棋程序、通用问题s求解程序、lisp表处理语言等。但由于消解法推理能力的有限,以及机器翻译等的失败,使人工智能走入了低谷。 https://www.unjs.com/fanwenwang/xdth/20221130181133_6041555.html
11.视频中提到荷兰代尔夫特理工大学把创新设计的过程分为四个阶段声明: 本网站大部分资源来源于用户创建编辑,上传,机构合作,自有兼职答题团队,如有侵犯了你的权益,请发送邮箱到feedback@deepthink.net.cn 本网站将在三个工作日内移除相关内容,刷刷题对内容所造成的任何后果不承担法律上的任何义务或责任 https://www.shuashuati.com/ti/de9b069a738d41a2ac6ae1e1d70b045c.html?fm=bdbds6815a5138ca1fb262511d1f4d38bc0fb
12.数据挖掘分类任务简介(分类概念分类和预测分类过程1 . 数据挖掘任务分类 : 数据挖掘任务分为 模型挖掘 和 模式挖掘 , 其中 模型挖掘 包含 描述建模 和 预测建模 ;https://cloud.tencent.com/developer/article/2246868
13.软考高级——信息系统项目管理师(第4版)思维导图模板软件的生命周期通常包括:可行性分析与项目开发计划、需求分析、概要设计、详细设计、编码、测试、维护等阶段。 信息系统的生命周期可以简化为:系统规划(可行性分析与项目开发计划),系统分析(需求分析),系统设计(概要设计、详细设计),系统实施(编码、测试),系统运行和维护等阶段。 https://www.processon.com/view/654c455f8f11b40fe56ece43
14.2022年泸州公需科目答案51教学网3.结上结下的劳动关系公共服务平台建设以0为发展方向搭建劳动关系公共服务大数据平台。A.A.互联网+ 正确答案:A 2019年12月.习近平总书记提出中国经济发展的空间结构正在发生深刻变化.0正在成为承裁发展要素的主要空间形式。A.A.中心城市 正确答案:C 本讲提到.()是国家治理最为重要的部分。A.A.经济治理. https://www.51jiaoxue.cn/post/1321.html
15.网络营销全部64.网络市场调查的程序中最后一个阶段是()。 A.确定调查目标B.拟定调查问卷C.撰写调查报告D.数据分析与处理【注释】:第四章第二节第125页,撰写调查报告是整个调查活动中最后一个阶段。 65.下列属于消费者网络购买时信息收集特点的是()。 A.信息主要来自线下B.信息收集量增加C.信息收集成本提升D.信息搜索便捷性https://www.wjx.cn/xz/261160017.aspx
16.北京化工大学人工智能导论期末复习笔记人工智能学科是进来计算机科学领域热门学科,人工智能导论作为一门导论性课程,对我们对机器学习、人工智能、数据挖掘的概念了解还是十分有好处的。 虽然平时这门课没上几节,最后考试也不难,遂把期末复习的笔记整理发布出来,一方面可能有以后的学弟学妹可能有帮助,二来也是做一个小小的记录。 https://www.ihewro.com/archives/798/
17.大数据技术原理与应用期末复习知识点全总结(林子雨版(二)人类社会数据产生方式的3个阶段 (三)大数据的3个发展阶段 第一阶段:萌芽期 时间:20世纪90年代至21世纪初 内容:随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等 第二阶段:成熟期 https://developer.aliyun.com/article/1418435
18.数据挖掘知识总结(精选8篇)6、DBMS须提供以下几方面的数据控制功能:数据的安全性保护、数据的完整性检查、并发控制、数据库恢复。 7、数据管理技术的发展过程:人工管理阶段、文件系统阶段、数据库系统阶段 8、数据库的体系结构为三级结构,它们是存储层、概念层和外部层。 9、在数据库中用数据模型这个工具来抽象、表示和处理现实世界中的数据和https://www.360wenmi.com/f/filep4ahaz92.html
19.人工智能学习心得(通用28篇)逐步建立课程——空间——活动的人工智能教育活动实践,在论坛中也介绍了人工智能教育需要遵循学生各年龄层的学情特点,分为三个阶段,第一阶段大班STEM基础教学,第二轮实践教学建立社团校队,第三开展项目式专训,培育科技特长生,或者各年级年级培养学生人工智能教育的不同目标,小学低年级可以主要培养综合素养,小学高年级跨https://www.yjbys.com/xindetihui/fanwen/3342600.html