什么是实时计算，实时计算的相关技术主要分为哪几个阶段？|数据挖掘过程主要有哪几个阶段组成_在线学习

实时计算一般都是针对海量数据进行的，一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。

主要应用的场景：

昨天来自每个省份不同性别的访问量分布，昨天来自每个省份不同性别不同年龄不同职业不同名族的访问量分布。

主要分为三个阶段（大多是日志流）:

数据的产生与收集阶段、传输与分析处理阶段、存储对对外提供服务阶段

下面具体针对上面三个阶段详细介绍下

1）数据实时采集：

目前的产品：Facebook的Scribe、LinkedIn的Kafka、Cloudera的Flume，淘宝开源的TimeTunnel、Hadoop的Chukwa等，均可以满足每秒数百MB的日志数据采集和传输需求。他们都是开源项目。

2）数据实时计算

在流数据不断变化的运动过程中实时地进行分析，捕捉到可能对用户有用的信息，并把结果发送出去。

实时计算目前的主流产品：

下面是S4和Storm的详细对比

其他的产品：

早期的：IBM的StreamBase、Borealis、Hstreaming、Esper

4.淘宝的实时计算、流式处理

1)银河流数据处理平台：通用的流数据实时计算系统，以实时数据产出的低延迟、高吞吐和复用性为初衷和目标，采用actor模型构建分布式流数据计算框架（底层基于akka），功能易扩展、部分容错、数据和状态可监控。银河具有处理实时流数据（如TimeTunnel收集的实时数据）和静态数据（如本地文件、HDFS文件）的能力，能够提供灵活的实时数据输出，并提供自定义的数据输出接口以便扩展实时计算能力。银河目前主要是为魔方提供实时的交易、浏览和搜索日志等数据的实时计算和分析。

2)基于Storm的流式处理，统计计算、持续计算、实时消息处理。

在淘宝，Storm被广泛用来进行实时日志处理，出现在实时统计、实时风控、实时推荐等场景中。一般来说，我们从类kafka的metaQ或者基于HBase的timetunnel中读取实时日志消息，经过一系列处理，最终将处理结果写入到一个分布式存储中，提供给应用程序访问。我们每天的实时消息量从几百万到几十亿不等，数据总量达到TB级。对于我们来说，Storm往往会配合分布式存储服务一起使用。在我们正在进行的个性化搜索实时分析项目中，就使用了timetunnel+HBase+Storm+UPS的架构，每天处理几十亿的用户日志信息，从用户行为发生到完成分析延迟在秒级。

3)利用Habase实现的Online应用

4）实时查询服务

关于实时计算流数据分析应用举例：

对于电子商务网站上的店铺：

2）显示某个到访顾客的所有历史来访记录，同时实时跟踪显示某个访客在一个店铺正在访问的页面等信息；

下面对Storm详细介绍下：

整体架构图

整个数据处理流程包括四部分：

第一部分是数据接入该部分从前端业务系统获取数据。

第二部分是最重要的Storm实时处理部分，数据从接入层接入，经过实时处理后传入数据落地层；

第三部分为数据落地层，该部分指定了数据的落地方式；

第四部分元数据管理器。

数据接入层

该部分有多种数据收集方式，包括使用消息队列（MetaQ），直接通过网络Socket传输数据，前端业务系统专有数据采集API，对Log问价定时监控。(注：有时候我们的数据源是已经保存下来的log文件，那Spout就必须监控Log文件的变化，及时将变化部分的数据提取写入Storm中，这很难做到完全实时性。)

Storm实时处理层

首先我们通过一个Storm和Hadoop的对比来了解Storm中的基本概念。

1.Nimbus：负责资源分配和任务调度。

2.Supervisor：负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程。

3.Worker：运行具体处理组件逻辑的进程。

4.Task：worker中每一个spout/bolt的线程称为一个task.在Storm0.8之后，task不再与物理线程对应，同一个spout/bolt的task可能会共享一个物理线程，该线程称为executor。

具体业务需求：条件过滤、中间值计算、求topN、推荐系统、分布式RPC、热度统计

数据落地层：

MetaQ

如图架构所示，Storm与MetaQ是有一条虚线相连的，部分数据在经过实时处理之后需要写入MetaQ之中，因为后端业务系统需要从MetaQ中获取数据。这严格来说不算是数据落地，因为数据没有实实在在写入磁盘中持久化。

Mysql

数据量不是非常大的情况下可以使用Mysql作为数据落地的存储对象。Mysql对数据后续处理也是比较方便的，且网络上对Mysql的操作也是比较多的，在开发上代价比较小，适合中小量数据存储。

HDFS

HDFS及基于Hadoop的分布式文件系统。许多日志分析系统都是基于HDFS搭建出来的，所以开发Storm与HDFS的数据落地接口将很有必要。例如将大批量数据实时处理之后存入Hive中，提供给后端业务系统进行处理，例如日志分析，数据挖掘等等。

Lustre

Lustre作为数据落地的应用场景是，数据量很大，且处理后目的是作为归档处理。这种情形，Lustre能够为数据提供一个比较大（相当大）的数据目录，用于数据归档保存。

元数据管理器

元数据管理器的设计目的是，整个系统需要一个统一协调的组件，指导前端业务系统的数据写入，通知实时处理部分数据类型及其他数据描述，及指导数据如何落地。元数据管理器贯通整个系统，是比较重要的组成部分。元数据设计可以使用mysql存储元数据信息，结合缓存机制开源软件设计而成。

在不久的将来，多智时代一定会彻底走入我们的生活，有兴趣入行未来前沿产业的朋友，可以收藏多智时代，及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识，让我们一起携手，引领人工智能的未来

THE END

什么是实时计算，实时计算的相关技术主要分为哪几个阶段？

数据挖掘的定义

数据挖掘基础知识解析：关联规则发现与分类算法评价标准详解

信息资源管理试题

成都市教育科学研究院

审计风险评估通用12篇

最新请简述管理信息系统规划的内容?你认为应该怎样定义管理信息系统(五篇)

工程沙盘实训总结范文

人工智能主要分为哪几个研究阶段，未来的发展方向是什么

制糖业的市场调研与消费者行为分析考核试卷.docx

简述网络营销的优势(精选5篇)

展示设计调查报告模板(10篇)

技术创新商业模式汇总十篇

计算机审计范文

什么是实时计算，实时计算的相关技术主要分为哪几个阶段？

软件工程开题报告（精选19篇）