大数据离线计算中的源数据采集方法和系统与流程|大数据计算的三种方式_在线学习

本公开涉及数据处理技术领域，特别涉及一种大数据离线计算中的源数据采集方法和系统。

背景技术：

随着互联网应用的迅猛发展，基于大数据的各种应用也逐渐增多，进而在各种场景下为用户精准提供服务。基于大数据的应用实现中，首先包括了各类用以收集源数据的终端，以及实现源数据存储的存储系统。

然而，现有基于大数据的应用实现中，终端在完成自身源数据的收集之后，将源数据上报至存储系统中，存储系统中接收的源数据是源源不断的、海量的，通过对源数据的处理来实现相应的服务。

也就是说，当前采集的源数据是存储在存储系统这一平台内的，对于这些源数据所进行的应用仅仅局限于平台内，而并无法充分利用这些源数据来实现更多的服务。

由此可知，现有基于大数据的应用实现中，并无法跨平台地获得源数据，进而造成较低的源数据利用率。

技术实现要素：

一种大数据离线计算中的源数据采集方法，包括：

通过采集集群从存储集群分布式下载源数据，所述源数据是流式地上报至所述存储集群；

将所述下载的源数据上传至离线计算数据库；

所述源数据被存储于所述离线计算数据库。

一种大数据离线计算中的源数据采集系统，所述系统包括：

分布式下载模块，用于运行于采集集群，并从采集集群分布式下载源数据，所述源数据是流式地上报至所述存储集群；

上传模块，用于将所述下载的源数据上传至离线计算数据库；

存储模块，用于将所述源数据被存储于所述离线计算数据库。

本公开的实施例提供的技术方案可以包括以下有益效果：

通过采集集群从存储集群分布式下载源数据，此源数据即为流式地上报至存储服务器的数据，进行了源数据的分布式下载之后，将下载的源数据上传至离线计算数据库，并存储，由此实现了存储集群中源数据的采集，即实现大数据离线计算中的源数据采集，进而通过此过程，可以根据需要跨平台的进行源数据的采集，即对多个存储集群采集源数据，使得源数据所进行的应用不再被局限于平台内，即单一的存储集群中，进而提高了源数据的利用率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本公开所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种装置的框图；

图3是根据一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图；

图4是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图；

图5是图3对应实施例中对通过采集集群从存储集群分布式下载源数据步骤的细节进行描述的流程图；

图6是图5对应实施例中对将源数据分发至数据落地进程步骤的细节进行描述的流程图；

图7是根据一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图；

图8是图3对应实施例中对将下载的源数据上传至离线计算数据库步骤的细节进行描述的流程图；

图9是根据一示例性实施例示出的一种大数据离线计算中源数据采集系统的架构示意图；

图10是根据一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图；

图11是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图；

图12是图10对应实施例中对分布式下载模块的细节进行描述的框图；

图13是图12对应实施例中对数据分发单元的细节进行描述的框图；

图14是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图；

图15是图10对应实施例中对上传模块的细节进行描述的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本公开的实施环境的示意图。该实施环境包括采集集群110和离线计算数据库130。采集集群110和离线计算数据库130将构建了一套数据采集系统。

其中，采集集群110用于实现其它平台内源数据的采集，相对应的，使得离线计算数据库130中能够存储一个或者多个平台内的源数据，进而能够在此平台外实现大数据的离线计算。

图2是根据一示例性实施例示出的一种装置的框图。例如，装置200可以是图1所示实施环境中，采集集群的任意一台机器，和/或，离线计算数据库中的任意一台机器。

参照图2，根据一示例性实施例示出的一种装置的框图。例如，装置200可以是图1所示实施环境中采集集群110和离线计算数据库130包含的机器，比如服务器。

参照图2，该装置200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)222(例如，一个或一个以上处理器)和存储器232，一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中，存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器222可以设置为与存储介质230通信，在装置200上执行存储介质230中的一系列指令操作。装置200还可以包括一个或一个以上电源226，一个或一个以上有线或无线网络接口250，一个或一个以上输入输出接口258，和/或，一个或一个以上操作系统241，例如windowsservertm，macosxtm，unixtm，linuxtm，freebsdtm等等。下述图3、图4、图5、图6、图7和图8所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的装置结构。

图3是根据一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图。该大数据离线计算中的源数据采集方法适用于图1所示实施环境。如图3所示，该大数据离线计算中的源数据采集方法，可以包括以下步骤。

在步骤310中，通过采集集群从存储集群分布式下载源数据，源数据是流式地上报至存储集群。

其中，在基于大数据的应用中，源数据在产生之后，将上报至存储集群，以通过此存储集群对源数据的处理而实现基于大数据的应用中所设定的功能和服务。存储集群中存储了源源不断上报的源数据，数量巨大，且数据重要不可丢失。

采集集群用于实现存储集群中源数据的采集。具体而言，由于数据量大，采集集群采用分布式下载的方式，将一源数据下载到采集集群中不同的机器上，以保证存储集群中源数据的及时采集。

在步骤330中，将下载的源数据上传至离线计算数据库。

其中，离线计算数据库用于实现源数据的持久化存储，以便于能够在后续对采集的源数据进行离线计算，进而充分利用采集的源数据实现丰富的功能和服务。

采集集群在从存储集群获得源数据之后，便将源数据上传至离线计算数据库。

在步骤350中，源数据被存储于离线计算数据库。

通过如上所述的过程，采集集群和离线计算数据库所构建的一套系统便实现了存储集群的采集，以使存储集群这一平台内的源数据流向离线计算数据库，能够在采集集群和离线计算数据库这一套系统所搭建的平台内进一步利用此源数据实现更为丰富的大数据功能，换而言之，实现了源数据的跨平台采集和使用，提高源数据的利用率。

在一个示例性实施例中，离线计算数据库，为分布式存储系统，如，hdfs(hadoop分布式文件系统)，当存在数据有需求时，将根据各个节点的存储使用率、负载水平等因素进行目标存储划分，使得源数据可以均衡、快速分布在离线计算数据库的机器上。

基于此，通过采集集群和离线计算数据库构建的系统，将能够对接各个存储集群，分别从各个存储集群中获得源数据，进而在采集集群和离线计算数据库这一系统平台内获得多个平台的源数据，能够基于多个平台的源数据提供更为强大的功能和服务。

图4是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图。该大数据离线计算中的源数据采集方法，如图4所示，在步骤310之前，还可以包括以下步骤。

在步骤410中，存储集群接收流式上报的源数据，并对接收的源数据进行数据复制得到两份源数据。

其中，为配合采集集群所进行的源数据采集，存储集群在接收到上报的源数据之后，将进行源数据的数据复制，一方面，满足存储集群自身对源数据的存储需求，另一方面，则供采集集群进行下载。

在此需要说明的是，源数据是由一定的数据终端收集所得到的，并由此数据终端上报至存储集群。数据终端可以是传感器，也可以是分布于网络中的各类网络客户端程序、各类网络节点上用以收集源数据的程序，在此不进行限定。

数据终端流式地进行源数据上报，相对应的，存储集群将源源不断地接收到上报的源数据，并且存储集群连接了海量的数据终端，因此，存储集群中的源数据是实时更新。

在一个示例性实施例中，存储集群是mysql存储系统(关系型数据库存储系统)，在接收到流式上报的源数据之后，便通过接口层进行数据复制，以得到两份相同的源数据。

在步骤430中，存储集群对其中一份源数据进行存储，另一份源数据则供采集集群下载。

其中，存储集群自身对源数据进行存储，以保证实现其基本功能，在此之外，还为采集集群提供了可供下载的源数据，以此来使得采集集群能够获得存储集群中的所有源数据，保证了采集集群所获得的源数据的完整性。

通过如上所述的存储系统的实现，为使得存储系统能够最大程度地适配采集集群，进而优化了采集集群所进行的源数据采集过程。

图5是根据一示例性实施例示出的对步骤310的细节进行描述的流程图。该步骤310，如图5所示，可以包括以下步骤。

在步骤311中，通过采集集群的接口层从存储集群下载源数据。

其中，存储集群的源数据每时每刻源源不断地发向采集集群的接口层。

在步骤313中，将源数据分发至数据落地进程，数据落地进程分布在采集集群中的不同机器上。

其中，在采集集群的接口层，将为源数据分配数据落地进程，进而向分配的数据落地进程分发源数据

通过此过程，实现源数据从存储集群到采集集群的流转，同时将源数据下载到采集集群中不同的机器上，进而实现分布式数据下载，使得针对大数据的采集具备很高的采集效率。

图6是根据一示例性实施例示出的对步骤313的细节进行描述的流程图。该步骤313，如图6所示，可以包括以下步骤。

在步骤3131中，根据配置的数据源数量为源数据分配数据落地进程，配置的数据源数量为原始配置的数据源数量或者动态调整的数据源数量。

其中，如前所述的，采集集群进行源数据的分布式下载，也就是说，相同的源数据将被下载至采集集群的多台机器中。

具体而言，采集集群的机器中，都运行了数据落地进程，此数据落地进程用于负责源数据从存储集群至采集集群的下载。由此可知，对于一源数据，将有若干个数据落地进程对其进行下载，这若干个数据落地进程即作为若干个相同的数据源而存在。

因此，数据源数量将用于指示对于一源数据，所对应的数据源数量，也就是下载这一源数据的数据落地进程的数量。

数据源数量，可以是原始配置的数据源数量，也可以是动态调整的数据源数量。原始配置的数据源数量，是指采集集群中预先所配置的数据源的数量；而动态调整的数据源数量，则是指根据采集集群中机器的状态所动态调整的数据源的数量，进而在动态调整的数量源数量的作用下，使得采集集群具备与当前的数据采集状况相适配的数据采集能力。

例如，在当前所分配的若干数据落地进程中，某数据落地进程发生故障时，将需要进行数据源数量的调整，以配置新的数据源数量，此新的数据源数量即为动态调整的数据源数量，将用于进行数据落地进程的重新分配。

在此，对于步骤3131所进行的数据落地进程，一方面，是按照原始配置的数据源数量进行分配；另一方面，在后续所进行的源数据下载中，根据当前的状况自适应地对分配的数据落地进程进行动态调整，即根据当前的状况重新分配数据落地进程。

例如，在一数据落地进程故障时，将通过步骤3131所述的过程，按照动态调整的数据源数量进行数据落地进程的重新分配，实现容灾，进而有效避免采集集群中故障影响数据质量。

在步骤3133中，向分配的数据落地进程分发源数据。

其中，在采集集群的接口层通过前述步骤3131实现了数据落地进程的分配之后，便向分配的数据落地进层分发源数据。

通过如上所述的过程，使得数据落地进程能够实现源数据从存储集群至采集集群的分布式下载。

在一个示例性实施例的具体实现中，采集集群的接口层在接收到源数据之后，按照hash算法进行数据落地进程的分配，以确定此源数据的数据落地进程，进而实现源数据的负载均衡处理。

其中，预先配置了hashkey(散列关键字)，在接口层，会根据hashkey和数据源数量对源数据做取模运算，以确定为此源数据所对应的数据落地进程。

例如，数据源数量为3个，则对该hashkey按照3进行取模运算，将余数为0的源数据分配给第一数据落地进程，余数为1的源数据分配给第二数据落地进程，余数为2的源数据则分配给第三数据落地进程。

图7是根据一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图。该大数据离线计算中的源数据采集方法，如图7所示，还包括以下步骤。

其中，数据落地进程，一方面，如前所述的，实现源数据从存储集群到采集集群的流转；另一方面，实现源数据的本地存储和上传。

在步骤550中，反馈数据落地进程对应的数据源故障。

其中，如前所述的，采集集群的接口层在向数据落地进程分发源数据之前，为源数据进行了数据落地进程的分配。此分配过程是基于正常运行的数据源，即未发生故障的数据落地进程的，因此，在通过心跳数据确认一数据落地进程故障时，将对此进行反馈，以保证采集集群中数据落地进程分配的准确性和有效性。

在步骤570中，根据反馈的数据源故障动态调整数据源数量，动态调整的数据源数量用于重新为源数据分配数据落地进程。

其中，如前所述的，对于一源数据，存在着多个数据源，即获得此源数据的数据落地进程有多个。在通过前述步骤550所进行的数据源故障反馈，可以确定此数据源的多个数据落地进程中，发生了故障的数据落地进程，进而屏蔽此发生了故障的数据落地进程，与之相对应的，此源数据的数据源数量将被相应调整，即删减一定的数量，进而得到动态调整的数据源数量。

在此需要说明的是，动态调整的数据源数量，将被传送至采集集群，以发起采集集群中数据落地进程的重新分配。通过所进行的数据源故障的准确感知和数据源数量的动态调整，将保证了采集集群中数据落地进程分配的准确性和有效性，进而使得采集集群中进行的数据落地进程分配和源数据分发能够自动适应于当前的运行状况，由此也将保证了后续所进行的源数据分发的有效性。

图8是根据一示例性实施例示出的对步骤330的细节进行描述的流程图。该步骤330，如图8所示，包括以下步骤。

在步骤331中，数据落地进程将接收的源数据存储为本地数据。

其中，通过图5对应实施例，数据落地进程将会接收到采集集群的接口层分发的源数据，此时，将其存储为本地数据，即将接收的源数据按照一定的格式写入所在机器的磁盘上。

在步骤333中，汇总本地数据，将汇总的本地数据上传至离线计算数据库，通过本地数据的上传使得下载的源数据被上传至离线计算数据库。

其中，将通过前述步骤进行源数据的存储，源源不断的源数据被进行存储。与之相对应的，存储的本地数据也将不断增加。

随着本地数据的不断增加，将进行本地数据的汇总并上报，以将本地数据存储至离线计算数据库，此时，便实现了从存储集群下载的源数据的存储。

在一个示例性实施例的具体实现中，本地数据的汇总和上传将是通过运行在采集集群的机器上的数据采集客户端程序实现的。

数据采集客户端，即为agent，其是独立于离线计算数据库，而运行在采集集群的机器上的客户端程序。该数据采集客户端用于远程执行离线计算数据库的指令。

也就是说，采集集群的机器中，数据落地进程负责源数据从存储集群到采集集群的下载；数据采集客户端，则用于实现源数据从采集集群到离线计算数据库的上传。

在一个示例性实施例的具体实现中，除了进行本地数据的上传，还将定期清理本地已经采集过的过期数据，以避免采集集群中冗余数据的过度存在。

在一个示例性实施例中，步骤333之前，步骤330还包括以下步骤。

其中，图8对应实施例中本地数据的汇总和上传过程，便是离线计算数据库所实现的源数据采集过程，即离线计算数据库远程操控数据采集客户端实现的采集过程。

本地数据的汇总和上传是定时进行的，即定时实现离线计算数据库的采集过程。

通过本地数据的汇总和上传的定时进行，将有效保证了数据的采集效率和及时性，进而使得后续所进行的离线计算能够具备非常高的有效性。

以传感器数据为源数据，结合具体应用场景，描述该大数据离线计算中的源数据采集方法。

图9是根据一示例性实施例示出的一种大数据离线计算中源数据采集系统的架构示意图。传感器数据是网络中传感器生成并不断向存储集群上报的数据，此大数据离线计算中的源数据采集系统将以存储集群中传感器数据的采集为例进行说明。

大数据离线计算中的源数据采集系统，包括存储集群、采集集群和离线计算数据库。其中，存储集群作为上源存储系统，其包括了构建数据库610以进行传感器数据存储的各个机器，进而实现数据准备。

采集集群中的各个机器中实现了数据落地进程和agent，以实现传感器数据的定时读取，并上传至hdfs670这一分布式存储系统中，由此便使得存储系统中的传感器数据的应用不再仅限于存储系统所在的平台内，而在此平台之外，也能够实现传感器数据的大数据应用。

下述为本公开装置实施例，可以用于执行本公开上述大数据离线计算中的源数据采集方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开的大数据离线计算中的源数据采集方法实施例。

图10是根据一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图。该大数据离线计算中的源数据采集系统，如图10所示，包括但不限于：分布式下载模块710、上传模块730和存储模块750。

分布式下载模块710，用于运行于采集集群，并从存储集群分布式下载源数据，源数据是流式地上报至存储集群；

上传模块730，用于将下载的源数据上传至离线计算数据库。

存储模块750，用于将源数据被存储于离线计算数据库。

图11是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图。该大数据离线计算中的源数据采集系统，如图11所示，还包括但不限于：上报处理模块810和源数据处理模块830。

上报处理模块810，用于在存储集群接收流式上报的源数据，并对接收的源数据进行数据复制得到两份源数据。

源数据处理模块830，用于在存储集群对其中一份源数据进行存储，另一份源数据则供采集集群下载。

图12是根据一示例性实施例示出的分布式下载模块的框图。该分布式下载模块710，如图12所示，包括但不限于：接口层实现单元711和数据分发单元713。

接口层实现单元711，用于实现采集集群的接口层从存储集群下载源数据。

数据分发单元713，用于将源数据分发至数据落地进程，数据落地进程分布于采集集群中的不同机器上。

图13是根据一示例性实施例示出的数据分发单元的框图。该数据分发单元713，如图13所示，包括但不限于：进程分配子单元7131和分发执行子单元7133。

进程分配子单元7131，用于根据配置的数据源数量为源数据分配数据落地进程，配置的数据源数量为原始配置的数据源数量或者动态调整的数据源数量。

分发执行子单元7133，用于向分配的数据落地进程分发源数据。

图14是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图。该大数据离线计算中的源数据采集系统，如图14所示，包括但不限于：心跳数据接收模块910、故障判断模块930、故障反馈模块950和动态调整模块970。

动态调整模块970，用于根据反馈的数据源故障动态调整数据源数量，动态调整的数据源数量用于重新为源数据分配数据落地进程。

图15是根据一示例实施例示出的上传模块的框图。该上传模块730，如图15所示，包括但不限于：本地存储单元731和汇总上传单元733。

本地存储单元731，用于数据落地进程将接收的源数据存储为本地数据。

汇总上传单元733，用于汇总本地数据，将汇总的本地数据上传至离线计算数据库，通过本地数据的上传使得下载的源数据被上传至离线计算数据库。

可选的，本公开还提供一种服务器，该服务器可以用于图1所示实施环境中，执行图3、图4、图5、图6、图7和图8任一所示的大数据离线计算中的源数据采集方法的全部或者部分步骤。所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行：

该实施例中的装置的处理器执行操作的具体方式已经在有关该大数据离线计算中的源数据采集方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质，例如包括指令的存储器204，上述指令可由装置200的处理器218执行以完成上述大数据离线计算中的源数据采集方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

THE END

大数据离线计算中的源数据采集方法和系统与流程

“大数据”核心知识精粹！

揭秘！8步让你成为数据分析高手！数据源大模型神经网络

适用于社会经济统计的大数据技术方法

2024国考国家税务总局湖南省税务局第三税务分局（税收大数据和风险管理局）一级主管及以下（一）成绩计算方式成绩查询时间面试形式

大数据知识梳理（整理中。。。）菜鸟传奇

边缘计算的三种主流模式：MEC微云雾计算与百度智能云文心快码（Comate）的融合应用

大数据处理论文

拒不执行判决裁定罪定罪规则大数据分析

铁路货运合理化建议(精选5篇)

深度解读大数据并行计算方式

大数据赋能政府统计现代化

终于把隐私计算联邦学习多方安全计算机密计算差分隐私全搞清楚了！亿信华辰

大数据离线计算中的源数据采集方法和系统与流程

计算机设计毕业论文

打印邬贺铨：大数据驱动与互联网思维