大数据离线计算中的源数据采集方法和系统与流程

本公开涉及数据处理技术领域,特别涉及一种大数据离线计算中的源数据采集方法和系统。

背景技术:

随着互联网应用的迅猛发展,基于大数据的各种应用也逐渐增多,进而在各种场景下为用户精准提供服务。基于大数据的应用实现中,首先包括了各类用以收集源数据的终端,以及实现源数据存储的存储系统。

然而,现有基于大数据的应用实现中,终端在完成自身源数据的收集之后,将源数据上报至存储系统中,存储系统中接收的源数据是源源不断的、海量的,通过对源数据的处理来实现相应的服务。

也就是说,当前采集的源数据是存储在存储系统这一平台内的,对于这些源数据所进行的应用仅仅局限于平台内,而并无法充分利用这些源数据来实现更多的服务。

由此可知,现有基于大数据的应用实现中,并无法跨平台地获得源数据,进而造成较低的源数据利用率。

技术实现要素:

一种大数据离线计算中的源数据采集方法,包括:

通过采集集群从存储集群分布式下载源数据,所述源数据是流式地上报至所述存储集群;

将所述下载的源数据上传至离线计算数据库;

所述源数据被存储于所述离线计算数据库。

一种大数据离线计算中的源数据采集系统,所述系统包括:

分布式下载模块,用于运行于采集集群,并从采集集群分布式下载源数据,所述源数据是流式地上报至所述存储集群;

上传模块,用于将所述下载的源数据上传至离线计算数据库;

存储模块,用于将所述源数据被存储于所述离线计算数据库。

本公开的实施例提供的技术方案可以包括以下有益效果:

通过采集集群从存储集群分布式下载源数据,此源数据即为流式地上报至存储服务器的数据,进行了源数据的分布式下载之后,将下载的源数据上传至离线计算数据库,并存储,由此实现了存储集群中源数据的采集,即实现大数据离线计算中的源数据采集,进而通过此过程,可以根据需要跨平台的进行源数据的采集,即对多个存储集群采集源数据,使得源数据所进行的应用不再被局限于平台内,即单一的存储集群中,进而提高了源数据的利用率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。

图1是根据本公开所涉及的实施环境的示意图;

图2是根据一示例性实施例示出的一种装置的框图;

图3是根据一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图;

图4是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图;

图5是图3对应实施例中对通过采集集群从存储集群分布式下载源数据步骤的细节进行描述的流程图;

图6是图5对应实施例中对将源数据分发至数据落地进程步骤的细节进行描述的流程图;

图7是根据一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图;

图8是图3对应实施例中对将下载的源数据上传至离线计算数据库步骤的细节进行描述的流程图;

图9是根据一示例性实施例示出的一种大数据离线计算中源数据采集系统的架构示意图;

图10是根据一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图;

图11是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图;

图12是图10对应实施例中对分布式下载模块的细节进行描述的框图;

图13是图12对应实施例中对数据分发单元的细节进行描述的框图;

图14是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图;

图15是图10对应实施例中对上传模块的细节进行描述的框图。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本公开的实施环境的示意图。该实施环境包括采集集群110和离线计算数据库130。采集集群110和离线计算数据库130将构建了一套数据采集系统。

其中,采集集群110用于实现其它平台内源数据的采集,相对应的,使得离线计算数据库130中能够存储一个或者多个平台内的源数据,进而能够在此平台外实现大数据的离线计算。

图2是根据一示例性实施例示出的一种装置的框图。例如,装置200可以是图1所示实施环境中,采集集群的任意一台机器,和/或,离线计算数据库中的任意一台机器。

参照图2,根据一示例性实施例示出的一种装置的框图。例如,装置200可以是图1所示实施环境中采集集群110和离线计算数据库130包含的机器,比如服务器。

参照图2,该装置200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在装置200上执行存储介质230中的一系列指令操作。装置200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。下述图3、图4、图5、图6、图7和图8所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的装置结构。

图3是根据一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图。该大数据离线计算中的源数据采集方法适用于图1所示实施环境。如图3所示,该大数据离线计算中的源数据采集方法,可以包括以下步骤。

在步骤310中,通过采集集群从存储集群分布式下载源数据,源数据是流式地上报至存储集群。

其中,在基于大数据的应用中,源数据在产生之后,将上报至存储集群,以通过此存储集群对源数据的处理而实现基于大数据的应用中所设定的功能和服务。存储集群中存储了源源不断上报的源数据,数量巨大,且数据重要不可丢失。

采集集群用于实现存储集群中源数据的采集。具体而言,由于数据量大,采集集群采用分布式下载的方式,将一源数据下载到采集集群中不同的机器上,以保证存储集群中源数据的及时采集。

在步骤330中,将下载的源数据上传至离线计算数据库。

其中,离线计算数据库用于实现源数据的持久化存储,以便于能够在后续对采集的源数据进行离线计算,进而充分利用采集的源数据实现丰富的功能和服务。

采集集群在从存储集群获得源数据之后,便将源数据上传至离线计算数据库。

在步骤350中,源数据被存储于离线计算数据库。

通过如上所述的过程,采集集群和离线计算数据库所构建的一套系统便实现了存储集群的采集,以使存储集群这一平台内的源数据流向离线计算数据库,能够在采集集群和离线计算数据库这一套系统所搭建的平台内进一步利用此源数据实现更为丰富的大数据功能,换而言之,实现了源数据的跨平台采集和使用,提高源数据的利用率。

在一个示例性实施例中,离线计算数据库,为分布式存储系统,如,hdfs(hadoop分布式文件系统),当存在数据有需求时,将根据各个节点的存储使用率、负载水平等因素进行目标存储划分,使得源数据可以均衡、快速分布在离线计算数据库的机器上。

基于此,通过采集集群和离线计算数据库构建的系统,将能够对接各个存储集群,分别从各个存储集群中获得源数据,进而在采集集群和离线计算数据库这一系统平台内获得多个平台的源数据,能够基于多个平台的源数据提供更为强大的功能和服务。

图4是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图。该大数据离线计算中的源数据采集方法,如图4所示,在步骤310之前,还可以包括以下步骤。

在步骤410中,存储集群接收流式上报的源数据,并对接收的源数据进行数据复制得到两份源数据。

其中,为配合采集集群所进行的源数据采集,存储集群在接收到上报的源数据之后,将进行源数据的数据复制,一方面,满足存储集群自身对源数据的存储需求,另一方面,则供采集集群进行下载。

在此需要说明的是,源数据是由一定的数据终端收集所得到的,并由此数据终端上报至存储集群。数据终端可以是传感器,也可以是分布于网络中的各类网络客户端程序、各类网络节点上用以收集源数据的程序,在此不进行限定。

数据终端流式地进行源数据上报,相对应的,存储集群将源源不断地接收到上报的源数据,并且存储集群连接了海量的数据终端,因此,存储集群中的源数据是实时更新。

在一个示例性实施例中,存储集群是mysql存储系统(关系型数据库存储系统),在接收到流式上报的源数据之后,便通过接口层进行数据复制,以得到两份相同的源数据。

在步骤430中,存储集群对其中一份源数据进行存储,另一份源数据则供采集集群下载。

其中,存储集群自身对源数据进行存储,以保证实现其基本功能,在此之外,还为采集集群提供了可供下载的源数据,以此来使得采集集群能够获得存储集群中的所有源数据,保证了采集集群所获得的源数据的完整性。

通过如上所述的存储系统的实现,为使得存储系统能够最大程度地适配采集集群,进而优化了采集集群所进行的源数据采集过程。

图5是根据一示例性实施例示出的对步骤310的细节进行描述的流程图。该步骤310,如图5所示,可以包括以下步骤。

在步骤311中,通过采集集群的接口层从存储集群下载源数据。

其中,存储集群的源数据每时每刻源源不断地发向采集集群的接口层。

在步骤313中,将源数据分发至数据落地进程,数据落地进程分布在采集集群中的不同机器上。

其中,在采集集群的接口层,将为源数据分配数据落地进程,进而向分配的数据落地进程分发源数据

通过此过程,实现源数据从存储集群到采集集群的流转,同时将源数据下载到采集集群中不同的机器上,进而实现分布式数据下载,使得针对大数据的采集具备很高的采集效率。

图6是根据一示例性实施例示出的对步骤313的细节进行描述的流程图。该步骤313,如图6所示,可以包括以下步骤。

在步骤3131中,根据配置的数据源数量为源数据分配数据落地进程,配置的数据源数量为原始配置的数据源数量或者动态调整的数据源数量。

其中,如前所述的,采集集群进行源数据的分布式下载,也就是说,相同的源数据将被下载至采集集群的多台机器中。

具体而言,采集集群的机器中,都运行了数据落地进程,此数据落地进程用于负责源数据从存储集群至采集集群的下载。由此可知,对于一源数据,将有若干个数据落地进程对其进行下载,这若干个数据落地进程即作为若干个相同的数据源而存在。

因此,数据源数量将用于指示对于一源数据,所对应的数据源数量,也就是下载这一源数据的数据落地进程的数量。

数据源数量,可以是原始配置的数据源数量,也可以是动态调整的数据源数量。原始配置的数据源数量,是指采集集群中预先所配置的数据源的数量;而动态调整的数据源数量,则是指根据采集集群中机器的状态所动态调整的数据源的数量,进而在动态调整的数量源数量的作用下,使得采集集群具备与当前的数据采集状况相适配的数据采集能力。

例如,在当前所分配的若干数据落地进程中,某数据落地进程发生故障时,将需要进行数据源数量的调整,以配置新的数据源数量,此新的数据源数量即为动态调整的数据源数量,将用于进行数据落地进程的重新分配。

在此,对于步骤3131所进行的数据落地进程,一方面,是按照原始配置的数据源数量进行分配;另一方面,在后续所进行的源数据下载中,根据当前的状况自适应地对分配的数据落地进程进行动态调整,即根据当前的状况重新分配数据落地进程。

例如,在一数据落地进程故障时,将通过步骤3131所述的过程,按照动态调整的数据源数量进行数据落地进程的重新分配,实现容灾,进而有效避免采集集群中故障影响数据质量。

在步骤3133中,向分配的数据落地进程分发源数据。

其中,在采集集群的接口层通过前述步骤3131实现了数据落地进程的分配之后,便向分配的数据落地进层分发源数据。

通过如上所述的过程,使得数据落地进程能够实现源数据从存储集群至采集集群的分布式下载。

在一个示例性实施例的具体实现中,采集集群的接口层在接收到源数据之后,按照hash算法进行数据落地进程的分配,以确定此源数据的数据落地进程,进而实现源数据的负载均衡处理。

其中,预先配置了hashkey(散列关键字),在接口层,会根据hashkey和数据源数量对源数据做取模运算,以确定为此源数据所对应的数据落地进程。

例如,数据源数量为3个,则对该hashkey按照3进行取模运算,将余数为0的源数据分配给第一数据落地进程,余数为1的源数据分配给第二数据落地进程,余数为2的源数据则分配给第三数据落地进程。

图7是根据一示例性实施例示出的一种大数据离线计算中的源数据采集方法的流程图。该大数据离线计算中的源数据采集方法,如图7所示,还包括以下步骤。

其中,数据落地进程,一方面,如前所述的,实现源数据从存储集群到采集集群的流转;另一方面,实现源数据的本地存储和上传。

在步骤550中,反馈数据落地进程对应的数据源故障。

其中,如前所述的,采集集群的接口层在向数据落地进程分发源数据之前,为源数据进行了数据落地进程的分配。此分配过程是基于正常运行的数据源,即未发生故障的数据落地进程的,因此,在通过心跳数据确认一数据落地进程故障时,将对此进行反馈,以保证采集集群中数据落地进程分配的准确性和有效性。

在步骤570中,根据反馈的数据源故障动态调整数据源数量,动态调整的数据源数量用于重新为源数据分配数据落地进程。

其中,如前所述的,对于一源数据,存在着多个数据源,即获得此源数据的数据落地进程有多个。在通过前述步骤550所进行的数据源故障反馈,可以确定此数据源的多个数据落地进程中,发生了故障的数据落地进程,进而屏蔽此发生了故障的数据落地进程,与之相对应的,此源数据的数据源数量将被相应调整,即删减一定的数量,进而得到动态调整的数据源数量。

在此需要说明的是,动态调整的数据源数量,将被传送至采集集群,以发起采集集群中数据落地进程的重新分配。通过所进行的数据源故障的准确感知和数据源数量的动态调整,将保证了采集集群中数据落地进程分配的准确性和有效性,进而使得采集集群中进行的数据落地进程分配和源数据分发能够自动适应于当前的运行状况,由此也将保证了后续所进行的源数据分发的有效性。

图8是根据一示例性实施例示出的对步骤330的细节进行描述的流程图。该步骤330,如图8所示,包括以下步骤。

在步骤331中,数据落地进程将接收的源数据存储为本地数据。

其中,通过图5对应实施例,数据落地进程将会接收到采集集群的接口层分发的源数据,此时,将其存储为本地数据,即将接收的源数据按照一定的格式写入所在机器的磁盘上。

在步骤333中,汇总本地数据,将汇总的本地数据上传至离线计算数据库,通过本地数据的上传使得下载的源数据被上传至离线计算数据库。

其中,将通过前述步骤进行源数据的存储,源源不断的源数据被进行存储。与之相对应的,存储的本地数据也将不断增加。

随着本地数据的不断增加,将进行本地数据的汇总并上报,以将本地数据存储至离线计算数据库,此时,便实现了从存储集群下载的源数据的存储。

在一个示例性实施例的具体实现中,本地数据的汇总和上传将是通过运行在采集集群的机器上的数据采集客户端程序实现的。

数据采集客户端,即为agent,其是独立于离线计算数据库,而运行在采集集群的机器上的客户端程序。该数据采集客户端用于远程执行离线计算数据库的指令。

也就是说,采集集群的机器中,数据落地进程负责源数据从存储集群到采集集群的下载;数据采集客户端,则用于实现源数据从采集集群到离线计算数据库的上传。

在一个示例性实施例的具体实现中,除了进行本地数据的上传,还将定期清理本地已经采集过的过期数据,以避免采集集群中冗余数据的过度存在。

在一个示例性实施例中,步骤333之前,步骤330还包括以下步骤。

其中,图8对应实施例中本地数据的汇总和上传过程,便是离线计算数据库所实现的源数据采集过程,即离线计算数据库远程操控数据采集客户端实现的采集过程。

本地数据的汇总和上传是定时进行的,即定时实现离线计算数据库的采集过程。

通过本地数据的汇总和上传的定时进行,将有效保证了数据的采集效率和及时性,进而使得后续所进行的离线计算能够具备非常高的有效性。

以传感器数据为源数据,结合具体应用场景,描述该大数据离线计算中的源数据采集方法。

图9是根据一示例性实施例示出的一种大数据离线计算中源数据采集系统的架构示意图。传感器数据是网络中传感器生成并不断向存储集群上报的数据,此大数据离线计算中的源数据采集系统将以存储集群中传感器数据的采集为例进行说明。

大数据离线计算中的源数据采集系统,包括存储集群、采集集群和离线计算数据库。其中,存储集群作为上源存储系统,其包括了构建数据库610以进行传感器数据存储的各个机器,进而实现数据准备。

采集集群中的各个机器中实现了数据落地进程和agent,以实现传感器数据的定时读取,并上传至hdfs670这一分布式存储系统中,由此便使得存储系统中的传感器数据的应用不再仅限于存储系统所在的平台内,而在此平台之外,也能够实现传感器数据的大数据应用。

下述为本公开装置实施例,可以用于执行本公开上述大数据离线计算中的源数据采集方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开的大数据离线计算中的源数据采集方法实施例。

图10是根据一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图。该大数据离线计算中的源数据采集系统,如图10所示,包括但不限于:分布式下载模块710、上传模块730和存储模块750。

分布式下载模块710,用于运行于采集集群,并从存储集群分布式下载源数据,源数据是流式地上报至存储集群;

上传模块730,用于将下载的源数据上传至离线计算数据库。

存储模块750,用于将源数据被存储于离线计算数据库。

图11是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图。该大数据离线计算中的源数据采集系统,如图11所示,还包括但不限于:上报处理模块810和源数据处理模块830。

上报处理模块810,用于在存储集群接收流式上报的源数据,并对接收的源数据进行数据复制得到两份源数据。

源数据处理模块830,用于在存储集群对其中一份源数据进行存储,另一份源数据则供采集集群下载。

图12是根据一示例性实施例示出的分布式下载模块的框图。该分布式下载模块710,如图12所示,包括但不限于:接口层实现单元711和数据分发单元713。

接口层实现单元711,用于实现采集集群的接口层从存储集群下载源数据。

数据分发单元713,用于将源数据分发至数据落地进程,数据落地进程分布于采集集群中的不同机器上。

图13是根据一示例性实施例示出的数据分发单元的框图。该数据分发单元713,如图13所示,包括但不限于:进程分配子单元7131和分发执行子单元7133。

进程分配子单元7131,用于根据配置的数据源数量为源数据分配数据落地进程,配置的数据源数量为原始配置的数据源数量或者动态调整的数据源数量。

分发执行子单元7133,用于向分配的数据落地进程分发源数据。

图14是根据另一示例性实施例示出的一种大数据离线计算中的源数据采集系统的框图。该大数据离线计算中的源数据采集系统,如图14所示,包括但不限于:心跳数据接收模块910、故障判断模块930、故障反馈模块950和动态调整模块970。

动态调整模块970,用于根据反馈的数据源故障动态调整数据源数量,动态调整的数据源数量用于重新为源数据分配数据落地进程。

图15是根据一示例实施例示出的上传模块的框图。该上传模块730,如图15所示,包括但不限于:本地存储单元731和汇总上传单元733。

本地存储单元731,用于数据落地进程将接收的源数据存储为本地数据。

汇总上传单元733,用于汇总本地数据,将汇总的本地数据上传至离线计算数据库,通过本地数据的上传使得下载的源数据被上传至离线计算数据库。

可选的,本公开还提供一种服务器,该服务器可以用于图1所示实施环境中,执行图3、图4、图5、图6、图7和图8任一所示的大数据离线计算中的源数据采集方法的全部或者部分步骤。所述装置包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行:

该实施例中的装置的处理器执行操作的具体方式已经在有关该大数据离线计算中的源数据采集方法的实施例中执行了详细描述,此处将不做详细阐述说明。

在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质,例如包括指令的存储器204,上述指令可由装置200的处理器218执行以完成上述大数据离线计算中的源数据采集方法。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

THE END
1.如何确定计算方式?计算在哪些领域有应用?股票频道教育领域也逐渐引入计算技术,个性化学习方案的制定、在线教育平台的优化等都需要计算的支持。 总之,计算已经渗透到我们生活和工作的方方面面,正确确定计算方式以及充分利用计算在各个领域的应用,对于提高效率、解决问题和推动创新都具有重要意义。 看全文https://stock.hexun.com/2024-12-16/216196359.html
2.大数据机器学习算法概论腾讯云开发者社区大数据 机器学习 算法概论_大数据_02 可以看出手机购物时,当我们搜索某家商店的某件商品时。系统会根据我们的搜索历史和购买历史进行相似物品的推荐。 分类算法(医学上的肿瘤判断) 如何判断细胞是否属于肿瘤细胞呢?肿瘤细胞和普通细胞,有差别。但是,需要非常有经验的医生,通过病理切片才能判断。如果通过机器学习的方式,https://cloud.tencent.com/developer/article/2479107
3.大数据的数据来源和类型有哪些列举大数据的数据来源和类型有哪些? 大数据的数据来源主要有以下几种: 1. 传统商业数据:来自于企业ERP系统、各种POS终端及网上电商支付系统。 2. 互联网数据:特点是大量化、多样化、快速化。 3. 物联网数据:通过射频识别装置,传感器、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与https://www.hq66.cn/a/xpyqlx743.html
4.www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c5知识库 知识分类:|知识来源: |发布日期:https://www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c53328be6244e40b_8EC2B931E96309B121FA411C24B82731
5.大数据和云计算:它们如何融合及其优势数字经济观察网增强数据分析能力:云平台提供了强大的数据分析工具,如机器学习、人工智能和大数据处理框架,这些工具帮助企业从海量数据中提取有价值的洞察,推动业务创新和优化。 总结 大数据与云计算的融合代表着企业信息管理和数据使用方式的一场革命。这种技术的结合不仅降低了企业的IT成本,还提升了灵活性、可扩展性和决策效率。随着这https://www.szw.org.cn/20241219/68496.html
6.证券消息不会做大数据计算?10年数据分析师整理,一文给出解决方案据报道|不会做大数据计算?10年数据分析师整理,一文给出解决方案2024-12-18 10:30:59 来源: 金羊网 作者: 谷沙洋 金羊网记者 谷沙洋 报道 另wai,近xie年受jing济下xing、大gui模减shui降费、楼市tu地市chang低迷deng影响,地方cai政收ru受到yi定冲ji,而gang性支chu有增wu减。zai财政shou支矛dun不断jia大http://www.lieren2000.com/wap/colormethod_view.asp?/www/linux/11249220_20241217.shtml
7.Spark简介以及与Hadoop对比分析云计算技术计算中间结果的存储 在内存中维护,存取速度比磁盘高几个数量级 落到磁盘,IO及序列化、反序列化代价大 Task维护方式 线程 进程 时间 对于小数据集读取能够达到亚秒级的延迟 需要数秒时间才能启动任务 2. Spark 生态系统 2.1 大数据处理的三种类型 1. 复杂的批量数据处理 时间跨度在数十分钟到数小时 Haoop MapRehttps://www.jb51.net/article/221228.htm
8.大数据计算引擎之二:数据处理三种类型大数据处理的三个类型【大数据】计算引擎之二:数据处理三种类型 在深入介绍不同实现的指标和结论之前,首先需要对不同处理类型的概念进行一个简单的介绍。 1.批处理系统 批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。 批处理模式中使用的数据集通常符合下列特征https://blog.csdn.net/pearl8899/article/details/102989401
9.数据中台计算方式有哪些帆软数字化转型知识库数据中台计算方式包括:批处理计算、流处理计算、交互式查询、内存计算、大数据计算、实时计算、分布式计算、图计算。批处理计算是数据中台的一种基础计算方式,通常用于处理大规模历史数据,具有高吞吐量和高延迟的特点。它通过预设的调度策略,将数据划分为多个批次进行处理,适用于数据量大但实时性要求不高的场景。例如,日https://www.fanruan.com/blog/article/638752/
10.[原创]云边智能:电力系统运行控制的边缘计算方法及其应用现状与同样地, 边边协同也有三种模式: 1)边边计算协同. 云端的超算中心对模型和算法进行训练, 根据边缘节点的情况将已训练好的模型进行下发, 每个边缘计算服务器只执行一部分算法, 最终通过协同的方式完成应用任务; 2)边边分布式训练协同. 边缘计算服务器有完整的模型和算法, 并利用边缘端数据承担模型和算法的训练任务,https://wangfeiyue.blogchina.com/972904091.html
11.首页广东省大数据计算基础理论与方法重点实验室?东省?数据计算基础理论与?法重点实验室于 2021 年经?东省科技厅批注立项建设,依托香港中学(深圳)。本重点实验室以“大数据计算基础理论与方法”为主题,面向数据科学与大数据技术中核心的理论与计算方法,深入探索大数据理论与计算方法中的核心难题,并将大数据的方法以创新的方式应用到社会运行核心行业https://gklbdc.cuhk.edu.cn/
12.科普物联网和大数据云计算之间的关系摘要:在此文中,我们将讨论物联网,大数据和云计算这三种技术之间的相互关系。其背后的原因是大量的物联网数据生成将为大数据系统提供数据。因此,对于上述两点,我们明确认为需要为物联网和大数据采用基于云的系统。 我们现在的社会正在步入物联网、大数据和云计算时代。这些技术中的每一个都会有瓶颈,例如可伸缩性差安全https://www.ucloud.cn/yun/126053.html
13.大数据的矩阵计算基础培训炼数成金课程现开始接受报名,报名方式 网上报名 请点击:大数据的矩阵计算基础 咨询Email :edu01@dataguru.cn,edu02@dataguru.cn 课程入门讨论咨询群:303917420(群内有培训公开课视频供大家免费观看) 咨询QQ: 2222010006 (上班时间在线) 技术热点、行业资讯,培训课程信息,尽在炼数成金官方微信,低成本传递高端知识!技术成就梦想http://www.dataguru.cn/article-4621-1.html
14.深入浅出学大数据(一)大数据发展历程及大数据的简单介绍根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。在2010年前后爆发的第三次信息化浪潮期间,由于信息逐渐增加,为了解决信息爆炸问题,物联网、云计算和大数据相继兴起了起来。下图为三次信息化浪潮发生时间、标志、解决问题以及代表企业。 https://blog.51cto.com/14683590/4909933
15.云计算的三种模式IaaS/PaaS/SaaS/BaaS对比:SaaS架构设计分析所以在云计算的三种模式 IaaS/PaaS/SaaS,SaaS 面对的用户最多,如同 C 端,应用程序的任何更新或者修复漏洞操作都是由软件提供商负责实施和处理的,由于租户是通过互联网获取软件服务,所以租户端无需下载任何的升级包或者修复补丁,是一种开箱即获取最新软件产品的服务方式。 https://xie.infoq.cn/article/14235db9f2e88cc58cde08228