大数据分析与计算技术国家地方联合工程实验室

大数据是与自然资源、人力资源一样重要的战略资源,是一个国家数字主权的体现。大数据时代,国家层面的竞争力将部分体现一国拥有的大数据的规模、活性以及对数据的解释、运用的能力。工程实验室对于保障我国数字主权,提升国家大数据研发水平,满足国家大数据产业的重大需求,促进国家发展战略具有重要的意义。

同时大数据将引起科技界对科学研究方法论的重新审视,引发科学思维与方法的一场革命。大数据的出现催生了一种新的科研模式,即面对海量数据,科研人员只需从数据中查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象。工程实验室建设项目的产出将促进科研方式的转变,在降低成本的同时提高科研效率和提升创新能力。

2.创造巨大的环境效益

随着大数据时代的来临,制造企业的ERP、PLM等信息化系统的部署也逐步完成,管理方式由粗放式管理转为精细化管理,企业的能源消耗结构也逐渐清晰,企业在实现对业务数据进行有效管理的同时,积累了大量的数据信息,产生了利用大数据收集、管理和展示分析技术,建立能源消耗信息网络,有助于对工业企业用能和减排数据的统计、查阅、管理,有助于对工业企业用能和减排运行态势进行分析、预警,有助于对企业用能和减排工作进行监督管理,更有助于对工业企业用能和减排工作提供智能支持。

通过能源消耗信息网络,可以对企业的耗能行为和能源市场细分,自动分析各企业的用能指标,计算能源消费弹性系数,对能耗趋势提前预警,对节能减排工作进行监督。加速企业智能化控制的步伐,促进智能网络的发展,解决能源接入和调度问题,推广柔性能源系统的应用,实现运维智能化,创造巨大的环境效益。

3.助力实体行业可持续发展

4.攻克制约大数据产业发展的技术难题

由于大数据的规模性、高速性、多样性等本质决定了其处理过程的复杂性,因此,大数据技术在带来巨大利益的同时,也面临着如何处理大数据这一难题。目前大数据分析与计算还面临诸多挑战:

①高效率低成本的大数据存储和计算技术。大数据的存储方式不仅影响其后的数据分析处理效率也影响数据存储的成本。因此,就需要研究高效率低成本的数据存储方式,同时大数据应用的多样性也需要对不同计算资源的间的灵活调度和统一服务。

②多源异构数据的组织管理。如何提供设计可扩展、高可用的数据存储组织结构,解决海量并发用户请求和在线数据查询处理问题。

③大数据的有效融合和关联发现。数据不整合就发挥不出大数据的大价值。大数据的泛滥与数据格式太多有关。大数据面临的一个重要问题是个人、企业和政府机构的各种数据和信息能否方便地融合。同时具体包括多源异构数据的一致化管理和组织、高速索引创建与存储以及关联发现等。

④大数据的高效处理与可视化。如何实现支持针对数据密集和计算密集并存的统一处理框架,提供大数据用户使用的分析即服务(AaaS)的常用数据挖掘与分析算法。如何较好地实现数据分析的展示和操作,尤其是复杂分析操作的直观展示?如何实现海量时空数据提供快速可视化和时空分析服务?

为此,针对目前大数据技术领域存在的主要问题和挑战,程实验室将围绕大数据分析与计算的关键领域开展技术研究,对于大数据的应用提供理论与技术支持,并积极推动成果转化,辐射带动行业的进步与升级。

■主要任务

1.关键技术的突破

工程实验室通过对支持大数据应用服务的云计算技术、大数据融合管理和关联发现技术、大数据分析与可视化技术等研究,产出各类论文、标准、建议与原型,包括大数据管理系统、大数据并行处理引擎、大数据分析与挖掘工具集,提升我国在大数据应用服务技术的自主创新能力。

2.满足国家大数据核心算法、技术与系统研发的需求

工程实验室建设支持大数据核心算法、软件及系统试验测试公共服务平台,为国家大数据科研人员提供研制的大数据存储、计算和网络设备,大数据管理和处理的系统软件,大数据分析与可视化模型与算法提供近乎真实的试验环境,提升国家大数据应用服务研发水平,满足国家大数据产业的重大战略需求。

3.面向产业界的技术辐射

工程实验室通过大数据应用服务关键技术在食品安全、新材料创新、车用能源与排放等大数据应用的验证,逐步形成行业大数据应用服务解决方案,并进行推广和延伸。为产业界提供相应的咨询培训及测试平台,凝聚和培养高水平产业技术人才。积极开展国际学术交流以及产学研合作,实施知识产权战略,为大数据应用服务科研界和产业界提供新技术测试和辐射平台。

■管理机制与运行体制

工程实验室依托中国科学院计算机网络信息中心(简称计算机网络信息中心)进行建设,实行理事会领导下的主任负责制。

计算机网络信息中心是中国科学院(简称中科院)下属的科研事业单位,是中科院科研信息化和管理信息化的支撑服务机构,信息化应用技术的研发和示范基地。二十余年来,计算机网络信息中心立足支撑与服务全院科研信息化和管理信息化,汇聚管理信息化资源,发挥了科研应用的信息化、学科交叉开放融合、科学思想传播和科研信息化理念传播的先遣队作用,成为我院信息化基础设施建设、运维和信息化基础服务的一支中坚力量,成为引领中国科研信息化建设和运行服务的一流信息中心。

理事会成员单位由中国科学院计算机网络信息中心、中国科学院物理研究所、北京市食品安全监控中心、北京科技大学、中国汽车技术研究中心北京工作部(北京卡达克科技中心)、北龙泽达数据(北京)科技有限公司、中国科学院科技促进发展局和中国科学院条件保障与财务局等组成,充分体现产学研合作。

科学技术委员会为实验室的技术咨询与评议机构,其主要职能是受理事会委托,为学术研究方向、发展目标、成果转化等提供咨询建议和评议。

■研发方向

1.支持大数据应用服务的云计算技术

(1)异构存储资源统一管理和服务

随着云计算和大数据的推广,数据中心逐步向高伸缩、高可用和高度资源共享的方向发展,将单个的分散的硬件设施进行整合、优化,从而形成集成的、按需分配的共享资源池已成为一种趋势。大数据种类多,涵盖了结构化数据、非结构化数据以及对象数据,分别采用数据块接口、文件接口和对象接口进行访问。

因此需要研究统一存储管理和服务技术,形成统一存储系统,将块存储、文件存储和对象存储一同整合到统一存储中,提高存储资源利用率,简化管理和降低总体成本。统一存储系统应具备高性能、可扩展性和高成本效益,应具有支持对象存储的能力。

(2)异构计算资源的统一管理和动态调度

研究支持异构服务器和异构虚拟化计划的统一管理,实现资源的整合与统一服务;研究虚拟资源池内、物理资源池与虚拟资源池之间的动态调度技术,实现资源的按需使用,提高计算资源整体的使用效率。

(3)自动化部署技术

研究支持软件或者应用系统快速批量部署的数据模型和工作流引擎,通过将具体的软硬件甚至逻辑概念定义在数据模型中,管理工具可以标识并在工作流中调度这些资源,实现分类管理。工作流引擎是调用和触发工作流,实现部署自动化的核心机制,自动将不同种类的脚本流程整合在一个集中、可重复使用的工作流数据库中。

2.大数据融合管理与关联发现技术

(1)大数据融合管理技术

为多种类型的海量数据提供低成本的、易扩展(scaleout)的、一体化的组织与管理,支持的数据类型包括结构化数据、半结构化数据以及非结构化数据。数据存储组织结构具有高可扩展能力,能够应对数据量的快速增长。具备良好的容错能力,能够应对数据中心硬件环境的突变。支持包括离线数据分析和在线实时访问两种不同需求的海量数据高效处理模式,向应用软件及终端用户提供方便易用的类SQL访问接口。支持高性能、高吞吐的离线数据分析,能够对海量数据进行分布式的计算处理并快速返回结果。支持大规模用户的键/值数据在线实时访问,保证较低的响应延迟。

(2)大数据关联发现技术

结合关联发现的各个环节,构建一个完整的数据关联发现流水线,其中主要包括三部分内容,即关联数据发布、关联发现、数据融合,图3-1展示了数据关联发现的整个流程。

(3)关联数据发布技术

支持不同领域的知识本体的构建,包括手动和自动构建。支持多种异构数据源、多种格式数据的发布,通过灵活配置实现新的数据源或数据格式的发布。对不同数据源进行实时监控,保持关联数据中的数据与原始数据的同步。针对大规模的数据源,研究分布式、多任务的关联数据发布。

(4)数据关联发现方法

突破超大规模的、属性不对称的、发现进程可持续迭代的数据关联发现技术。研究适合于超大规模的数据属性相似度计算问题,提出可横向扩展的计算框架。针对目前的科学数据属性缺失、属性不对称问题,研究基于第三方开放数据集的数据比对技术。针对关联发现过程的迭代性,研发支持多任务、多路径、可多次迭代的关联发现引擎。

(5)关联数据融合技术

实现关联数据的冲突处理,对于不同的数据,提供多种冲突处理策略。支持数据质量评估,通过不同的评估策略,对关联数据进行清理、过滤、规范等。

3.大数据分析与可视化技术

(1)大数据处理技术

基于多类型的基础设施,构建应用感知的大数据并行处理框架;以典型的大数据处理模型为切入点,研究并构建基于分布式并行编程模型MapReduce、并行计算开源框架MPI、并行计算模型GPU为基础的松散耦合的并行计算模块和高性能计算模块;研究大数据自动并行处理框架NoPar;研究支持NoPar框架的底层数据分割与分布机制;提出面向高效大规模数据处理的并行处理框架和方法,支持兼容MapReduce、Dataflow和MPI编程模型并具有容错功能的混合编程运行时系统和不同模型下的任务向资源的映射策略。研究本地节点上多磁盘聚合带宽策略及实现机制,以提升大数据IO性能;研究根据数据位置以及计算系统性能等综合指标进行智能调度的作业调度机制,研究支持失败作业自恢复的方法和手段。

(2)大数据挖掘和分析技术

研究面向海量数据分析的并行数据挖掘技术,能够有效支持迭代、递归等复杂数据分析应用。构建一套基于MapReduce、MPI、GPU等并行编程模型的数据挖掘算法库,同时支持第三方数据挖掘工具的接入,提供开放共享的海量数据分析核心算法库服务。构建大数据挖掘云服务模块,以分析即服务(AaaS)的方式提供高可用、高可靠的大数据挖掘云服务。研究大数据挖掘云服务的管理和调度功能,满足不同业务的应用需求。构建基于服务优先级和资源匹配情况的调度机制,解决服务的并行互斥、隔离等,保证大数据挖掘云服务安全可靠。研究基于统一服务注册、服务接口等功能,构建支持本地服务接口、同时支持第三方数据挖掘能力的接入,实现数据挖掘平台的可扩展服务。

(3)大数据可视化分析技术

大数据可视化分析技术主要包括大数据比较性可视分析、在线可视化分析服务和大数据时空可视化三部分:

1)大数据比较性可视分析

研究适合于大数据比较性可视分析的可视化计算处理框架;建立面向大数据的比较性可视化分析系统,集成3-5种比较性可视化分析的算法。

2)在线可视化分析服务

3)大数据时空可视化

4.支持大数据核心软件及系统测试技术

5.典型大数据应用示范验证技术

为了验证大数据应用服务技术,我们将分别选择食品安全、新材料创新、车用能源与排放等大数据应用进行示范。

在食品安全领域,基于大数据应用服务技术成果研发面向食品安全网络信息获取和处理、多源的食品安全检测数据的关联性分析与比对,实现食品安全风险监控与预警。该示范应用的特点是以数据密集型处理为主。

在新材料创新领域,为了使材料探索和创新从传统的“炒菜式”方式向有理论依据的、可计算预测的“科学设计”转变,研发基于大数据应用服务技术成果的构建集材料计算和材料大数据分析软件包于一体的材料大数据服务系统,提供基于材料属性的智能推荐服务。该示范应用的特点是以计算密集型处理为主。

THE END
1.大数据在线分析近线分析与离线分析【大数据】在线分析、近线分析与离线分析 1. 在线分析(Online Analytics) 定义 在线分析是指实时或准实时地处理和分析数据,通常在数据生成的同时即进行处理。在线分析的目标是在最短时间内提供分析结果,以支持即时决策。 特点 实时性:数据处理几乎实时完成,通常延迟在毫秒到几秒之间。https://blog.csdn.net/weixin_44231544/article/details/142467700
2.主变油色谱在线与离线色谱对比分析2010年全国输变电设备状态检修技术交流研讨会论文集变压器状态检修技术应用主变油色谱在线与离线色谱对比分析马青生张旋李志新杨旭(陕西省电力公司宝鸡市供电公司)【摘要】本文通过变压器油色谱在线装置在电力设备上的安装、使用与离线色谱进行对比,并通过色谱分析数据对色谱在线监测装置参数设定的重要性进行了论证,从而认为变压器https://www.docin.com/p-1593329064.html
3.PM(2.5)中OC/EC测定的离线分析法与在线分析法比较【摘要】:采用离线分析法和在线分析法同步监测了武汉市PM_(2.5)中有机碳(OC)、元素碳(EC)和总碳(TC)的浓度,分析了2种方法的差别。结果表明,离线分析法与在线分析法对TC的测定结果具有很好的可比性,2种方法对TC的测定结果显著相关(r=0.970 9)。离线分析法得到的OC浓度普遍高于在线分析法,前者为后者的1.12倍https://www.cnki.com.cn/Article/CJFDTotal-IAOB201904012.htm
4.在线气相色谱仪软件中的在线和脱机模式的功能比较在线气相色谱仪是一种常用的化学分析仪器,其软件系统在实验过程中起到至关重要的作用。其中,在线模式和脱机模式是两种常见的工作模式。http://www.jinghe17.com/huaijun-News-1510187/
5.在线分析并且,有些目标物不稳定,不便于长期贮存,离线检测中从采样到送检的这段时间有可能发生变化,导致检测结果与实际情况的差异,这时候在线检测就体现出它的优势。离线分析通常只是用于产品(包括中间产品)质量的检验,而在线分析可以进行全程质量控制,保证整个生产过程最优化。http://www.360doc.com/content/23/0517/09/1081018318_1081018318.shtml
6.大显身手!固态拉曼分析仪轻松应对各类分析应用(文末有礼)当我们讨论旁线和离线测量时,有一个很明显的关键区别。线上和在线测试都提供了实时连续过程测试的能力,而旁线和离线测量则通常需要手动采集一个或多个样品,并脱离于工艺过程进行分析。我们可以通过生产设备与样品分析的距离进一步区分旁线测试和离线测试。旁线是分析在工艺过程附近完成。然而,该分析是需要取出样品,在https://www.yiqi.com/news/detail_15588.html
7.你的网络全流量从来都不「全」铺陈许多,现在就来解剖一个全流量系统的逻辑模块,来阐述全流量系统的境界差异。从逻辑结构上,可以将任意一个全流量系统拆分为采集、预处理、在线分析、数据包存储、离线分析五个部分,通过一张图来展示如下。 云化多分支采集 与传统的单点分层网络结构相比,云化多分支的网络结构有了比较大的变化,整个云化分支网络的https://weibo.com/ttarticle/p/show?id=2309404758473228550171
8.一文入门Go的性能分析2.2 离线分析 这些图形化的结果在生产环境通常是看不了的,所以很多时候还是会把这些信息采集下来,然后在本地进行分析。内存分析的方式基本和上面一样,采集到信息之后,在本地运行: $ go tool pprof memory.prof 复制代码 这样执行命令之后,也会进入一个与上面一样的交互式命令行环境。 https://xie.infoq.cn/article/58f7ed6c58b97ed01d859f2e3
9.几种蓄电池在线测试技术比较分析AET三、某公司的离线内阻测试方法技术分析 根据某公司的介绍,其蓄电池的在线监测是结合对放电曲线的分析,进行多项测试,进行综合判断,包括以下三点内容: 1、动态大电流(>100A)冲击负载放电,在短时间内得到电池瞬间的放电曲线,测得内阻:内阻=(蓄电池电动势-蓄电池电压)/放电电流。 http://www.chinaaet.com/article/119909
10.在线荧光分析测定微流体体系中阿霉素浓度的研究在线荧光分析测定微流体体系中阿霉素浓度的研究,盐酸阿霉素,微流控通道,在线荧光分析,药物洗脱,DC Bead 载药微球,本论文首先建立了盐酸阿霉素的离线检测方法,在此基础上建立盐酸阿霉素及其载药微球的荧光在线分析方法,并将其初步应用于微球药物https://wap.cnki.net/touch/web/Dissertation/Article/-1015307891.html
11.汽车导航,离线和在线哪个好用?两者的区别分析两者的区别分析 最早之前,开车要是不认识路,就需要下车找人询问,复杂的道路往往问了一次又一次才能找到。现在不认识路已经不是问题了,汽车上的导航都很准确,你完全没去过的地方跟着导航就能轻松找到。不过不知道大家注意到没有,现在的车上的导航有离线模式和在线模式,两种都是可以使用的,但是他们有什么区别呢?哪一http://news.bitauto.com/hao/wenzhang/30301286
12.尾气在线分析在发酵过程控制与优化中的应用研究——氧气消耗速率生化过程监测一般可分为在线监测和离线测定,对在线监测进行细分可以分为直接测量参数,例如温度、溶氧、pH等,和在线计算参数,例如OUR、CER和RQ等。在线计算参数是通过多个在线测量参数或者在线计算参数,通过一定的数学模型进行计算得到的。目前,对于OUR和CER的计算主要有两种,动态法和拟稳态法。 http://www.nc-bio.com/support/1159.html
13.隐私政策GoPro我们不会在您使用我们的服务时向您推送第三方广告。但是,我们会出于以下目的与在线分析和广告合作伙伴合作:(1) 更好地了解我们服务的使用情况,以便我们改进服务;以及 (2) 在我们的服务和第三方服务上推送更适合您的 GoPro 广告。 为了参与这些活动,我们的合作伙伴可能会在许多在线服务上(包括我们的服务)采用 https://gopro.com/zh/cn/legal/privacy-policy
14.MCA2024升级内容马士兵教育官网课程以实战驱动式教学,技术包括大厂必备的计算机理论、性能调优、中间件底层与源码、分布式与微服务框架、云原生、大数据、架构师必须掌握的服务保障和技术视野拓展等层面内容。此外,该套课程还涵盖了十大热门互联网项目,包括飞滴出行网约车项目、马士兵严选大型分布式电商架构、从0到1商城项目实现、大型电商日志离线分析https://www.mashibing.com/white_paper/mca
15.在线分析,on④非接触在线分析。探测器不与样品接触,而是靠敏感元件把被测介质的物理性质与化学性质转换为电信号进行检测。非接触在线分析是一种理想的分析形式,特别适用于远距离连续监测。用于非接触在线分析的仪器有红外发射光谱、X射线光谱分析、超声波分析等。 离线分析在时间上有滞后性,得到的是历史性分析数据,而在线分析得到http://www.dictall.com/indu/001/000776616DD.htm
16.在线分析和离线分析的区别分析化学分析小木虫论坛在线分析和离线分析的区别,希望高手能言简意赅的解释一下,谢谢 https://muchong.com/t-7992212-1-authorid-2014332
17.?便携式磨粒图像分析仪上述磨粒图像分析系统与润滑油在线监测系统均采用一体式设计,具有安装方便、操作简单的显著优势。上述系统既可作为实验室油样离线检测设备在实验室分析油样,也可作为便携式设备在工业现场检测,提高油样分析效率。同时,上述系统可作为机械装备运行状态实时监测设备,仅利用进出油口与机械装备回油管路连接(如图4 所示),通过http://tlo.xjtu.edu.cn/info/1008/4727.htm
18.在线分析部落讨论在线分析仪表行业相关技术http://bbs.ai-a.cn/
19.实时在线颗粒分析技术G600L纵览FBRM? G600L 能够安装在小型实验室反应器(500ml-10L)或者插入连续的管道中进行实时在线的样品监控分析。它的气动设计的探头是实验室通风橱的理想选择。通过在全生产规模下实时监测颗粒粒径与粒数,工程师可以监控过程的一致性并确定进行过程改进的策略。 在为离线分析进行采样和制备时,颗粒可能发生变化。 通过https://www.mt.com/fbrmg600l
20.ZEC310(V2)总氮在线分析仪用户手册V2.0.pdfZE-C310(V2)总氮在线分析仪用户手册V2.0.pdf,用户手册 总氮在线分析仪 C310 总氮在线分析仪(C310)用户手册 V2.0 声明 本资料著作权属中兴仪器 (深圳)有限公司所有。未经著作权人书面许可,任何单位或个人不 得以任何方式摘录、复制或翻译,侵权必究。 本产品符合关于https://max.book118.com/html/2022/0312/6023015213004122.shtm