大数据驱动的海洋人工智能服务平台设计与应用

本文基于海洋领域人工智能研究对数据、软件、算法和定制工作流的实际需求,提出一种大数据驱动的海洋人工智能服务平台框架设计,阐述平台总体架构以及构建大数据驱动的海洋人工智能服务平台关键技术方法,并给出平台支撑实现的海洋人工智能模型研究案例。

1海洋人工智能服务平台架构

平台依托中国科学院海洋科学数据中心硬件平台,采用超融合基础架构整合计算、存储和网络等基础设施资源,通过构建Kubernetes集群对GPU和CPU等计算资源进行统一调度和分配,海洋数据处理软件和深度学习框架以容器镜像的形式为用户提供易用的人工智能模型开发服务。平台按照分层架构进行设计,主要包括硬件资源层、平台服务层和应用层。平台架构如图1所示。

1.1

硬件资源层

平台基于中国科学院海洋科学数据中心数据与计算集群进行设计实现。集群资源包括CPU计算资源、GPU计算资源以及集中存储和分布式存储。CPU计算资源配置512个物理CPU核心和4TB内存。GPU计算资源包含10台GPU服务器,每台服务器配置4块NVIDIATeslaA100GPU加速卡,双精度浮点计算能力(理论峰值)为400TFlops,理论峰值深度学习计算能力(理论峰值)3.5PFlops。存储系统支持集中存储和分布式文件存储,实际存储能力3.5PB。

1.2

平台服务层

1.3

应用层

应用层部署海洋人工智能数据和模型门户、人工智能模型开发环境、海洋人工智能研究工作流管理系统和模型评估及可视化软件等应用产品,为用户提供简单易用的交互式系统界面,支持通过标准接口调用标记数据集、在线进行模型训练代码编写和调试、拖拽式的模型开发工作流定制、模型性能评估及可视化等功能。

2海洋人工智能服务平台关键技术方法

本文提出一种基于容器云技术的海洋人工智能服务平台框架并进行系统实现,主要目标是简化并加速海洋人工智能数据整理以及模型开发、部署和推理服务等流程,解决人工智能开发环境计算资源难以统一调度分配、查找数据困难和人工智能开发环境部署安装繁琐等问题。

2.1

海洋人工智能数据资源管理

机器学习是通过算法使得机器能从大量数据中学习规律并对新的样本做决策,需要足够多的数据来构建映射关系。机器学习模型是通用数学方程的组合,理论上它们可以用于任何类型的数据集,并适用于大多数科学场景。一个成功的人工智能模型的先决条件是一个大规模的、存在较少偏差的、准确完整的训练数据集,在地球科学领域使用人工智能机器学习方法开展科学研究尤其需要大量的训练数据集。因此,构建机器学习模型重要的工作之一是进行数据收集、预处理、整理等数据准备流程。

本文设计一种海洋数据标准化处理引擎,按照统一的分级分类标准对元数据和实体数据进行规范处理、汇聚和发布,为海洋人工智能模型开发环境提供统一访问接口的高质量数据资源。用户可基于该数据进行数据标记、数据ETL、特征工程等操作。该引擎设计流程如图2所示。

针对以NetCDF文件格式存储的海洋网格化数据,平台设计转换为适配云计算环境的对象存储格式来存储,这种格式保持了NetCDF的数据组织格式,提供分块、压缩和多维数组功能,支持处理大规模的数据集的快速检索访问。元数据以JSON格式存储,数据块以独立的存储对象存储,通常数据块大小为10-100MB,应用程序可以快速高效地读取数据。平台存储的NetCDF格式的海洋数据可以使用数据处理软件快速转换为对象存储格式。

通过以上过程将数据转换为适配云计算对象存储格式,并实时存储于对象存储系统中,使数据与计算资源靠近在一起,提供存算用于一体的数据计算分析环境。用户使用基于Web浏览器的在线数据分析环境或者其它数据处理分析客户端软件,编写或定制数据处理分析任务,系统调用云平台分布式计算节点执行数据计算和分析任务,分析结果在客户端呈现。数据管理和处理分析流程框架如图3所示。

依托数据资源管理系统,汇聚中国科学院近海海洋观测研究网络黄东海站浮标观测数据、西太平洋科学观测网潜标观测数据、西太平洋三维温盐流再分析数据、西太平洋深海生物影像、全球海洋内波发生历史数据、西太平洋中尺度涡旋监测识别数据、西太平洋海洋锋监测识别数据等资源,经过数据标注后形成样本数据资源库。研究人员可以直接在模型开发环境中通过标准化数据接口调用标记数据,进行模型训练和调试。

2.2

海洋人工智能算法资源库

基于算法模型资源库,将单个独立的算法打包成Docker容器镜像,支持多语言算法实现类库、算法适配、特征数据适配和修正等功能,以“算法类型+算法版本”为最小粒度启动算法。

2.3

海洋人工智能预训练模型库

本文设计的海洋人工智能预训练模型库收集汇聚的预训练模型主要包括深海生物识别模型、船舶识别模型、海洋中尺度涡旋识别模型和海洋次表层温盐场重构模型。上述模型均基于开源深度学习框架PyTorch开发,模型文件格式为pt和pth。平台汇聚的预训练模型如表1所示。平台将持续增加模型。

2.4

海洋人工智能模型开发环境

海洋人工智能模型开发环境基于Web浏览器的图形化界面、基于SSH的命令行方式和基于浏览器的在线编辑调试工作流创建方式,实现大量计算作业在海量异构计算资源上的高效运行,支持数据准备、算法选取、模型训练、超参数调优、模型验证和模型部署等流程的在线实施,提供机器学习模型设计、训练和推理基础环境。

2.5

海洋人工智能研发工作流框架

采用大数据驱动的机器学习或深度学习等人工智能智能方法进行海洋科学研究通常包括5个步骤:

(1)确定科学问题并提出潜在的机器学习解决方案;(2)进行可行性分析,分析失败的风险和瓶颈问题;(3)模型设计、数据准备、模型训练、模型评估;(4)模型部署和性能监控;(5)模型优化和共享。

涉及模型研发的部分是由软件、脚本、工具库和命令行组成的,这些方法通常是难以复用的。因此,梳理并简化这些研究流程并支持交互式编辑、定制和组织,减少重复性的一种可管理的、可定制、清晰的方式来协助科学家开展科学研究。

本文提出一种基于ApacheAirflflow工作流引擎的海洋人工智能研究工作流管理框架来简化并自动化研究过程中重复性的任务。该框架系统可以协助海洋人工智能科研人员梳理模型研究实验中重复性的、可固化的任务,并编辑定制成标准化的工作流程,通过工作流引擎进行自动化执行。系统支持将数据加载、数据预处理、特征工程、模型训练、超参数调整、模型评估和模型部署等脚本代码以工作流程子模块的形式,通过交互式界面进行拖拽组合成一个流水线工作流程。

3海洋人工智能服务平台示范应用

面向海洋大数据与人工智能应用场景需求,联合海洋领域科学家基于平台环境以及平台集成的数据、软件工具、算法和模型等资源,采用人工智能技术构建了深海生物识别与统计分析模型和基于神经网络的西太平洋海洋次表层温盐场重构模型,并进行了模型部署应用。

3.1深海生物识别与统计分析

随着深海生物影像数据不断的获取和积累,针对需要专家分类的复杂场景和生物体的数据,迫切需要研究深海生物影像的自动化标记和分类识别新方法。包括随机森林在内的统计方法已成功用于浮游生物成像领域,实现了微观植物和动物的自动分类,准确率超过90%。无监督学习算法可以被用于数据量不足的场景,但这些算法在自动检测和分类水下图像中的生物方面的应用有限,其颗粒度不足以构建准确的分类识别模型。有监督学习方法,比如基于标记数据训练的神经网络模型(CNN),已将自动标记和分类识别任务的性能提高到属和种的水平,这种方法要求有大量的、高质量的水下标记训练数据集。因此,迫切需要构建一个跨空间尺度的海洋生物影像训练样本集,可以在统一的、公开的、在线的资源库中获取,并应用神经网络深度学习方法,研发海洋生物自动化分类识别模型,实现深海生物影像数据的自动化标记、分类和识别,为海洋生物分类研究提供数据和软件支撑。

本文针对海洋科考调查船水下机器人获取的视频和图片中的深海生物识别和统计分析工作需求,设计开发了一套生物类别标记、图像处理和统计分析软件。软件界面如图7所示。

基于平台实现的海洋人工智能研究工作流框架原型系统,形成了AI辅助的深海生物标记、分类、统计、分析的工作流。基于集成的深海生物分类标记软件形成的标记数据集,包括标记图片80,456张,175,873个标记点,涉及2,243个生物类别。将数据集的80%设为训练数据集,10%设为验证数据集,10%设为测试数据集。分别采用目标检测算法RetinaNet和YOLOv5构建了支持深海生物分类识别和统计分析的AI模型,经过测试验证,识别准确率分别为95.2%和92.8%。基于服务平台环境以微服务的形式进行了模型部署,提供基于Web浏览器的深海生物在线识别推理,用户通过系统界面上传生物图片或视频,选择预训练模型即可快速得到模型识别结果。深海生物在线识别推理服务系统界面如图8所示。

3.2基于神经网络的西太平洋海洋次表层三维温盐场重构

4结论与展望

本文基于海洋领域人工智能研究现状、存在的问题及实际需求,提出了一种大数据驱动的海洋人工智能服务框架并进行了系统实现,并基于中国科学院海洋科学数据中心的云计算平台环境实现了海洋人工智能服务平台系统V1.0。该平台支持海洋人工智能数据预处理、特征提取、模型训练、超参数调整、模型评估与部署推理和工作流定制编辑等功能。海洋人工智能研究人员基于该平台搭建了定制化的科研工作流,研发了深海生物识别分析模型和海洋次表层温盐场重构模型,并进行了模型部署以及在线推理应用服务,为科研用户提供“一站式”机器学习即服务。该平台的定位是集成海洋人工智能算法、工具和数据资源,为科研人员提供全面支持的科研信息化平台。因此,下一步将依托该平台构建形成由海洋领域科学家、人工智能专家、开发人员、平台运维人员组成的海洋人工智能研究社区,开展项目合作研究,开发海洋领域新的人工智能算法和模型,促进海洋科学和人工智能的交叉融合,助推研究所人工智能海洋学学科建设,推动海洋大数据与人工智能科研范式变革。

作者|王凡1,冯立强1*,曹荣强21.中国科学院海洋研究所,山东青岛2660712.中国科学院计算机网络信息中心,北京100083

THE END
1.分享人工智能领域的10大算法事实上,人工智能已经存在于我们生活中很久了。但对很多人来讲,人工智能还是一个较为“高深”的技术,然而再高深的技术,也是从基础原理开始的。人工智能领域中就流传着10大算法,它们的原理浅显,很早就被发现、应用,甚至你在中学时就学过,在生活中也都极为常见。 https://mp.weixin.qq.com/s?__biz=MzI2NTk5MTk1Mg==&mid=2247527585&idx=3&sn=5072ab3513141ba3ec208bf4ec11acf3&chksm=ea96cededde147c8131723df30add2b5fa0d072cd7c4d071f2c0de1e9235b93550714cf52b02&scene=27
2.A.人工智能算法设计步骤算法设计人工智能A. 人工智能 --- 算法设计步骤 A. 算法设计步骤 数据采集 数据类型 属性 数值型 字符串 类别 标签 类别 标签 数据预处理 数据分析和建模 数据可视化 分位数图QQ图 平行坐标图 交会图(散点图) 热力图 数据分析 属性类别统计特征 属性之间的相关性https://blog.csdn.net/micklongen/article/details/89789089
3.人工智能算法分析论文(精选6篇)人工智能算法分析论文(精选6篇) 篇1:人工智能算法分析论文 5-1 简述机器学习十大算法的每个算法的核心思想、工作原理、适用 情况及优缺点等。1)C4.5 算法: ID3 算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定https://www.360wenmi.com/f/fileb1uo3r0x.html
4.AI时代新风口!吴恩达亲授智能体四大设计模式【新智元导读】吴恩达认为,智能体的发展将会成为AI时代重要的力量,甚至比基础模型还要重要。工作之余,「吴老师」连发多篇博客,向大家介绍了AI智能体的四大设计模式。 AI时代的风口在哪里? 吴恩达认为,AI Agent将在今年推动人工智能的大规模进步。 ——甚至,有可能超过下一代基础模型所带来的影响。 https://zhuanlan.zhihu.com/p/693396412
5.算法设计概述.docx25/28算法设计第一部分算法优化与人工智能:探讨算法设计在人工智能领域的关键作用。 2第二部分分布式算法:研究分布式环境下的算法设计及其应用。 4第三部分量子计算与算法:探讨量子计算对算法设计的影响和潜在应用。 8第四部分深度学习算法:分析深度学习算法的最新进展和未来趋势。 10第五部分数据结构与算法:讨论高效https://m.renrendoc.com/paper/295570465.html
6.人工智能算法工程师和芯片设计工程师有什么区别人工智能算法工程师低于芯片设计工程师。人工智能算法工程师平均工资¥24.1K/月,2024年工资¥24.0K,2024年工资低于2023年,芯片设计工程师平均工资¥37.9K/月,2024年工资¥37.9K,2024年工资低于2023年,统计依赖于各大平台发布的公开数据,系统稳定性会影响客观性,仅供参考。 https://www.jobui.com/gangwei/pk/rengongzhinengsuanfagongchengshi-xinpianshejigongchengshi/
7.届校园招聘:无人机/飞机研发设计人工智能算法软件/硬件/试飞/营● 人工智能类: 感知测量系统工程师 图像处理算法工程师 SLAM三维重建工程师 强化学习算法工程师 路径规划算法工程师 无人机智能决策算法工程师 无人机集群编队算法工程师 感知算法工程师 定位建模算法工程师 控制律设计工程师 ● 试飞生产类:试飞技术工程师、无人机测试改装工程师、工艺工程师等 https://jobs.zhaopin.com/CC531907520J40338791103.htm
8.剑桥大学设计人工智能“偷听”算法,可窃取手机密码近日,剑桥大学计算机实验室发表的一项最新研究成果表明,人工智能算法可以通过监听手指敲击屏幕的声音窃取手机密码。这意味着,通过内置麦克风录制音频,恶意应用程序可以“监听”用户输入的文本。对于四位数密码而言,该模型在20次尝试后可准确恢复150个密码中的91个,识别准确率为61%。 https://m.thepaper.cn/wap/v3/jsp/newsDetail_forward_3237176
9.生物分子序列的人工智能设计腾讯云开发者社区1 人工智能算法设计生物序列 从模式识别角度分析生物序列设计中的共性的问题:前人的研究发现,特定功能的生物分子序列会形成高维序列空间中的低维流形。例如,2018年的一篇关于氨基酸序列的研究证实,来自不同细菌的氨基酸序列组成的序列空间中,大肠杆菌的同一氨基酸家族的突变体序列会形成低维流形;针对药物小分子的研究也发现https://cloud.tencent.com/developer/article/1951125
10.AIR学术上海人工智能实验室李弘扬陈立:端到端自动驾驶算法设计陈立,上海人工智能实验室自动驾驶团队青年研究员。研究兴趣主要为计算机视觉,端到端自动驾驶,发表多篇相关工作在国际会议如CVPR、ECCV、NeurIPS、CoRL等。 报告内容 本次报告中,李弘扬博士和陈立研究员围绕其近期工作Unified Autonomous Driving(UniAD),分享了对端到端自动驾驶算法设计的一些思考。UniAD首次将目标检测与https://air.tsinghua.edu.cn/info/1008/1992.htm
11.全国青少年人工智能创新挑战赛有哪些赛项全国青少年人工智能创新挑战赛是一项面向中学生的全国性竞赛活动,旨在教育引导广大青少年从小培育创新精神、锻炼创新思维、锤炼创新能力。该挑战赛设置了多个赛项,涵盖了智能机器人应用、智能程序及算法设计、智能芯片及开源硬件和人工智能技术综合创新等多个方向。以下是对这些赛项的详细归纳: http://m.soxsok.com/wnews847290.html
12.学术研究政治与法律孙祁:规范生成式人工智能产品提供者的2.服务提供者是生成式人工智能算法设计的主体 生成式人工智能主要基于深度神经网络,通过预训练、优化训练大规模的数据集,学习抽象出数据的本质规律和概率分布,并利用生成模型生成新的数据,形成最终产品。在生成式人工智能技术中可以认为,数据是产品生成的基础,而算法是加工和处理这一基础资源的技术手段,决定了生成物的价https://ilaw.sass.org.cn/2023/0821/c2514a552849/page.htm
13.北京航空航天大学2025研究生考试大纲:人工智能学院!北京航空航天大学人工智能学院招收2025年硕士初试自命题科目考试大纲已公布,842人工智能基础综合试卷总分150分,共包括三部分内容。其中机器学习部分为必考内容,占90分;算法设计与分析部分和自动控制原理部分为选考内容,选考内容二选一,均占60分。若同时选考算法设计与https://www.gaodun.com/kaoyan/1653530.html
14.数学建模论文模板15篇[通用]2.2基于人工智能方法 (1)专家系统方法专家系统是一种将知识作为基础的为计算机编程的系统,对于某个领域的繁复问题给出一个专家级别的解决方案。而建立一个专家系统的关键之处在于,要预先将相关专家的知识等组成一个资料库。其由专家系统知识库、数据库和推理机制构成。 https://www.yjbys.com/biyelunwen/fanwen/shuxue/734071.html