基于大数据模型的数字孪生建模方法

采用大数据建模的方法,通过黑盒建模的方式,构建输入和响应之间的关联关系模型,由于数据的输入和响应是实际的数据,因此模型可以更准确地逼近物理世界,可以实现更准确的建模。需要指出,大数据模型并不是对物理模型的替代,而是对物理模型的良好补充。

大数据建模主要的关键技术包括工业大数据预处理技术、工业大数据可视化分析技术、工业大数据标记技术、特征工程技术和人工智能技术。

1)工业大数据预处理技术

滤波的主要方法有滑动平均滤波、IIR和FIR滤波器滤波、基于小波分析的滤波和基于EMD的滤波方法。

滑动平均的滤波方法的本质是通过平均实现低通滤波,将波形加以平滑,减少信号中的高频振荡成分,其优点是对相位保持的较好,而缺点则是没有针对具体的频带进行滤波。

IIR和FIR滤波器则是设计脉冲响应函数的频响特性,进行特定频段的滤波,可以实现频段的精准分离,包括低通滤波器、高通滤波器、带通滤波器和带阻滤波器,其缺点是会影响原始信号的相位,这对原始信号相位有要求的分析需要谨慎使用。

上述方法各有利弊,可以结合具体的应用进行合理的选择。

2)工业大数据可视化分析技术

据研究表明,人类获得的关于外在世界的信息80%以上是通过视觉通道获得的,因此伴随着大数据时代的来临,对现在大量、复杂和多维的数据信息进行可视化呈现具有重要的意义。

数据可视化技术诞生于20世纪80年代,其定义可以被概括为:运用计算机图形学和图像处理技术。以图表、地图、标签云、动画或任何使内容更容易理解的图形方式来呈现数据,使通过数据表达的内容更容易被理解。图1所示为某车间工业大数据的可视化界面。

图1车间工业大数据可视化

所谓数据可视化是对大型数据库或数据仓库中的数据的可视化,它是可视化技术在非空间数据领域的应用,使人们不再局限于通过关系数据表来观察和分析数据信息,还能以更直观的方式看到数据及其结构关系。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。

(1)数据空间:是由n维属性和m个元素组成的数据集所构成的多维信息空间;

(2)数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算;

(3)数据分析:指对多维数据进行切片、切块、旋转等动作剖析数据,从而能多角度多侧面观察数据;

(4)数据可视化:是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。

新技术和新平台的出现,使可视化技术可以实现用户与可视化数据之间的交互,从采集分析数据到呈现数据可视化也做到一体化实现。目前数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向象素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。

近年来,人们在数据挖掘的理论和方法上做了大量的研究工作,并以此为基础开发出不同种类的数据挖掘工具。但是,这些工具在处理大型的多维数据集方面仍然没有取得令人满意的挖掘效果。于是,人们开始在数据挖掘中借助可视化技术,使用丰富的可视化方式将多维数据直观地表示出来,进而利用人类特有的认知能力来指导挖掘过程。

因此,工业大数据可视化分析领域中产生了一个新的方向:可视化数据挖掘。利用可视化技术建立用户与数据挖掘系统交互的良好沟通通道,使用户能够使用自己丰富的行业知识来规整、约束挖掘过程,改善挖掘结果。从而打破传统挖掘算法的黑盒子模式,使用户对挖掘系统的信赖程度大大提高。在可视化数据挖掘技术中,可视化的直接交互能力是挖掘过程成败的关键,对可视化技术在数据挖掘中应用形式和使用方法的研究是数据挖掘可视化急需解决的问题。

3)工业大数标记技术

在人工智能时代,人工智能算法中,相对于无监督学习算法,有监督的学习算法更为常用和有效,究其原因在于,有监督学习的算法的训练阶段是有标记的数据,使得算法融入了知识,进而使算法具有更好的精度和稳定性,因此,从算法的选择角度来讲,使用有标记的数据进行有监督的学习显然是更好的选择。此外,随着深度网络的不断发展,模型的参数动辄成千上万,为了防止模型的过拟合,必须输入更多的带有标记的样本,这就对样本的标记提出了更大的挑战,这甚至衍生出人工智能时代的蓝领工人——数据标记员,一方面是体力的考验,另一方面,在某些专业领域,还具有极强的专业性,因此大数据时代的数据标记成为了一项既重要又难以实施的技术。

为了克服人工标记带来的问题,需要采用自动标记的方式进行数据的标记。指令域大数据是将系统的输入数据标记在系统的响应之上的数据形式,天然地具有数据标记的属性,是人工智能亲和算法。但是标记的类型往往还涉及到具体的事件,指令域大数据的输入有时候囊括不了此种事件,因此仍然需要其他的标记方法进行补充。

其他自动标记方法,一般建立在现有的少量已经标记的数据基础之上,例如SMOTE算法和GAN网络。SMOTE算法通过对特征向量在特征空间进行插值处理,通过采样的方式形成新的样本。而GAN网络,则是通过生成和对抗网络进行拉锯式的博弈,形成新的具有标记的样本。SMOTE算法适用于一维数据,而GAN网络则在二维数据的生成中具有较好的效果。

4)特征工程技术

特征工程技术是用目标问题所在的特定领域知识或者自动化的方法来得到能够使机器学习算法达到最佳性能的特征的技术。通过将原始数据转化为特征,可以获取更好的训练数据使预测模型更好的处理实际问题,提升预测模型的准确率。它对于传统的浅层学习器(如支持向量机、逻辑回归等)而言是不可或缺的技术,因为数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。对于深层学习器(如卷积神经网络),由于存在特征自学习的隐藏层,可以自动学习原始数据中的敏感特征,对特征工程依赖较少。但是,隐藏层的特征自学习在深层学习的应用范围是有限的,特征工程在深度学习依然有着不可替代的作用。特征工程其主要对原始数据进行特征提取、特征选择和特征降维3个方面的工作。

(2)包裹式(wrapper):特征选择是使用随机策略将各个特征都分别作为输入量输入到所使用的机器学习模型中,并最终以机器学习模型的误差作为特征的评价标准进行选择的方法。

(3)嵌入式(embedding):特征选择类似深度学习的隐藏层的特征自学习是将特征选择与学习器训练过程融为一体,两者在同一个优化过程中完成的。即学习器训练过程中自动进行了特征选择。

(1)主成分分析法(PCA):通过构建原始特征的线性组合,形成组合内部最小关联的新组合,达到降低特征内部关联,降低维数的目的。

(2)线性判别分析法(LDA):将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近。其目的不仅仅是降维,还可以使得投影后的样本尽可能按照原始类别分开。相比较PCA主要是从特征的协方差角度,去找到比较好的投影方式。LDA更多的是考虑了标注,即投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑。

5)人工智能技术

人工智能技术解决的是知识学习和决策问题,是大数据建模中最关键的核心技术。广义来讲,深度学习、迁移学习都属于机器学习(ML)的大类。但是,目前往往从狭义的角度解释机器学习,特指浅层学习器,而深度学习(DL)和迁移学习则属于深层学习器。因此,人工智能技术主要包括浅层学习(即机器学习,含增强学习)、深层学习(包括深度学习)和迁移学习。

(1)机器学习:是赋予计算机学习能力,使之可以归纳知识、总结经验、推理预测,并最终可以像人一样从数据中积累“经验”的技术。将机器学习算法应用于数字孪生建模中便实现了大数据建模。因此大数据建模可以理解为利用工业大数据来实现虚拟空间对物理空间的实时反映与预测,即以传感器收集的海量数据为基础,利用机器学习算法积累“经验”最终达到构建虚拟孪生空间的目的。如图2所示,机器学习有4种主要类型:监督学习、非监督学习、强化学习,所有这些都有其特定的优点和缺点。

图2机器学习方法分类

(2)深度学习:从广义来讲,深度学习是机器学习领域中一个新的研究方向,强调通过增加学习的层数以提高算法的精确性,它被引入机器学习使其更接近于最初的目标——人工智能(AI)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习有两个主要特点:第一,含多隐藏层的神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于分类;第二,深度神经网络在训练上的难度,可以通过“逐层初始化”预学习来有效克服。如图3所示,典型的深度神经网络有卷积神经网络(CNN)、深度置信网络、循环神经网络。

图3深度学习算法的分类

(3)迁移学习:指一种学习或学习的经验对另一种学习的影响,以深度卷积神经网络为基础,通过修改一个已经经过完整训练的深度卷积神经网络模型的最后几层连接层,再使用针对特定问题而建立的小数据集进行训练,以使其能够适用于一个新问题。其放宽了传统机器学习中的两个基本假设,目的是迁移已有的知识来解决目标领域中仅有少量甚至没有有标签样本数据的学习问题。图4给出了传统机器学习和迁移学习过程的差异。

图4迁移学习与机器学习的差异

从技术发展的角度来讲,大数据建模一方面将会呈现特征工程与特征学习算法相结合的趋势,提升大数据建模的准确性;另一方面将会越来越多地探索无监督学习的算法性能提升和应用,解决数据标记的问题同时,赋予机器真正的类人学习行为。

从技术应用的角度来讲,由于物理建模在进行复杂系统建模是存在的不准确的问题,将会越来越多地将新一代人工智能的算法与数控机床相结合,以开辟新的技术路线,提升预测的稳定性与准确性,使得机床具有更好知识学习、积累与应用的能力。

因此,大数据建模一方面本身的内涵和外延将会得到极大的扩展和深化,另一方面,其将会在数控机床领域得到全面、广泛而深入的应用。

THE END
1.大数据分析建模思路技巧和算法大数据建模常用方法本文介绍了大数据领域建模的方法。 一、大数据领域建模综述 1.1 为什么需要数据建模 有结构地分类组织和存储是我们面临的一个挑战。 数据模型强调从业务、数据存取和使用角度合理存储数据。 数据模型方法,以便在性能、成本、效率之间取得最佳平衡。 成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用https://blog.51cto.com/u_16099164/6430927
2.大数据优化建模与算法.zip大数据建模与优化算法大作业资源《大数据优化建模与算法》课程资料集合包含了丰富的学习资源,涵盖了大数据处理中的核心概念、优化模型以及多种算法。此压缩包主要针对大数据环境下的数据分析和优化问题,旨在帮助学习者深入理解如何在海量数据中寻找模式、进行分类和分析。 文档"上机作业.docx"可能是课程的实践练习,它可能包含了一些实际操作任务,让学生https://download.csdn.net/download/qq_45289233/13729573
3.大数据分析建模有哪些算法帆软数字化转型知识库大数据分析建模有多种算法,包括决策树算法、支持向量机(SVM)算法、随机森林算法、K-means聚类算法、线性回归算法、逻辑回归算法、神经网络算法和贝叶斯分类算法。其中,决策树算法是一种使用树状模型对数据进行分类和回归的方法。决策树算法通过递归地将数据集分成更小的子集,同时相应地构建树结构,使其能够对未知数据进行https://www.fanruan.com/blog/article/71906/
4.大数据优化建模与算法大数据建模方法 作者:张平文 ISBN:9787040530490 出版社:高等教育出版社 出版年:2019 大数据时代的商业建模 作者:范若愚 ISBN:9787543958685 出版社:上海科学技术文献出版社 出版年:2013 最优化 :建模、算法与理论 作者:刘浩洋[等]编著 ISBN:9787040550351 出版社:高等教育出版社 https://www.las.ac.cn/front/book/detail?id=e37891687151d0cb4b34daae7e66317d
5.想问问大数据优化建模与算法这门课怎么样呀?西安电子科技大学吧贴吧用户_5NU3C2V 竹园丁香 1 想问问 大数据优化建模与算法 这门课怎么样呀?不晓得这门课给分和考核是什么样的 老师没说,感觉心慌慌,看起来好难登录百度账号 扫二维码下载贴吧客户端 下载贴吧APP看高清直播、视频! 贴吧页面意见反馈 违规贴吧举报反馈通道 贴吧违规信息处理公示0https://tieba.baidu.com/p/8615670955
6.C++技术中的大数据处理:如何使用机器学习算法进行大数据预测和建模?利用c++++ 中的机器学习算法进行大数据预测和建模包括:使用分布式处理库(如 spark)处理大数据集。使用智能指针和引用计数管理内存。利用多线程提高性能。常见的机器学习算法包括:线性回归、逻辑回归、决策树和 svm。实战案例:使用c++和逻辑回归预测客户流失,包括数据准备、模型训练、模型评估和模型部署。 https://www.php.cn/faq/787756.html
7.基于大数据建模和AI算法的反电信诈骗精准预警与阻断平台基于此,研发了“基于大数据建模和AI算法的反电信诈骗精准预警与阻断平台”,该平台整合公安警情数据及构建多维欺诈场景专题库,实现预警数据的整合(运营商、金融、互联网等),通过自主研发的大数据建模和AI算法,不断挖掘出预警线索,通过云端呼叫座席实现全网协同高效劝阻,全面服务于电信欺诈预警防控体系。https://skl.qhnu.edu.cn/info/1032/1250.htm
8.大模型数据工程实战:ArenaLearning通过模拟LLM竞技场来构建大规模数论文使用 K-Means 聚类算法将源数据处理成 500 个类别。从每个类别中,随机选取两个样本,构建 1000 个多样性样本,创建 Offline-Diverse WizardArena。 困难子集 从每个类别随机选择 20 个样本,形成一个包含 10000 条的数据集,然后使用 GPT-4 按难易程度从 0 到 10 评估每个指令,并筛选出难度最高的 1000 条数https://zhuanlan.zhihu.com/p/880435490
9.DizzyK/ustccyber大数据算法 密码工程原理与实践 数据建模与分析基础 网络优化导论 机器学习及其安全应用 网络空间安全数学建模基础 2020级王小谟英才班 专业核心课 编译原理和技术 ( H ) 编译原理和技术的高级课程 2020级第二学士 必修课 网络算法学 数字图像处理与分析 https://toscode.gitee.com/DizzyK/ustc_cyber_security
10.PW3300边缘大数据模型智能算法大数据建模模块 系统将得到的大数据通过智能算法形成稳态的数字模型。 大数据模型调用模块 在锅炉生产运行中自动采集数据并通过智能筛选数据。 基于边缘大数据模型精准喷氨控制方法包括:数据采集筛选模块、数据建模模块、精准喷氨模块和大数据模型调用模块。 大数据模型是锅炉生产运行中自动采集数据后通过智能算法形成的。智能分http://www.jspwhj.com/productinfo/2570517.html
11.针对公安民警开展数据建模方法的研究和实践本文旨在探索一种面向广大民警的可视化建模方法,通过放开数据操作权限、赋予可视化建模能力,催生更多警务应用模型。 导读 2018年3月,公安部科技信息化局以公安基层技术革新奖推荐评选为载体,以公安大数据建设应用为主线,组织开展了“智慧公安我先行”全国公安基层技术革新专项活动。新智认知自主研发的产品“自主数据建模的可https://www.secrss.com/articles/7120
12.大数据挖掘企业服务平台大数据挖掘企业服务平台是由泰迪智能科技自主研发打造的数据挖掘建模平台,供企业/高校使用.此外平台还配置AI大模型服务,大数据分析可视化平等服务,致力于为使用者打通大数据全链路,精准助力大数据和人工智能为产业转型升级赋能!https://python.tipdm.org/
13.科学网—热点专题数据驱动控制学习及优化过程工业大数据建模研究展望 人们对大数据的认识已从"3Vs" (Volume-大容量; Variety-多样性; Velocity-处理实时性)、"4Vs" ("3Vs"与Value-价值)、到现今的"5Vs" ("4Vs"与Veracity-真实性).在此背景下, 首先分析过程工业大数据的"5Vs"特性; 接下来, 综述现有数据建模方法, 并结合过程工业大数据特有性质 https://blog.sciencenet.cn/blog-3291369-1180355.html
14.探索与实践以《大数据分析实务》课程为例为提升教学成效不断丰富资源和数字化手段:1.自建微课、二维情境动画以及3D仿真动画,打造沉浸式学习场景,助力学生理解抽象的数据建模过程。2.自建数据算法探索3D游戏,强化小组自主探索和互动思考,充分激发学生兴趣。3.自主运营微信公众号,拓展大数据应用相关知识,提升迁移能力。4.引入行业前沿大数据建模系统,助力学生通过可视https://www.gzqy.cn/sgxjsztw/info/1043/1726.htm