学术分享丨上海交通大学杨小康教授:生成式人工智能与元宇宙

机器学习是人工智能非常重要的基础,主要有判别式和生成式两类模型。其中,判别式模型主要是给定一个数据,估计一个条件概率进行分类、判决;生成式模型则是直接估计一个分布,然后生成新数据。与之对应,可以将人工智能系统分为判别式人工智能和生成式人工智能。判别式人工智能,在之前10年的人工智能浪潮中起到了非常重要的作用,其技术相对成熟的。我们对图1所示黄仁勋的照片进行分析和识别就是典型的判别式人工智能;从这张照片中重建三维人脸,并合成三维场景,最后进入元宇宙,这是典型的生成式人工智能。生成式人工智能相对来讲有很多内容要发展,它可能会带来人工智能的下一个10年。

生成式人工智能Gartner有一个报告,它把GenerativeAI定义为未来的战略技术,通过机器学习方法从数据中学习特征,进而生成全新的、原创的数据,这些数据与训练数据保持相似,而不是复制。同时预计到2025年,生成式人工智能产生的数据将占据人类全部数据的10%。当生成式数据超过80%时,人类是否可以全面进入元宇宙?

生成式人工智能将会带来深刻的变革。首先它将推动内容开发、视觉艺术创作、数字孪生、自动编程等;其次,科学研究带来人工智能的直觉,比如为数学产生新的猜想、验证新的猜想,以及加速药物的合成、新物质的合成等。

生成式人工智能也会极大地推动元宇宙的发展。元宇宙里技术非常多样,特别是沉浸感非常重要。内容是构建元宇宙非常重要的基础。这里有两个比较核心的问题,一个是人的虚拟化;一个是物的虚拟化。生成式人工智能可以加速内容虚拟化,实现虚实融合,提升效率、体验、精神。所以,生成式人工智能是元宇宙内容生成器、虚实连接器、效率加速器。

物的虚拟化,世界模型为元宇宙提供可交互的物理引擎;人的虚拟化,也就是虚拟数字人,是元宇宙的原住民、生产力。

简要地讲,生成式人工智能的原理是,学习一个概率分布p(x),对其进行采样,呈现F(),得到新的样本。以人脸为例,机器算法对于数据——图像、语言、文本进行大量学习后,结合人脸模型的约束、五官的约束,以及生物力学的物理规律等经验,学习一个关于人脸的子空间;然后对子空间进行采样和渲染。这是典型的人脸生成式人工智能的示例。

生成式人工智能有很多的挑战,最主要的有三个。

挑战1解空间巨大。怎样从解空间中,针对一个特定任务,生成一个特定的子空间,并对子空间进行采样。比如人脸、人体的样本往往聚集于特定的子空间。如何有效寻找并生成子空间?

挑战2宏观一致性。以视频生成为例,视频很长,且视频有人在运动时,如果用卷积神经网络去做,它的视野很受限,视野受限的情况下面结构会被破坏,宏观的一致性不能保障。如何预测目标及结构的长期运动变化?

挑战3微观清晰度。如有些短视频分辨率很差,主要的问题是求解问题时容易产生可行解的平均化,导致模糊效应。如何有效逼近多模分布,避免产生blurryprediction效果?

生成式人工智能现有的技术——学习概率分布p(x),主要有下面三种解法。

(1)显示求解。典型的PixelCNN可以产生简单的图片。

(2)近似求解。如VAE,问题是过于平滑或过于模糊。

(3)隐式求解。典型的是生成对抗网络(GAN),优点是通常具有一定的创造性,缺点是收敛性比较差。

最近有一个diffusion无需判别器,某种程度可以克服上述方法的局限性,但计算速度非常慢。这个问题大家都在解决,然而怎样真正用起来还需要很多研究。

以GAN为例,它可以产生逼真的2D图片,但是难以保持3D结构的一致性。

有了这些数据后怎么去呈现?现在有一种方法叫做NeRF(神经辐射场),主要是光场重建,其对于传统方法是一个很难的问题。它采用的是MLP(隐式函数)多重神经网络去表示某个场景,从结果可以看到,对一些物体效果非常好。这是机器学习的视角。

现有另外一条路径是传统的计算机图形学。还是以黄仁勋为例进行形象的采集,用相机阵列,然后进行建模、纹理贴图、动作捕捉,最后形成一段视频。此方法可做到形象逼真,但是效率低、花费高、限制多。

未来的技术趋势是,物理世界的模拟更逼真——从表观模拟到物理世界内部机理推断,以直觉驱动物理世界理解;数字人更丰富、更立体——立体视觉渲染、多模态驱动、动态模拟;数字人与世界模型交互——在世界模型上训练智能体,可反哺真实世界中的决策过程。

2生成式世界模型

世界模型是YannLeCun等提出的。最近Yann又提出了一个AI新结构(自主智能架构),主要目的是要让AI像人类(直觉+自监督)一样,对物理世界进行学习和推理。在这个架构中,最主要的是世界模型,它的定义是对现实世界进行模拟,包括世界的未来自然演变,以及参与者行动的影响。框架里还包括感知模块,配置模块和成本模块。从大的机器学习视角来看,这就是强化学习(还包括了memory等),主要强调直觉和自监督。

这里主要有三个大问题,一是怎样从视觉理解物理的本质;二是使用什么样的范式来训练世界模型;三是世界模型使用什么样的架构?如何用于决策?这三个问题非常大,好是好在是“一花一世界”,我们可以从小世界入手。最近我们针对这三个问题,分别从神经流体、机器人视觉、自动驾驶三个典型的小世界进行了非常初步的探索(见图2),希望有所启发。这三个工作分别发表在ICML2022、CVPR2022、NeurIPS2022,相应的算法都已经开源,下面作简要介绍。

2.1物理现象的视觉仿真与推理——神经流体

流体力学是一个古老的学科,有100多年的历史,但是在有些问题上还是解决不好,比如湍流。湍流的求解我们能否通过视觉表观反推动力学系统一些本真属性,这样就可以为计算流体力学提供途径,甚至解决一些其解决不了的传统问题。

这里有两个基本假设,一是采用流体的拉格朗日描述,通过学习一组有限粒子的运动状态,刻画流体内部的运动规律。拉格朗日描述具有易于建模动力学特性,且易于描述流体几何外观的优势(仿真:规律→图像)。二是流体的内部运动规律,可由立体视觉连续图像序列部分可见(推理:图像→规律)。

传统方法有一些局限性,需要良好的动力学先验。

传统非机器学习的计算物理方法,如SPH(光滑粒子动力学)等,通常采用数值方法求解NavierStokes方程,要求物理规律可被形式已知的方程刻画;场景描述困难,求解困难,泛化性较差;关于湍流的N-S方程依然没有很好解决。

机器学习方法,如GNS(DeepMind,2020),以流体粒子的后续状态为监督,训练深度预测网络,要求严格采集的粒子数据,即粒子标号前后时刻需对应,难以拓展到真实场景;真数据本身基于SPH等传统方法,学到的物理动态规律无法超越专家知识。所以,现在的数据就是从流体方程进行采样,构建一个数据库,机器学习能否把原来的现象推理出来,希望我们能超越流体力学。

NeuroFluid仅从视觉观测中学习物理规律,通过图像重建,优化拉格朗日粒子的状态转移网络。其优势一,无需粒子标记数据,可拓展到真实场景;优势二,不依赖专家先验,在湍流等难问题上有潜力超越现有计算物理方法。

我们的方法主要有两个模块,一个是物理驱动的NeRF,也就是新视角下的图像合成;另一个是物体转移,能够根据观测或者预测进行推理。这两个模块形成端到端的优化,计算推断精度、合成精度、预测精度,形成迭代。

我们仿真出来的图像与拍照出来的图像有点误差,为了缩小误差,可利用NeRF,重建这张图。

模块一物理粒子驱动的可微渲染器PhysNeRF。PhysNeRF除图像外,还把流体微元的位置、速度等属性体现在NeRF中。

模块二粒子状态转移网络DLF(DeepLagrangianFluids)。它能够通过一个神经网络预测下一时刻流体的粒子位置和加速度。这种技术就是机器学习,是一个卷积,可以比较好地泛化到复杂场景。

流体粒子动态反演+未来状态预测,DLF在大规模粒子状态数据上进行有监督训练;DLF表示在测试场景的粒子状态上进行模型微调。从图3所示的实验效果可以看出,我们的方法要比其他方法好。NeuroFluid反演结果的粒子运动更加自然,更贴近真实情况,能更好地匹配真实流体动态。从其效果图可见,这只传统图形学的兔子变成了一个流体,这种熔化流动感很真实。此外还能较好地预测未来。

2.2世界模型的持续预测学习——机器人视觉学习

图4所示是我们的方法——混合世界模型(M),其用变分推断+混合高斯,在各任务上学习独立的隐变量先验,缓解时空动态分布漂移;预测式经验回放,固定上一任务学习好混合世界模型参数(M,预测网络),用于在后续任务上回放旧任务上的图像序列,回放结果与当前任务的真实数据混合,重新训练混合世界模型,缓解输入和输出分布漂移。

从实验结果可以看出,本文所提模型在持续预测学习中的任意阶段,都能很好地保持已学习的时空动态信息,生成结果运动明确、物体清晰。

图4混合世界模型

2.3世界模型表征解耦——自动驾驶

我们把自动驾驶抽象成世界模型表征解耦的问题。实际中,驾驶员可以控制路面有些物体,但是除了车辆的相互规避控制不了其他车辆。我们的初衷是希望把受控和非受控解耦,解耦后能够做提前规划和控制。这样的问题很多,尤其在自动驾驶中非常典型。

这里主要采用了三路神经网络,分别从图像中提取“参与者状态”(Action-conditioned)、“自然状态”(Action-free)和静态背景信息。通过优化“参与者状态”支路上的“逆动力学”目标函数,实现解耦。

3生成式虚拟数字人

生成式模型和计算机图形学方法都有各自优缺点,我们希望通过NeRF作为一座桥梁,将各自的优缺点组合起来,实现数据驱动、流程简单、精细控制、可解释的一种生成式数字。这里主要汇报我们两方面的工作,一是可泛化的三维数字人重建;二是三维数字人的跨模态驱动。

3.1可泛化的三维数字人重建

为使数字人逼真,我们做了高拟真的模型来适应不同场景;然后可以驱动,通过文本、声音进行跨模态的驱动数字人,从而大规模、高效地产生可泛化、可驱动的虚拟数字人。

可泛化的第一个工作就是怎样利用单帧图像精度进行三维人脸重建。其意义在于,无需光场设备和动捕设备,低成本实现动态人体重建。主要挑战是数据域差异,即不同片段之间的动作种类、背景、相机、光照、遮挡等差异,以及不同场景之间的数据。主要参用的方法是鲁棒纹理补全的生成对抗网络,使用生成模型去除遮挡,生成人脸3DMM模型;基于物理的隐式可微渲染函数,以无监督的方式,学习精细的几何形态、渲染要素分离。如能对一些渲染的要素解耦,也能精心重建。其架构主要是把GAN和NeRF比较好的结合在一起。但从效果图可以看出一些缺陷,如角度比较大时,有些地方不够好。怎样克服这些不好的地方,是后面需要做的工作。

可泛化的第二个工作就是单个视频的三维人体运动重建(BilevelOnlineAdaptationforOut-ofDomainHumanMeshReconstruction,CVPR2021)。希望在没有光场设备和动捕设备,低成本实现动态人体重建。主要的挑战在于数据域的差异和深度的歧异。采用的方法是在线更新网络的方式,比较好地消除两种差异与歧异。从效果图可见,在大的溜冰场里,不可能建现场,也不大可能让一个运动员戴设备,这是很危险的。我们的方法实现了比较好的重建,然而精度还是不够。但是做一些内容是可以,比如做一些溜冰的动作等,至少从视觉的角度来讲是可以的。

3.2三维数字人的跨模态驱动

跨模块驱动第一个工作就是高拟真表情可驱动的数字人。通过将面部表情分解与神经辐射场结合,在保证渲染质量的同时实现细腻自然的表情驱动。从效果图可见,假人很逼真,可以被智能操控,包括头发、眼睛、嘴巴、脖子,而通常脖子容易出问题,因为用了两个模型,所以视觉效果不错。

跨模块驱动第二个工作是语音驱动个性化数字人。低成本的数字人语音、文本驱动,比较好的克服纯-音同步等方面的难题。

第三个工作是CageNeRF可泛化的形变与驱动(CageNeRF:Cage-basedNeuralRadianceFieldforGeneralized3DDeformationandAnimation,NeurIPS2022)。我们希望无需骨骼绑定即可驱动,低成本实现通用的物体驱动。面临的挑战是难以对隐式场施加通用的结构约束,形变场的泛化性难以保证,形变后的细节真实感难以保证。我们基于Cage的形变表示,以低维包络框作为物体三维结构化约束,可泛化到任意物体形变;基于显式控制的隐式渲染,同时保证了渲染的真实性与编辑的可控性与便捷性。

从其效果可见,我们的方法能够比较好地实现编辑和风格转移。

4结束语

生成式人工智能是可以为基于视觉物理世界模型,以及虚拟数字人提供可行的途径,我们所做的这些初步工作,证明了是可行的。

展望未来,希望通过数学、物理、信息的认知,以及计算机增学科交叉,进一步夯实生成式人工智能的基础理论。本文中提到的方法都是组合式,拼接式还是过于自组织,能不能形成更有系统的基础理论,需要我们再努力。另外,从应用角度来讲,“物理+数据”联合驱动,“虚拟+现实”深度融合,生成式的AI直觉有望加速科学发现、物质合成、元宇宙构建。

Feynman曾说:“凡是我不能创造的,我都不能理解”。在元宇宙时代即将来临之际,我们的生成式人工智能说:“凡是我能够理解的,我都能创造”。

THE END
1.AI教育在线,重塑教育模式的未来之路蔬菜花卉AI教育在线致力于重塑教育模式,探索未来教育的新路径。借助人工智能技术的力量,AI教育在线提供个性化的学习体验,深化学习内容的理解与应用,提高教育质量。通过智能教学工具和数据分析,AI教育在线帮助学生发掘潜力,提升学https://hnjwwzy.cn/post/2885.html
2.易学习在线,数字化高效学习路径的探索技术服务易学习在线致力于探索高效学习的数字化路径。通过结合现代科技,提供丰富的学习资源和工具,帮助学习者随时随地获取知识,提升学习效率。致力于创新教学方式,让学习变得更加便捷、高效。 易学习在线的核心特点 易学习在线以其丰富的教育资源、个性化的学习体验、强大的互动功能以及高度的灵活性,成为数字化教育的新宠。 https://m.ahsanfangjs.com/post/22849.html
3.AI自习室:莫让网课李代桃僵新闻频道近来,厦门一些学校、社区周边,悄然出现了一种利用人工智能技术提供个性化学习体验的AI自习室。这种自习室结合?智能技术和传统自习室概念的创新学习场所,不仅具备传统自习室的自学功能,还能通过?智能硬件和?大模型技术的应用,为使用者提供更加高效和个性化的学习体验,这对于不少想要获得更好学习体验的人来说是一个https://news.xmnn.cn/ldrp/zgsb/202412/t20241216_287856.html
4.线上教育系统开发:打造高效互动的学习平台线上教育系统的互动性是其区别于传统教育模式的重要特征之一。系统应提供师生互动、付费问答、移动社群等功能,鼓励学生积极参与讨论,提高学习效果。同时,通过在线打卡、督导管理等功能,系统可以帮助学生养成良好的学习习惯。 数据分析 线上教育系统应具备强大的数据分析能力,能够实时跟踪学生的学习进度、成绩变化等关键指标https://pbids.com/aboutUs/pbidsNews/1861300381964931072
5.AI自习室是风口还是噱头?在教育领域,AI自习室正逐渐兴起。这不仅为学生提供了个性化的学习体验,也引发了关于教育未来发展路径的广泛讨论。(12月19日《科技日报》) 加上“AI”前缀的自习室成了一门“火热”的生意。AI自习室在学校附近底商、培训机构教室以及小区内部悄然活跃起来。在资本市场的表现同样火热——这类软硬一体式的教育经营模式http://www.xinhuanet.com/comments/20241220/32fe7fbc94e0494db8428538d41cb591/c.html
6.连续工龄的认定职工自动离职的工龄计算按除名情况处理。根据有关规定,受到除名处理的职工,除名前的连续工龄与重新就业后的工作时间可以合并计算为连续工龄。 职工曾被开除、刑事处分后再次参加工作的,其连续工龄只能从最后一次参加工作之日算起。 6、在高等院校脱产、半脱产学习的职工工龄能否计算? 在高等院校脱产、半脱产学习的职工,https://www.66law.cn/laws/38886.aspx
7.视频课程干部培训点击学习选项卡里的课程列表下面红色的自动连续学习上面的课程按钮,视频将自动连续放。 广东省干部培训网络学院是由中共广东省委组织部主办,网站涵盖了政治、经济、教育、时事分析等各个板块的视频课程。 中国教育干部培训网视频如何下载 登陆中国教育干部培训网,找到您想要的课程点击打开,最下方会有课程位置。将其复制、https://www.govjiaoyu.cn/peixun/1842.html
8.驾照满分学习要连续学习七天,中间不能断吗1、驾驶证实习期内如果扣满12分,驾驶证自动注销。需连续7天学习并考试科目一,考试合格后,可以领取https://www.64365.com/ask/11004443.aspx
9.分析股市预测的深度学习技术结合在线学习和深度学习方法 在线学习是一种训练方法,它使用模型的在线训练结果作为反馈以实现模型调整。对于缓解股市波动性、不确定性、高噪声因素的影响大有裨益。投资者需要根据股价走势及时调整投资计划,将此方法应用于股票市场投资策略是明智的。它将同时更新模型,从而自动控制预测结果和期望值之间的差异。已经有一些https://maimai.cn/article/detail?fid=1810610871&efid=k8hnL1-NvJ2kAfW8I85mSg
10.中控技术2022年年度董事会经营评述股市直击股票基于迁移学习的控制回路自整定技术,利用了回路整定的大数据和专家经验,实现了缺乏历史数据情况下的参数预整定;实现了历史及在线数据自动分析,数据和回路特征提取,智能匹配整定策略,回路批量自整定;基于自学习策略不断迭代优化过程对象模型,实现了回路参数的渐进优化,降低了整定过程的门槛,提高了整定的效率和不同工况http://4g.stockstar.com/detail/IG2023042600034846
11.批量梯度下降和随机梯度下降(SGD)和小批量梯度下降在线学习机制今天 许多大型网站 或者许多大型网络公司 使用不同版本的 在线学习机制算法 从大批的涌入 又离开网站的用户身上 进行学习 特别要提及的是 如果你有 一个由连续的用户流引发的 连续的数据流 用户流进入 你的网站 你能做的是使用一个 在线学习机制 从数据流中学习 用户的偏好 然后使用这些信息 来优化一些 关于网站https://blog.51cto.com/u_15127568/3859318
12.深度强化学习为智能航空发动机控制赋能因此他提出了一种基于连续动作空间的强化学习自动机,用以在线自动调整发动机怠速转速控制的PID参数,如图3所示。此方法相较于传统的人工调参而言大幅降低了人力成本,同时显著提高了调参效率及发动机的动态性能。这不仅为深度强化学习在实际控制系统中的应用奠定了实证基础,而且对发动机控制技术的发展做出了实质性贡献。https://www.aerospacepower.cn/article/2314
13.计算机应用研究杂志四川省计算机研究院主办2016年第01期一种基于学习自动机的推荐算法改进 关键词:学习自动机 奇异值分解 推荐算法 隐语义模型 梯度下降算法 针对原有的基于隐语义模型(LFM)的推荐算法中,当训练样本数减少时,训练误差和测试误差都明显增大的问题进行改进研究,提出了一种全新的基于学习自动机的矩阵训练算法。该算法充分利用连续型学习自动机在随机和高噪声https://www.youfabiao.com/jsjyyyj/201601/
14.学习啦在线学习网免费的技能特长知识学习网站学习啦在线学习网是免费的技能、特长、知识综合学习网站,提供各行各业学习资讯供大家学习参考,如学习方法交流、智力测试、记忆力训练、电脑教程、英语学习教程、职场攻略、励志故事、各种实用生活百科知识等等!https://www.xuexila.com/
15.自动驾驶的社会交互:一个综述和思考汽车技术SVO模型衡量了一个驾驶员如何将其奖励相对其他智体的奖励的加权,这可以从逆强化学习(IRL)结构下的观测轨迹中学习。然后,SVO模型的在线学习驾驶偏好,集成到两辆或多辆的车辆协同交互的游戏场景中。SVO概念已被广泛研究并应用于社会兼容的自主驾驶中。 2 社交驱动模仿的社会凝聚力https://www.auto-testing.net/news/show-116481.html
16.个人工作技术总结范文3000字(通用13篇)20xx年7月毕业后来到公司,正值动力厂筹建25MW煤气发电项目,由于刚刚毕业,现场经验不足,于是自己一直扎根现场,将书本上的知识与现场相结合,理论联系实际,同时虚心请教学习,对于每个设备从认识到了解,是一个很充实的过程,从锅炉部件安装开始,从汽机每个独立的设备安装开始,每个设备最后都能熟悉其结构及原理,一直在整个筹https://www.fwsir.com/Article/html/Article_20220922085447_1988195.html
17.电力营销安全生产工作总结(通用19篇)1、强化安全培训,提高职工安全素质:实践证明提高职工安全素质是预防事故的跟本措施,必须加大力度,不会什么学什么,不懂什么学什么,在今年我所依据年初制定的职工培训计划,有目标,有针对性开展了各项安全培训活动,组织职工学习电力局编印成册的《现场应重点防止的习惯性违章行为》,并针对工作中的违章易发环节,开展讨论活动https://www.oh100.com/a/202204/4563649.html