去年以来出现了AIGC热潮,引发了AIGC及其应用话题的爆发性增长,不少人感慨强人工智能的时代已经离我们不那么遥远了。但是在热潮的另一面,我们看到真正能落地的场景依然是凤毛麟角,目前比较成功的应用主要集中在个人消费领域,而AIGC在产业中的应用大多仍然处于探索阶段。
红杉资本在22年9月就对AIGC做出了以下预判:文字类AI生成将在2023年进入黄金时期,图片类AI生成黄金时期将在2025年左右抵达,3D和视频类AI生成在2023年可能正处于草稿阶段,进入黄金时期或许在2030年。不可否认,文字与图片的AI生成确实走在了前面,而3D模型、视频和游戏生成仍在研发阶段。
若考虑到AIGC产业应用,如在制造业、建筑业等巨型垂直实体领域中,AIGC的C/Content内容将不能仅停留在图片和文字的领域,而是需要进入信息更为丰富的三维领域。接下来,我们将从AIGC技术->产品->业务应用和价值实现环节探讨其发展路径,并以产业实例探讨AIGC如何才能在产业领域实现闭环和价值落地。
1.AIGC技术:从文字到图片
从大家对ChatGPT越来越多的测试中可以看到,ChatGPT不仅能对语义进行解析和结构化,还能在此基础上用NLP自然语言处理做数据分析。
ChatGPT对内容进行结构化处理和数据分析-佳格数据提供
事实上,以StableDiffusion为首的一众AI画图框架或者平台,在去年更早的时候已经引起了轰动。虽然图片相对文字来说看上去信息含量要更为复杂,但是其技术成熟却要比以GPT为首的文字生成来的更早一些,我们有必要从主流的开源框架StableDiffusion为例,回顾一下这些图片AIGC框架是如何工作的。
StableDiffusion生成的图片,已经有了比拟人类画家的能力
StableDiffusion主要有三个组成部分,每一个部分都有自己的神经网络。
1、CLIP用于文字编码器:以文字作为输出的语义信息组成一个77*768的矩阵,CLIP训练AI同时进行自然语言理解和计算机视觉分析。CLIP可以决定图像和文字提示的对应程度,比如逐步把建筑的图像和“建筑”这个词完全匹配起来,而其能力训练是通过全球40多亿张带文字描述的图片实现的。
CLIP的训练集
2、UNET及调度程序:这就是大名鼎鼎的扩散模型主程序(来自CompVis和Runway团队于2021年12月提出的“潜在扩散模型”(LDM/LatentDiffusionModel)),用于对噪声进行预测实现反向去噪的过程,进而实现图片在信息空间中的生成。如图片所示,染料扩散的过程就像从图片逐渐变成噪点的过程,而当研究人员对图片增加随机噪点让AI反向学习整体过程,而后就拥有了一套从信息空间噪点图反向生成图片的模型。
Diffusion模型反向去噪过程
不同的染料滴入水中扩散出不同的形状
3、信息空间到真实图片空间的解码器:即把信息空间中的矩阵信息转换为肉眼可见的RGB图片。想象一下我们与人交流的过程,听到的声音信号转换为大脑能理解的文字信号存储在脑中,这个过程称之为编码。如果尝试把文字信号通过某种语言表达出来,这个过程可以称为解码——这里的表达方式可以是任意的语言,每种语言对应不同的解码器,解码只是一种表达方式,本质还是基于人类脑海中对于某件事情的描述与理解。
StableDiffusion从输入到输出全流程解读
正是有了这几个关键技术步骤的串联,StableDiffusion成功创建了一个无所不能的AI作图机器人,不仅能理解语义,将其转化为信息空间的信息流,还能够在信息空间中通过模拟降噪创作,通过解码器还原成肉眼可见的图片,这一充满科幻色彩的过程放在AI不存在的世界来看,堪称神迹。
2.AIGC技术:从图片到3D模型
图片生成已经取得了突破性的效果,但如果这些成果能够进一步优化应用到更多领域,将有可能实现更大价值。我们也看到一些细分领域中的探索成果,比如经由对场景的理解,通过不同的数据集加入和调参,可以实现对图片生成更好的控制,而不仅是通过文字的不断试错来获得更优结果。
2.1设计意向图生成
小库科技「这个建筑不存在」,GANs模型生成建筑意象图及迭代过程
左图:小库「AI创意库」生成,触发语句LouisKahn风格,依山傍水的小型博物馆;右图:小库「AI创意库」生成,基于左图LouisKahn风格图片,完成风格切换至LeCorbusier
GoogleDreamboothFine-Tuning算法示意
举个例子,当输入一张博物馆图片及一个词汇"ZahaHadid(过世的全球著名女建筑师)"的时候,模型能够理解需要将博物馆的建筑风格或特征往ZahaHadid的作品靠拢,而不是在博物馆中增加一个ZahaHadid的人物或画像,抑或是在AI世界里创作一个ZahaHadid的卡通画像——这往往是通用模型会返回的结果之一。
经过微调后的建筑模型,小库「AI创意库」能充分理解“ZahaHadid”这个特殊词汇隐含意思
2.23D模型生成
二维的图片虽然精彩,但在产业应用中暂时还只是停留在“意向图库”的作用,未来如果要成为可以精准表达设计的成果,需要向3D和更高信息维度去迈进。
在2020年AIGC没有现在这么成熟的时候,上述团队就在探索如何用AI生成3D模型,并在同济大学DigitalFUTURES工作坊教学中,公开了其在研发的中从图形生成图像进一步生成模型的算法,能看到当时的模型效果并不太理想,有价值的是实现了图形-图像-模型的联动。
2020同济大学DigitalFUTURES工作坊小库教学团队成果,手绘图形生成图像进而生成模型
第二年在同济大学DigitalFUTURES工作坊教学中,该团队发布了一种通过GANs学习卫星图与真实三维模型之间关系,将卫星图生成为真实三维模型的算法。该算法通过对卫星图上不同的图层元素进行特征学习,能大致复原出卫星图所对应的主要物体三维拉伸形体,预测不同物体投影所对应的原物体高度。当然,这种方法还存在一定的缺陷,只能在卫星图场景中使用,难以积累其他场景中同类图片与三维形体之间的关系;其次是还原的三维形体只能粗略预测高度,其他细节需要通过算法重新生成,与真实的三维模型存在较大误差,只能用于项目早期研判使用,应用场景有限。
城市三维模型分层特征提取训练示意图
2021同济大学DigitalFUTURES工作坊小库教学团队成果,基于GANS的卫星图重建三维模型
得益于AIGC算法的爆发、3D生成算法的日益成熟,我们也看到垂直类AI企业开始吸收更多先进的技术与思路改善其模型,并在3D-AIGC的路线上有了一些新的尝试方向。例如OPENAI推出了Point-E框架,该框架可以将任意二维图片通过算法预测为点云,进而通过点云去预测三维物件。
PointE框架全过程示意图
但是模型生成的质量依然有一定的局限,而模型的不可用主要体现在以下三个方面:
1.三维形体还原难:首先二维图像数据比三维模型数据出现早,同时可获取的二维图像数据目前也比后者多,因此前者可作为训练素材的量级更多,较少的三维模型训练素材的泛化能力有限,难以还原最初的三维形体;
2.材质整体缺失:对于三维模型来说最重要的一环是材质的填充与选择,然而对于AI生成来说,从图片直接推敲其材质的方法尚未成熟,同样材质在不同的形状、环境、光源下的表现都有所不同,而当这些变量都集中在一张图片中时,材质重建几乎不可能实现;
3.生成的模型精度不达标:通过点云推敲的模型,通常是依赖于点云的密度重建物体表面Mesh,如果点云过少物体会严重失真,甚至无法重建模型。
小库团队测试Point-E模型,左边建筑图片生成点云进而模拟出右边三维模型,遗憾得到的只是一堆无意义的点云模型,Point-E暂时还无法理解一个建筑物的图片
当然我们能理解当前的技术瓶颈,如果把目标定的稍微低一点,选择从三维建模软件中生成的简单形体、做二维的截图在point-e模型中重建,会意外地发现其效果比以上测试更佳,但也仍局限在“初步草稿”的范畴。这与训练集有很大的关联性,通过三维建模软件生成各个视角的二维视图是该模型最易获取训练数据的方法之一。
小库团队测试Point-E模型,针对建模软件中选取一个简单三维模型做任意角度截图,重建三维模型,往往有还不错的效果
综上来看,从文字->图片->点云->三维物体的技术路线固然令人惊叹,但如果要应用在产业领域,还有很多工作需要AI科学家们去做。
然而,是否只有这一条技术路线去实现三维模型的生成?
3垂直领域AIGC应用新思路
在泛领域的大模型研发上以OpenAI为首的厂商,包括Nvidia和Google等巨头也在纷纷推出属于自己自己的通用型3D-AIGC框架,遗憾的是目前还处在一个早期阶段。对于垂直实体产业来说,落地应用显然还有很长的路要走。
从全球范围来看,在3D模型的生成领域除了泛领域大模型外,部分垂直产业也在探索AIGC如何应用落地。比如西门子在引擎的设计和制造中针对生成的模型进行方针模拟和进一步优化,最终通过3D打印实体,实现了3D模型生成现成果交付和业务闭环。
西门子通过生成式算法实现引擎的设计和模拟
这样的成果的实现,有赖于在产业逻辑下的底层业务内容及其数据标准的不断迭代。
按照ISO/IEC给出对内容的数字标准定义SMART(StandardsMachineApplicable,ReadableandTransferable机器可开、可读和可交互标准):L1级为纸质文本,没有机器交互可能;L2级为开放数字格式,机器交互性很低;L3级为机器可读文档,但机器无法理解检索的结果与内容;L4级为机器可读内容,可做语义交互但机器无法理解上下文的逻辑关系;L5级,机器可交互内容,可实现自动识别、自动生成等智能属性。
在产业领域中,目前广泛应用L3级信息化内容,正在发展L4级数字化内容,而L5级智能化是工业4.0和智能制造的核心基础。因此,生成L4级以上机器可读内容,特别是生成L5级智能化内容,是未来AIGC的方向。
ISO/IECSMART数字标准《中国工程科学》2021年第23卷第6期《标准数字化发展现状及趋势研究》刘曦泽、王益谊、杜晓燕、李佳、车迪
海外已经在AIGC的产业应用领域中开始了实践,而国内的探索仍然比较稀缺,但我们也发现了一些在垂直领域深耕的企业。比如上述提到的,在建筑产业深耕的小库科技团队。我们将以其实践的建筑产业为例,探讨AIGC在垂直产业中的落地路径。
当前国内实体经济处于转型的窗口期,国家层面提出“人工智能与实体经济融合“的重要任务,各大产业迫切希望AI技术能够真正落地,协助产业实现数字化与智能化的升级跃迁,而不是一个停留在概念的DEMO产品,或者茶余饭后讨论的好玩趣物。
建筑产业是接近30万亿每年的国家支柱型产业,但是其数字化水平在全国各行业中排名倒数第一。当前国家提出智能建造方针,希望迈上“中国建造”的新台阶。智能建造是以新型建筑工业化(工业化/装配式、数字化、智能化)为基础,基于新一代信息技术与先进建造技术深度融合,贯穿于设计、生产、施工、运维、监管等建设活动各个环节,具有自感知、自决策、自执行、自适应、自学习等特征,旨在优化建筑产业全生命周期质量、效益和核心竞争力的先进建造方式。
2011-2021年中国建筑业总产值及增长情况-国家统计局-前瞻产业研究院,
而在建筑产业,底层数据标准正从机器可读文档L3级的CAD时代,向机器可读内容的L4级BIM时代迈进。建筑产业中对3D模型的要求是内容对象具备三维空间中的全维度精确信息,包括模型、数据等维度,如果还能包含规则维度,进而便可使其具备自感知、自学习、自迭代等智能化的能力。目前,L3级的CAD和L4级的BIM应用软件已经被海外垄断,我们发展的空间和潜力必然集中在了可以高维覆盖低维的L5级上。
数字标准SMART在建筑领域的内容格式示意
基于对建筑产业数字化变革的洞察,小库团队意识到必须对整个产业的数据底层进行再定义。从2016年成立起便致力于L5级3D模型AIGC的底层技术研发及其在建筑产业中的应用。基于一套含有业务流逻辑的AI系统生成包含建筑信息与多维数据、3D模型、以及规则/规范/规律的“数-模-规”可联动的内容,实现建筑设计方案的智能生成。
这样的底层数据,团队将其称为AIdrivenBuildingInformationModelonCloud人工智能生成的云端建筑信息模型(简称ABC),并将智能生成的达成归结为四个实践步骤:AI识别现有内容用于训练或结构化数据重建,对数据进行评估和模拟仿真,通过对初步数据成果进行优化,最终生成由系列的AI模型组建的业务成果。
L5级建筑智能格式ABC智能云模示意
AI识别领域,团队通过对千万级的不同业务类型CAD图纸数据的清洗和训练,获得了对L3级无语义CAD图纸的100%云端还原与99.8%*的准确语义解析和补充,在该领域达到世界先进水平。这项成果已经深度应用到企业的多个产品与解决方案中,比如针对施工图审查的「智能审图」中条文审查准确率约为96%。
小库施工图构件与空间识别
小库「产品力价值评估」
AI优化领域,团队认为“优化”是基于前序“识别”和“分析“后的进一步寻优迭代,即基于已有内容的重新生成更优的成果。这类技术已在公司具体的产品和解决方案中得到应用。比如在设计云2022版“智能日照优化”功能中,小库可以将未通过日照的方案进行自动微调,使其能够在原有格局不进行巨大调整的前提下通过日照验证。这项能力也用在了建筑方案的设计深化中,比如幕墙设计优化场景。在与四川省商业设计院合作的四川某博物馆幕墙项目中,小库算法将原有3万多种不规则三角形幕墙板优化为12种标准模块,比现有世界水平能降低到的116种还减少了90%,建筑幕墙成本将因为SKU和开模数量的降低而得到大幅度降低。
小库「幕墙优化AI算法」
AI生成领域,是智能设计最为核心的部分。对建筑业而言,选择经济适用美观的设计方案、交付安全高效高质量的建造成果,需要多专业、多角色统筹协同完成。不仅需要从宏观尺度、到中观尺度再到微观尺度逐个攻破,还需要在建筑、结构、机电、水暖、景观等多专业逐步覆盖,更需要涵盖住宅、公寓、产业、办公、商业等各种业态类型。因此垂直领域的专业成果生成绝不是某一个模型算法一套数据可以解决的,它需要多模型、多模态、多数据集等多项技术与业务逻辑有机融合,通过契合细分场景的产品设计和基于用户反馈的持续迭代,才能最终实现。
小库团队从业务逻辑出发,对传统建筑设计需要的24个业务流程步骤进行梳理,将其核心内容抽取重构为6个业务模块,以AI系统与云端架构为核心,建立起一套全新的建筑设计AIGC业务流程:调(信息调用与AI识别)、做(全AI生成与人机协作生成)、改(人工可改与AI优化)、核(数据核查与AI审查)、协(云端多人协同与业务管理)、出(自动输出更多格式-3D模型/2D图纸/图像/PPT/Excel等)。
左图:建筑设计原有业务流程24个步骤,右图:小库重构为6个AI加持下的业务流程板块
基于对业务的深刻理解和重构的业务逻辑,在产品设计上将6大业务模块与AI识别、AI生成、大数据、云端协同等技术深度融合,实现了建筑规划、单体设计、构件生成等不同深度的建筑业务需求,从分析到设计到审查再到协同与输出,逐步覆盖了住宅类业务所需的广度和深度需求。
「小库设计云-建筑规划」产品6大模块
「小库设计云-建筑单体」产品6大模块
4.AIGC在产业中的价值落地
在大部分产业中,AIGC的应用仍然处于初级阶段,整体AI技术的不断发展将推动后续AIGC的创新应用。以当前的建筑产业实践为例,AIGC目前能够在产生用户可感知价值的部分业务细节场景中,辅助提升对效率有较高要求的具体业务场景,如建筑产业中的投研、设计、评估、管理和建造等环节。
4.1最优解增益与效率提升
「小库设计云」AI生成实际住区拿地方案
4.2成本降低与节能减排
「小库装配云」与中建科工合作的深圳某酒店,全过程智能设计与智能建造)
L5级智能建造模式与传统模式对比
通过以上案例可以看到,L5级的AIGC可以从数据产生的源头开始,通过在产业链各环节细分场景的具体应用,能够有效辅助产业链获得更高的全生命周期质量、效益和核心竞争力。未来,AIGC从文字和图片迈向更高维的3D和L5级内容成果是大势所趋,这不仅是建筑产业对人工智能的未来预期,也是各垂直产业的共同的期待。
您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器