【AI问爱答】是阿里云首档AI问答栏目,由AI专家答疑团回答网友提问,不论是对AI产品技术、模型使用、应用开发、落地实践有疑惑,或者对栏目探讨的话题有补充,欢迎你们来提问!
每周四晚7点,阿里云官方媒体平台、量子位视频号将发布问答短片。
第二期由栏目围绕端侧智能和模型训练推理的内容:大模型落地到端上最大的挑战是哪些?模型训练需要昂贵的成本支撑,那么在训练或微调过程中,如何提升训练性能,以节约训练成本?模型推理,最新的技术方向是怎样的?更多内容请解锁原片。
Q
深度问答1
AppleIntelligence和其他端侧AI产品有什么本质不同?它在设备端与云端处理技术路线是怎样的?
A
深度问答2
国内手机端侧AI能力什么时候能赶超AppleIntelligence?
从模型的能力上来讲,苹果的模型,现在我们没有看到非常好的公开的一些指标。以通义为例,针对小尺寸的模型7B以下,Qwen2的1.5B模型,在小尺寸的范围内是非常领先的。从模型本身的效果表现上来讲,我觉得我们国内去赶超苹果的模型,指日可待。
深度问答3
汽车厂商都在做智能座舱,您怎么看?
深度问答4
如何看萝卜快跑等智驾技术带来的技术性失业?
目前所有的AI能力,单点能力相对表现的比较好,在某种程度上是要远远超过人类的,但在协同性,在非常复杂的场景上,它的能力还偏弱。以目前的状态来看,更多的是人和AI工具的共存,这带来的挑战就是AI的边界会越来越外扩,人的边界会越来越收缩。你不能消灭它,你只能去拥抱它,在以AI为主的场景上,去找自己适合生存的链条。
深度问答5
目前大模型落地到端上最大的挑战是哪些?
目前端上的模型落地,面临的一个非常大的挑战点是在于面临着像性能,资源、功耗多方面的一个平衡。不管手机也好,PC也好,甚至车也好,算力受限,内存有限,对精度的要求不比云上要低,场景也复杂,选用大尺寸的模型,内存和推理速度没办法满足,选用小尺寸模型,整个效果会变得比较差。现在所谓的小尺寸模型,本质上来讲还是一个很大的一个模型。它的资源占用,它的推理性能,其实是一个非常大的瓶颈。
深度问答6
目前模型推理,最新的技术方向是怎样的,有哪些突破点?
深度问答7
面对应用场景的多样性,模型部署有什么挑战?
对于不同模态来说,它的输入输出的形式会发生变化,对上下文有更高的要求。基于这个挑战,我们目前在大语言模型的推理优化主要包括像高性能计算的优化,低精度量化压缩,批处理的调度管理,运行时的优化,高效解码,上下文的缓存,以及更高效的分布式架构等方面。
深度问答8
模型训练需要昂贵的成本支撑,那么在训练或微调过程中,如何提升训练性能,以节约训练成本?
token/s具体到硬件上,其实就是对硬件资源的有效的利用率,也就是我们常说的指标MFU。计算量确定了,怎么样去做这个优化呢?要根据各个硬件单元的吞吐来理论预估模型训练的瓶颈,以及性能优化的空间,具体可以从计算、通信和显存三个大方向进行入手。
在显存上,要根据模型的结构以及它中间的activation大小,来理论预估这个模型所占用的显存大小,并且要结合所使用的分布式策略、offloading策略以及其他显存优化策略。
有了这些瓶颈点定位、优化空间,以及评估数据后,我们就可以从具体的瓶颈点入手。
深度问答9
在优化目标的约束下,如何去优化计算、通信和显存的能力呢?
一种方式就是需要根据理论预估,并且需要专家经验来对特定的模型使用特定的优化算子,以及分布式策略和显存优化策略。另外一种方式就是编译优化。PAI有一个TorchAcc框架,就是基于静态计算图来进行编译优化。还有一个最底层的根据硬件来做自动的算子融合和codegen,来生成对应的硬件更高效的算子。总而言之就是提升训练性能,还需要根据实际显卡的容量和带宽,从计算、显存和通信这几个方面入手。PAI提供了包括TorchAcc在内,支持包括像Llama、GPT这种架构的模型,以及MoE、DiT以及多模态架构的模型。
快问快答1:如何评估模型训练所需要的GPU资源?
首先要参考scalinglaw,在不同的模型架构下,scalinglaw需要对公式和系数进行修正。scalinglaw还是能在多数场景中指导我们一个多大的模型需要多少的计算量,从而评估GPU资源的总使用量。在模型训练中,对于吞吐和迭代速度也存在一定的要求,这能够指导我们需要构建多大的训练规模。GPU资源在真实训练过程中的使用量,也取决于实际的资源利用率。
快问快答2:在魔搭当中,基于Swift的微调能在华为的NPU上跑吗?
可以,我们魔搭是一个开源开放的平台。参考链接:
快问快答3:千卡以上级别的大型训练任务如何保障其稳定性?
首先是故障检测,包括了底层的GPU服务器,网络监控等等,运行过程当中需要进行hang检测、降速检测、瓶颈分析、精准度检测等等,阿里云提供了C4D、EasyTracker等工具。任务失败时需要及时进行模型跟保存恢复。PAI的EasyCheckpoint产品提供了高性能模型保存和恢复能力。PAI的AIMaster产品提供任务时的自动容错重启,结合一些这样的工具来保证千卡训练的稳定性。
快问快答4:如何提高大模型线上服务的推理速度?
首先根据场景需求选择合适规模的模型,并基于实际的负载特性分析性能瓶颈。例如典型的输入输出长度、并发数、预期的延迟和吞吐指标等等。然后,针对性能瓶颈,选择应用合适的推理优化技术。例如瓶颈在并发数,可以应用模型或KVCache压缩,瓶颈在上输入和首token延迟的,可以应用量化加速计算,瓶颈在长输出的生成速度的,可以应用高效解码技术等。
最后,【AI问爱答】第4-6期问题正在火热征集中,我们将围绕基础模型、开源模型、多模态、Multi-Agent、应用开发工具等回答大家的提问。