AI问爱答第二期问答干货请查收，诚邀您来提问算子模态推理访存ai问爱答|免费的ai问答_在线医生

【AI问爱答】是阿里云首档AI问答栏目，由AI专家答疑团回答网友提问，不论是对AI产品技术、模型使用、应用开发、落地实践有疑惑，或者对栏目探讨的话题有补充，欢迎你们来提问！

每周四晚7点，阿里云官方媒体平台、量子位视频号将发布问答短片。

第二期由栏目围绕端侧智能和模型训练推理的内容：大模型落地到端上最大的挑战是哪些？模型训练需要昂贵的成本支撑，那么在训练或微调过程中，如何提升训练性能，以节约训练成本？模型推理，最新的技术方向是怎样的？更多内容请解锁原片。

深度问答1

AppleIntelligence和其他端侧AI产品有什么本质不同？它在设备端与云端处理技术路线是怎样的？

深度问答2

国内手机端侧AI能力什么时候能赶超AppleIntelligence？

从模型的能力上来讲，苹果的模型，现在我们没有看到非常好的公开的一些指标。以通义为例，针对小尺寸的模型7B以下，Qwen2的1.5B模型，在小尺寸的范围内是非常领先的。从模型本身的效果表现上来讲，我觉得我们国内去赶超苹果的模型，指日可待。

深度问答3

汽车厂商都在做智能座舱，您怎么看？

深度问答4

如何看萝卜快跑等智驾技术带来的技术性失业？

目前所有的AI能力，单点能力相对表现的比较好，在某种程度上是要远远超过人类的，但在协同性，在非常复杂的场景上，它的能力还偏弱。以目前的状态来看，更多的是人和AI工具的共存，这带来的挑战就是AI的边界会越来越外扩，人的边界会越来越收缩。你不能消灭它，你只能去拥抱它，在以AI为主的场景上，去找自己适合生存的链条。

深度问答5

目前大模型落地到端上最大的挑战是哪些？

目前端上的模型落地，面临的一个非常大的挑战点是在于面临着像性能，资源、功耗多方面的一个平衡。不管手机也好，PC也好，甚至车也好，算力受限，内存有限，对精度的要求不比云上要低，场景也复杂，选用大尺寸的模型，内存和推理速度没办法满足，选用小尺寸模型，整个效果会变得比较差。现在所谓的小尺寸模型,本质上来讲还是一个很大的一个模型。它的资源占用，它的推理性能，其实是一个非常大的瓶颈。

深度问答6

目前模型推理，最新的技术方向是怎样的，有哪些突破点？

深度问答7

面对应用场景的多样性，模型部署有什么挑战？

对于不同模态来说，它的输入输出的形式会发生变化，对上下文有更高的要求。基于这个挑战，我们目前在大语言模型的推理优化主要包括像高性能计算的优化，低精度量化压缩，批处理的调度管理，运行时的优化，高效解码，上下文的缓存，以及更高效的分布式架构等方面。

深度问答8

模型训练需要昂贵的成本支撑，那么在训练或微调过程中，如何提升训练性能，以节约训练成本？

token/s具体到硬件上，其实就是对硬件资源的有效的利用率，也就是我们常说的指标MFU。计算量确定了，怎么样去做这个优化呢？要根据各个硬件单元的吞吐来理论预估模型训练的瓶颈，以及性能优化的空间，具体可以从计算、通信和显存三个大方向进行入手。

在显存上，要根据模型的结构以及它中间的activation大小，来理论预估这个模型所占用的显存大小，并且要结合所使用的分布式策略、offloading策略以及其他显存优化策略。

有了这些瓶颈点定位、优化空间，以及评估数据后，我们就可以从具体的瓶颈点入手。

深度问答9

在优化目标的约束下，如何去优化计算、通信和显存的能力呢？

一种方式就是需要根据理论预估，并且需要专家经验来对特定的模型使用特定的优化算子，以及分布式策略和显存优化策略。另外一种方式就是编译优化。PAI有一个TorchAcc框架，就是基于静态计算图来进行编译优化。还有一个最底层的根据硬件来做自动的算子融合和codegen，来生成对应的硬件更高效的算子。总而言之就是提升训练性能，还需要根据实际显卡的容量和带宽，从计算、显存和通信这几个方面入手。PAI提供了包括TorchAcc在内，支持包括像Llama、GPT这种架构的模型，以及MoE、DiT以及多模态架构的模型。

快问快答1：如何评估模型训练所需要的GPU资源？

首先要参考scalinglaw，在不同的模型架构下，scalinglaw需要对公式和系数进行修正。scalinglaw还是能在多数场景中指导我们一个多大的模型需要多少的计算量，从而评估GPU资源的总使用量。在模型训练中，对于吞吐和迭代速度也存在一定的要求，这能够指导我们需要构建多大的训练规模。GPU资源在真实训练过程中的使用量，也取决于实际的资源利用率。

快问快答2：在魔搭当中，基于Swift的微调能在华为的NPU上跑吗？

可以，我们魔搭是一个开源开放的平台。参考链接：

快问快答3：千卡以上级别的大型训练任务如何保障其稳定性？

首先是故障检测，包括了底层的GPU服务器，网络监控等等，运行过程当中需要进行hang检测、降速检测、瓶颈分析、精准度检测等等，阿里云提供了C4D、EasyTracker等工具。任务失败时需要及时进行模型跟保存恢复。PAI的EasyCheckpoint产品提供了高性能模型保存和恢复能力。PAI的AIMaster产品提供任务时的自动容错重启，结合一些这样的工具来保证千卡训练的稳定性。

快问快答4：如何提高大模型线上服务的推理速度？

首先根据场景需求选择合适规模的模型，并基于实际的负载特性分析性能瓶颈。例如典型的输入输出长度、并发数、预期的延迟和吞吐指标等等。然后，针对性能瓶颈，选择应用合适的推理优化技术。例如瓶颈在并发数，可以应用模型或KVCache压缩，瓶颈在上输入和首token延迟的，可以应用量化加速计算，瓶颈在长输出的生成速度的，可以应用高效解码技术等。

最后，【AI问爱答】第4-6期问题正在火热征集中，我们将围绕基础模型、开源模型、多模态、Multi-Agent、应用开发工具等回答大家的提问。

THE END

AI问爱答第二期问答干货请查收，诚邀您来提问算子模态推理访存ai问爱答

AI问爱答第二期问答干货请查收，诚邀您来提问算子模态推理访存ai问爱答

AI问答免费软件：让你的知识获取和解答更智能化

有什么方便好上手的ai问答免费软件？6个软件教你快速进行ai问答

免费的AI问答助手AI智能问答软件盘点

免费的AI问答助手AI智能问答软件大盘点

有点料·上手｜马斯克旗下X的GrokAI助理上线免费版，我们动手试免费版马斯克助理

Ai问答app下载Ai问答最新安卓免费下载v1.0.0

免费AI网站有哪些免费AI网站介绍

AI工具合辑盘点

AI万能问答app官方版下载AI万能问答正版下载v1.0.9

数十万字秒读，2分钟出PPT！李开复推荐的「万知」AI助手，小程序免费用

AI助手APP免费版下载安卓手机版AI助手APP2024最新版下载安装v1.7.8

这款国产免费AI代码助手火了，响应速度快，准确率高前面一篇文章给大家推荐了几款AI辅助编程助手，比如有：gith