关于AI你最关心什么？技术专家团亲自答|阿里巴巴视频怎么提取_在线兼职

2022年底，OpenAI的大模型ChatGPT正式问世，并在2023年引领全球“大模型热。

谷歌、微软在内全球科技巨头相继推出各自的人工智能大模型，中国企业也掀起了“百模大战”，国产大模型频频亮相、加速迭代。大模型的快速发展助力产业创新升级，大模型商业化现状如何，新入局的企业，如何选择大模型赛道？

2024年是端侧智能的爆发元年吗？模型训练和推理又有什么新的技术进展？

为了帮助大家更好了解AI技术发展动态，为用户提供解决实际问题的思路和方法，阿里云特别推出的首档AI领域问答栏目——【AI问爱答】。每期栏目都由阿里云的AI专家答疑团针对网友提出的各类关于AI的问题做解答，任何关于AI产品使用，大模型应用落地等问题，均可以向他们提问。

截至目前已有5位AI专家做客栏目，累计回答了40个问题，涵盖了从大模型商业化落地挑战，端侧智能的现状，模型训练和模型推理的技术路线，快速上手智能编码等多个方面。

4分钟精华版浅浅回顾一下~

接下来，如果你对开源大模型的最新技术进展、视频生成上的具体问题、数字人技术落地、GPU算力等有问题，我们邀请了…

薄列峰——阿里巴巴通义实验室应用视觉实验室负责人

阿里巴巴通义实验室应用视觉团队负责人，曾任亚马逊首席科学家，华盛顿大学计算机科学与工程学院合聘教授。研究范围覆盖机器学习，深度学习，计算机视觉，自然语言处理，语音等多个领域。

周文猛——阿里巴巴通义实验室研发总监

ModelScope魔搭开源社区和DashScope灵积模型服务平台模型技术负责人，意在打造简单易用的sdk和api接口，方便开发者进行大模型定制部署、应用搭建。曾负责阿里云机器学习平台PAI上算法框架，支持搜索推荐等核心业务，服务多个BU核心业务，在多个比赛榜单取得前三的成绩，在EMNLP、CVPR、IJCAI多篇论文。

前期内容节选

Q：传统企业和新入局的企业，如何选择大模型赛道？

A：怎么样在一个水涨船高的阶段，做好那艘船，而不是要做好那座山，因为水涨高了之后可能山会被淹没，所以怎么样用好模型可能是最重要的事情，这是企业和新入局的玩家要重点思考的。一是做好业务的梳理，做好知识的封装，用Agent去体现。还需要清楚业务的应用场景到底是实时链路还是离线链路，这会影响到模型的选择和Agent的搭建。

Q：如何保持AIGC内容的原创性、个性化，避免千篇一律的产出

Q:AI生成视频有哪些技术难点呢？有哪些商业化可能性？

A：视频生成我觉得可以分成两种，一种是类似于文生视频，基于语义去生成视频，还有一种是对视频内容做编辑。我们观察到今天对于视频编辑的需求特别大，尤其是以人的身体面部表情的编辑为最主要的一种尝试方向。基于人的肢体的动作驱动一张图片，还有一个是针对人脸，驱动他的整个面部表情，甚至包括上半身的手势，我觉得第二条技术路线对于视频编辑控制方向有非常大的商业化可能性。所以这块我们会做的多一些，我相信可以跟文生视频结合在一起。

Q:目前大模型落地到端上最大的挑战是哪些？

A:目前端上的模型落地，面临的一个非常大的挑战点是在于面临着像性能，资源、功耗多方面的一个平衡。不管手机也好，PC也好，甚至车也好，算力受限，内存有限，对精度的要求不比云上要低，场景也复杂，选用大尺寸的模型，内存和推理速度没办法满足，选用小尺寸模型，整个效果会变得比较差。现在所谓的小尺寸模型,本质上来讲还是一个很大的一个模型。它的资源占用、推理性能都面临非常大的瓶颈。

Q:目前模型推理，最新的技术方向是怎样的，有哪些突破点？

Q:模型训练需要昂贵的成本支撑，那么在训练或微调过程中，如何提升训练性能，以节约训练成本？

token/s具体到硬件上，其实就是对硬件资源的有效的利用率，也就是我们常说的指标MFU。计算量确定了，怎么样去做这个优化呢？要根据各个硬件单元的吞吐来理论预估模型训练的瓶颈，以及性能优化的空间，具体可以从计算、通信和显存三个大方向进行入手。

在显存上，要根据模型的结构以及它中间的activation大小，来理论预估这个模型所占用的显存大小，并且要结合所使用的分布式策略、offloading策略以及其他显存优化策略。

有了这些瓶颈点定位、优化空间，以及评估数据后，我们就可以从具体的瓶颈点入手。

Q:AI程序员是什么样的产品形态？跟通义灵码的关系是什么？

A:人机交互的模式分为三个阶段，第一个阶段是人机配合，以人为主，机器为辅，我们把它叫做Copilot模式；接下来会进入到Agent模式，由单个Agent自主完成一个小任务，比如写一个测试用例；最后是多Agent协同模式，可以完成非常复杂的一件事。

AI程序员是基于多Agent协同架构下产生的产品，人机交互模式已经发生了质变，变成了机器为主，人为辅。人在这个过程中更多是提出需求，及时对AI程序的运行做纠偏，以及去校验它最终生成的结果，编程的生产力会有大幅度的提升，发生质变。通义灵码更多是第一个阶段，就是Copilot的模式，真正到了Multi-Agent或者机器为主时，产品形态一定是AI程序员。

Q:市面上智能编码工具非常多，开发者选择时有什么标准吗？

A:从我们观察来看，程序员首先对代码助手IDE插件的第一要求就是准，采纳率一定得高；第二个是代码生成要足够的快，不能太卡顿；三是能否跟企业内部的规范或个人开发习惯进行结合；最后还需考虑安全性。

Q:代码的RAG知识库是什么功能？应该怎么管理才能提升代码编写的准确性？

A:检索增强是我们最近针对企业版推出的重要功能。这里面包括两种，第一个是代码补全的RAG，主要是在代码续写时进行辅助，它可以模仿我们原来写好的业务逻辑去生成，或者说按照原来的自研组件库或者资源框架的方式去进行服务生成，或者按照原来的API调用范式去生成。

在编写代码的时候，它自动去企业的知识库召回了相似的代码。第二种是企业的知识问答，可以将企业里面研发文档，或者API定义的文档上传，只需要通过#teamdocs，就可以让大模型去针对问题去实时到企业知识库去进行查找，联合生成。

Q:如何通过智能编码助手辅助开发人员进行代码走读，快速了解代码？

A:大量开发者是通过代码解释功能，快速了解整个代码的含义。除了简单的代码解释，圈选代码就可以完成。另外还可以通过@workspace功能，让大模型对整个库进行走读，然后给出相应的解释，我们可以让它定位到某个文件，甚至某个类或者是某个目录，让它去进行走读，来帮助我们快速了解。

—完—

您当前使用的浏览器版本过低，导致网站不能正常访问，建议升级浏览器

THE END

关于AI你最关心什么？技术专家团亲自答

阿里巴巴视频怎么提取，小工具批量提取图片视频攻略lyc810308

提取阿里巴巴国际站商品主图想要下载阿里巴巴国际站里的商品主图视频之类的当做素材，但是没有方法可以快速获取怎么办？小编今天就推荐个简单好操作的...

如何批量提取阿里巴巴主图视频和详情页图片的教程方法