关于AI你最关心什么?技术专家团亲自答

2022年底,OpenAI的大模型ChatGPT正式问世,并在2023年引领全球“大模型热。

谷歌、微软在内全球科技巨头相继推出各自的人工智能大模型,中国企业也掀起了“百模大战”,国产大模型频频亮相、加速迭代。大模型的快速发展助力产业创新升级,大模型商业化现状如何,新入局的企业,如何选择大模型赛道?

2024年是端侧智能的爆发元年吗?模型训练和推理又有什么新的技术进展?

为了帮助大家更好了解AI技术发展动态,为用户提供解决实际问题的思路和方法,阿里云特别推出的首档AI领域问答栏目——【AI问爱答】。每期栏目都由阿里云的AI专家答疑团针对网友提出的各类关于AI的问题做解答,任何关于AI产品使用,大模型应用落地等问题,均可以向他们提问。

截至目前已有5位AI专家做客栏目,累计回答了40个问题,涵盖了从大模型商业化落地挑战,端侧智能的现状,模型训练和模型推理的技术路线,快速上手智能编码等多个方面。

4分钟精华版浅浅回顾一下~

接下来,如果你对开源大模型的最新技术进展、视频生成上的具体问题、数字人技术落地、GPU算力等有问题,我们邀请了…

薄列峰——阿里巴巴通义实验室应用视觉实验室负责人

阿里巴巴通义实验室应用视觉团队负责人,曾任亚马逊首席科学家,华盛顿大学计算机科学与工程学院合聘教授。研究范围覆盖机器学习,深度学习,计算机视觉,自然语言处理,语音等多个领域。

周文猛——阿里巴巴通义实验室研发总监

ModelScope魔搭开源社区和DashScope灵积模型服务平台模型技术负责人,意在打造简单易用的sdk和api接口,方便开发者进行大模型定制部署、应用搭建。曾负责阿里云机器学习平台PAI上算法框架,支持搜索推荐等核心业务,服务多个BU核心业务,在多个比赛榜单取得前三的成绩,在EMNLP、CVPR、IJCAI多篇论文。

前期内容节选

Q:传统企业和新入局的企业,如何选择大模型赛道?

A:怎么样在一个水涨船高的阶段,做好那艘船,而不是要做好那座山,因为水涨高了之后可能山会被淹没,所以怎么样用好模型可能是最重要的事情,这是企业和新入局的玩家要重点思考的。一是做好业务的梳理,做好知识的封装,用Agent去体现。还需要清楚业务的应用场景到底是实时链路还是离线链路,这会影响到模型的选择和Agent的搭建。

Q:如何保持AIGC内容的原创性、个性化,避免千篇一律的产出

Q:AI生成视频有哪些技术难点呢?有哪些商业化可能性?

A:视频生成我觉得可以分成两种,一种是类似于文生视频,基于语义去生成视频,还有一种是对视频内容做编辑。我们观察到今天对于视频编辑的需求特别大,尤其是以人的身体面部表情的编辑为最主要的一种尝试方向。基于人的肢体的动作驱动一张图片,还有一个是针对人脸,驱动他的整个面部表情,甚至包括上半身的手势,我觉得第二条技术路线对于视频编辑控制方向有非常大的商业化可能性。所以这块我们会做的多一些,我相信可以跟文生视频结合在一起。

Q:目前大模型落地到端上最大的挑战是哪些?

A:目前端上的模型落地,面临的一个非常大的挑战点是在于面临着像性能,资源、功耗多方面的一个平衡。不管手机也好,PC也好,甚至车也好,算力受限,内存有限,对精度的要求不比云上要低,场景也复杂,选用大尺寸的模型,内存和推理速度没办法满足,选用小尺寸模型,整个效果会变得比较差。现在所谓的小尺寸模型,本质上来讲还是一个很大的一个模型。它的资源占用、推理性能都面临非常大的瓶颈。

Q:目前模型推理,最新的技术方向是怎样的,有哪些突破点?

Q:模型训练需要昂贵的成本支撑,那么在训练或微调过程中,如何提升训练性能,以节约训练成本?

token/s具体到硬件上,其实就是对硬件资源的有效的利用率,也就是我们常说的指标MFU。计算量确定了,怎么样去做这个优化呢?要根据各个硬件单元的吞吐来理论预估模型训练的瓶颈,以及性能优化的空间,具体可以从计算、通信和显存三个大方向进行入手。

在显存上,要根据模型的结构以及它中间的activation大小,来理论预估这个模型所占用的显存大小,并且要结合所使用的分布式策略、offloading策略以及其他显存优化策略。

有了这些瓶颈点定位、优化空间,以及评估数据后,我们就可以从具体的瓶颈点入手。

Q:AI程序员是什么样的产品形态?跟通义灵码的关系是什么?

A:人机交互的模式分为三个阶段,第一个阶段是人机配合,以人为主,机器为辅,我们把它叫做Copilot模式;接下来会进入到Agent模式,由单个Agent自主完成一个小任务,比如写一个测试用例;最后是多Agent协同模式,可以完成非常复杂的一件事。

AI程序员是基于多Agent协同架构下产生的产品,人机交互模式已经发生了质变,变成了机器为主,人为辅。人在这个过程中更多是提出需求,及时对AI程序的运行做纠偏,以及去校验它最终生成的结果,编程的生产力会有大幅度的提升,发生质变。通义灵码更多是第一个阶段,就是Copilot的模式,真正到了Multi-Agent或者机器为主时,产品形态一定是AI程序员。

Q:市面上智能编码工具非常多,开发者选择时有什么标准吗?

A:从我们观察来看,程序员首先对代码助手IDE插件的第一要求就是准,采纳率一定得高;第二个是代码生成要足够的快,不能太卡顿;三是能否跟企业内部的规范或个人开发习惯进行结合;最后还需考虑安全性。

Q:代码的RAG知识库是什么功能?应该怎么管理才能提升代码编写的准确性?

A:检索增强是我们最近针对企业版推出的重要功能。这里面包括两种,第一个是代码补全的RAG,主要是在代码续写时进行辅助,它可以模仿我们原来写好的业务逻辑去生成,或者说按照原来的自研组件库或者资源框架的方式去进行服务生成,或者按照原来的API调用范式去生成。

在编写代码的时候,它自动去企业的知识库召回了相似的代码。第二种是企业的知识问答,可以将企业里面研发文档,或者API定义的文档上传,只需要通过#teamdocs,就可以让大模型去针对问题去实时到企业知识库去进行查找,联合生成。

Q:如何通过智能编码助手辅助开发人员进行代码走读,快速了解代码?

A:大量开发者是通过代码解释功能,快速了解整个代码的含义。除了简单的代码解释,圈选代码就可以完成。另外还可以通过@workspace功能,让大模型对整个库进行走读,然后给出相应的解释,我们可以让它定位到某个文件,甚至某个类或者是某个目录,让它去进行走读,来帮助我们快速了解。

—完—

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

THE END
1.阿里巴巴西瓜视频缓存视频怎么导出来缓存视频导出方法中联社|西瓜视频缓存视频怎么导出来-缓存视频导出方法-主观下载站2024-12-08 04:04:14 来源: 华声在线 作者: 祝永刚 华声在线记者 祝永刚 报道 张xian生告su《环qiu时报》记者,近年lai走入wang球馆he网球chang的人yue来越duo,这yi现象zai郑钦wen夺冠hou更加ming显,qi中尤yi青少nian人群wei多。PJ78FDHSJSSJK66http://m.ouzhehua.com/v/video/6809646320241207.shtml
2.淘宝视频下载方法是什么?对于有一定技术基础的用户,可以使用浏览器开发者工具来提取淘宝视频,以下是具体步骤: 打开淘宝视频页面:在浏览器中打开包含目标视频的淘宝页面。 打开开发者工具:按下F12键(或右键点击页面并选择“检查”),打开浏览器开发者工具。 (图片来源网络,侵权删除) https://blog.huochengrm.cn/ask/15326.html
3.阿里巴巴如何下载海外短视频App简单步骤帮你轻松搞定12月12日,韩国总统尹锡悦被禁止离境,《白洁被高振干到九点多》TC免费手机观看,《雪国列车电视剧》BD版在线播放,《觅食1V2小圈降临》HD1280P免费在线播放,《打狗棍百度影音》-HD免费在线观看,《春潮厨房》高清版手机免费播放,《深宫谍影》高清版在线观看-高清电视剧,《少年啊BGM》蓝光原盘手机在线观看,「勇http://www.tuofa360.com/www/windows/3819619_20241211.shtml
4.阿里巴巴取得视频生成相关专利介质知名企业阿里巴巴集团国家知金融界2024年12月11日消息,国家知识产权局信息显示,阿里巴巴集团控股有限公司取得一项名为“视频生成方法、非易失性存储介质及电子设备”的专利,授权公告号 CN 114760497 B,申请日期为2021年1月。 本文源自:金融界 作者:情报员 特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本https://www.163.com/dy/article/JJ5CEEIO0519QIKK.html
5.1688商品视频怎么弄出来?怎么保存商家视频?现在无论是淘宝还是阿里巴巴,上面的图片和视频都是无法直接通过手机保存下来的。这也是淘宝避免盗图的一种手段。那1688商品视频怎么弄出来? 一、1688怎么保存商家视频? 1、准备需要使用的工具:视频下载高手; 2、先运行这个工具,选择视频素材下载; 3、打开1688,去上面搜索自己要的商品; https://www.kaitao.cn/article/20230420132948.htm
6.阿里巴巴上的视频如何提取?一、阿里巴巴上的视频如何提取? 先将视频所在的界面打开,然后用硕鼠软件进行下载。 二、如何提取快手别人视频上的歌曲? 如果想要保存快手别人视频上的歌曲背景音乐,首先把需要保存背景音乐的快手视频下载在本地,然后再安装一个“音频提取器”APP,使用里面的提取视频中的音频功能,就可以把快手视频中的背景音乐给提取出来https://tool.a5.cn/article/show/100493.html
7.阿里巴巴视频提取软件阿里巴巴数据采集软件我们针对200多个跨境电商卖家做了一份问卷调查 阿里巴巴视频提取软件(阿里巴巴数据采集软件) 我最近我针对行业从业者,做了一份文件调查,也许对大家有一些参考价值。 本问卷共回收158份有效样本,虽然样本太少。但没有办法,已经答应很多人,必须放出来了。 1、您是做什么平台的?https://www.miwaimao.com/soft_960371.html
8.阿里巴巴西瓜视频缓存视频怎么导出来缓存视频导出方法(天是红河岸)」宅男奋斗史(天是红河岸)最新章,打扑克牌的剧烈运动免费软件视频可以便捷观看影视剧,网友:,王者荣耀改名功能异常解决方法-周六新游网,赛博朋克2077配置要求有哪些-赛博朋克2077配置要求一览,《正阳门下》全集在线免费观看完整版-电视剧频道-四桶影视,清军大营的女囚最新章节更新清军大营的女囚20章、万http://m.ruhrg.com/v/video/20241127/84985621Dujcv21i.shtml?id=724-20241208-scm
9.ChatGPT与深度学习的完美融合:打造智能化推荐系统新时代阿里巴巴的深度学习推荐系统需要收集和处理大量的用户数据,包括用户的购买历史、浏览历史、搜索行为、评价等信息。为了处理这些数据,阿里巴巴采用了一种称为MaxCompute的分布式数据处理平台,该平台可以支持海量数据的存储和处理。 2、特征提取 为了实现商品的推荐,阿里巴巴需要将商品转换为向量表示,以方便深度学习模型的处理。https://developer.aliyun.com/article/1218588
10.EMO(EmotePortraitAlive):阿里推出的音频驱动型肖像视频生成EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供 标签:AI大模型AI肖像视频生成工具Emote Portrait Alive单张照片生成视频肖像视频生成框架阿里巴巴EMO音频同步肖像音频驱动人工智能视频 https://pidoutv.com/sites/15435.html
11.2019机器之心人工智能年度奖项正式公布:关注创业先锋,聚焦产品2019 年,艾耕科技与锋巢科技紧密合作推出了中国最先进的汽车图文智能编辑器大黄蜂;在阿里巴巴服务市场上线了黑科技 Modi Video,为商家一键生成营销短视频;在微信端的自动化营销海报设计 Modi Design 也获得我们早期用户的一致青睐。我们坚信技术创造价值,希望成为富媒体生产这个千亿市场的生产力释放的中坚力量。https://www.zhuanzhi.ai/document/2abfb47db9cd9ab70b4144f329e147b8
12.简单代码下载阿里国际站的产品图片和主图视频下载SKU图片下载产品主图视频下载阿里视频 运营技巧 阿里国际站店铺如何做全店产品与关键词生态布局 2020-4-19 11:29:31 运营技巧 如何同时登录和操作多个阿里巴巴国际站店铺 2020-6-14 10:31:17 游客 12月6日 为啥我设置了还是打不开,5.39版本 [文章]来自:Google搜索列表打开谷歌广告提示googleadservice sent anhttps://www.yunglobe.com/download-alibaba-product-videos.html
13.万字梳理:阿里腾讯等8家中国互联网大厂的50款大模型及应用,能否产品介绍:Motionshop是阿里巴巴智能计算研究院推出的一个AI角色动画框架,该框架利用视频处理、角色检测/分割/追踪、姿态分析、模型提取和动画渲染等多种技术,使得动态视频中的主角能够轻松跨越现实与虚拟的界限,一键变身为3D角色模型且不改变视频中的其他场景和人物。 https://www.tmtpost.com/6975495.html
14.谷歌浏览器插件通义听悟通义听悟是阿里巴巴免费大模型应用,实时语音识别,AI字幕翻译,智能总结。网课、追剧追番、线上会议必备。Record, transcribe, translate and summarize online courses&meetings from any web page. 免费使用,首次登录可得50小时转写时长,每日登录自动领取10小时转写时长。 https://www.chajian5.com/tongyitingwu.html
15.2020年最值得收藏的60个AI开源工具腾讯云开发者社区ARM GPU上的深度学习视频处理监控,用于人脸识别以及更多方法。将数码相机变成人工智能相机。使用ARM GPU / NPU的边缘AI生产级平台,利用AutoML。面向开发人员/儿童/家庭/中小企业/企业/云的第一个世界级边缘人工智能全栈平台,由社区烘焙。 整个DeepCamera概念基于自动机器学习(AutoML),所以训练新模型甚至不需要任何编程经https://cloud.tencent.com/developer/news/582364
16.金三银四跳槽季,为了年后offer,我竟然撸完了这50场1000多道面经最早是去年的12月开始,中间有几个月在研究室抗压没有面,考虑到读者的阅读喜好所以按公司划分面经,强调一点是时间线很重要,前后自己面试能力也有差距,请留意。一般都是远程视频/电话面,每场面经内问题提问顺序不定。一些过于水的面经没有包括在内(比如8月前的某为,银行) https://maimai.cn/article/detail?fid=1589559958&efid=HMnVzUsEaNASGCiWLCQB4Q