关于AI网络的五个基本要点

随着大模型的兴起,为了应对新的AI应用,AI或算力数据中心建设如火如荼。

无论是作为聊天机器人,推荐系统还是在各个领域中实现流程自动化,比如无人驾驶、人脸识别;AI技术都有望提升并加速众多企业和公共设施的运营,甚至改变人们的生活方式。

然而,AI网络或算力网络作为一个概念,常常让人感到困惑且被误解,AI和算力需要网络么?

在本文中,我们将探讨关于AI网络的五个基本要点,以及随着AI的发展,网络所面临的独特挑战。

GPU是AI的核心

简单来说,AI的核心是图形处理单元(GPU)或神经处理单元(NPU)。

过去,我们通常认为中央处理单元(CPU)是计算机的核心。但GPU的优势在于,它在执行数学计算特别是矩阵计算方面非常出色,从某种角度来说,与人脑神经元更接近。

CPU时代的数据中心网络处理的大多是供人阅读的文字或多媒体,典型的就是网站的浏览、文件传输以及观看视频,数据中心往往能够同时支持数亿人的同时在线及高速的视频码流传输。

而在构建大语言模型或深度学习模型时,需要让GPU进行“训练”,这涉及到解决可能包含数十亿参数的矩阵和梯度运算。GPU的计算非常的快,整个“训练”过程异常严苛,不允许有任何的错误发生,一旦发生错误或延迟,整个“训练”的周期就会被拉长。这样的运算量,以及对无损和低延时的要求,对于传统的数据中心而言,突然就变得捉襟见肘了。

AI训练任务由多GPU协同完成

一般的多GPU互联的架构是将一组GPU服务器放置在机架中,并通过机架顶部的交换机相互连接。机架与机架通过CLOS网络结构将它们全部连接起来。随着解决问题复杂性的提升,对GPU的需求也会增加,有些情况下单个数据中心的电力不足以支持的时候,甚至需要跨数据中心连接通信来完成更大型的训练任务。

AI集群是一台超级计算机

在构建AI集群时,不仅仅要将GPU相互连接,更需要把它作为一个系统,解决很多错误和优化的问题。正因为AI集群的规模不断的上升,其中任何单点错误会导致整体训练任务的失败或效率低下,整个系统的组成部件比如模块、线缆、交换机、网卡、服务器、存储甚至电源,冷却系统等,都会影响整个系统的执行和维护。AI集群已经慢慢由一个组网变成为一台超级计算机,越来越多的工作将会围绕在部件之间的协同而不仅是部件内部的单点优化展开。

网络成为了训练效率的关键瓶颈

在去年秋天的开放计算项目(OCP)全球峰会上,MarvellTechnology的LoiNguyen指出,网络成为了AI部署的新瓶颈。GPU在解决计算问题或处理训练负载方面非常有效。然而,进行并行计算的GPU在完成本身处理的信息之外需要获取其他GPU处理完成的信息,彼此之间需要相互通信和同步。

测试对于AI网络至关重要

为了确保AI集群的高效运行,需要网络对GPU协同作业可能存在的拥塞和错误有提前的感知以及良好的应对。

这要求对网络处理AI负载的性能进行详尽的测试和基准评估。但这并非易事,因为GPU协同作业的负载区别于传统网络的流量负载,微突发、大象流、低熵是比较典型的特征。

因此,在测试AI网络时,我们会面临诸多挑战:

在生产系统上进行测试可能会降低系统的处理能力。

系统内的部件不能提供足够的日志及调试能力,无法准确定位问题。

此外,获取GPU之间集合通信更细节的信息,比如Queue-Pair的信息是一个挑战。

这种基准测试有助于找到GPU/工作负载与网络设计/参数设置之间的平衡。当计算架构师和网络工程师对结果满意时,他们可以将这些设置应用于生产环境,并测量新的结果。

结论

为了充分利用AI算力,必须对AI网络的设备和基础设施进行优化。

企业和学术界正在提出更多好的架构和算法来优化AI系统的各个部件及部件间协同,以应对未来更多AI应用给大型网络带来的挑战。

测试对AI系统非常关键,只有通过确定可重复的测试,行业才能实现从探索性实验到可交付的迭代,这会是优化AI这台超级计算机的基础。

关于是德科技

是德科技(NYSE:KEYS)启迪并赋能创新者,助力他们将改变世界的技术带入生活。作为一家标准普尔500指数公司,我们提供先进的设计、仿真和测试解决方案,旨在帮助工程师在整个产品生命周期中更快地完成开发和部署,同时控制好风险。我们的客户遍及全球通信、工业自动化、航空航天与国防、汽车、半导体和通用电子等市场。我们与客户携手,加速创新,创造一个安全互联的世界。

THE END
1.重新定义数字时代的差距与连接,探索在线与离线的新境界摘要:本文探讨了数字时代的差距与连接问题。随着互联网的普及,人们之间的距离似乎变得越来越近,但同时也存在着不可忽视的差距。本文将分析这种差距的来源,并探讨如何通过新的方式重新定义数字时代的连接,以实现更加平等和高效的https://hnjwwzy.cn/post/223.html
2.离线编程操作,优势应用与未来离线编程技术,离线编程操作,优势在数字化和智能化的时代,编程技术已经渗透到各个领域,无论是软件开发、机器人控制还是自动化生产等,都离不开编程的影子,离线编程操作作为一种新兴的编程方式,逐渐在各个领域中崭露头角,本文将详细介绍离线编程操作的概念、优势、应,天纯雾芯科技http://www.skypure.com.cn/post/35344.html
3.QQ中的4G在线标志,技术原理与含义解析五金交电摘要:,,本文探讨了QQ上4G在线的含义及其技术原理。4G在线是QQ状态的一种显示,表示用户当前使用的设备正在通过4G网络连接到QQ。背后的技术原理涉及到移动网络的演进和QQ软件的功能设计。通过了解4G网络的高速数据http://xjxygt.cn/post/15467.html
4.工作中最常用的8种设计模式程序员小2的技术博客以支付系统为例,不同支付方式需要不同的对象。 public class PaymentFactory { public static Payment createPayment(String type) { switch (type) { case "AliPay": return new AliPay(); case "WeChatPay": return new WeChatPay(); default: https://blog.51cto.com/u_6813689/12872085
5.实时在线方式和离线方式的含义是什么?【题目】 实时、 在线方式和离线方式的含义是什么? 搜题找答案>08241计算机控制系统试题答案>试题详情 【题目】实时、 在线方式和离线方式的含义是什么? 纠错 查看答案 查找其他问题的答案?https://www.zikaosw.cn/daan/18588476.html
6.实时在线方式和离线方式的含义是什么?4.问答题什么是分布式I/O模块? 参考答案:由I/O模块和具有通信功能的数据处理模块构成,符合一定的通信协议,可放在现地控制单元本体以外一定的距离处,以通信方式实现 点击查看完整答案 5.问答题什么是现场总线系统?它由哪几层构成? 参考答案:现场总线是在现地主要自动化装置和控制层的自动化设备之间,通过共用通http://www.ppkao.com/tiku/shiti/1963998.html
7.微信在线不在线的区别是什么?有什么方法知道好友是否在线?几年前,我们常用的聊天软件是qq,而现在,微信的风头几乎已经改过了qq。微信在很多功能方面和qq类似,不过,也有些不一样的功能。比如,微信在线与不在线,很多人都不知道这两者有什么区别,下面,我们来看看具体的情况。 其实微信是不能看好友在不在线的,这是微信的一个特点,就是没有在线与离线。也就是说,在线与不https://www.kaitao.cn/article/20180906115708.htm
8.在线刷卡和离线刷卡有什么区别在线刷卡和离线刷卡(在线刷卡机在线刷卡和离线刷卡各有其特点和优势。在线刷卡以其方便快捷、支持多种支付方式等优势,在在线支付领域占据重要地位;而离线刷卡(特别是数字人民币等新型支付方式中的离线支付功能)则以其不受网络限制、安全性高等特点,在某些特定场景下具有独特的优势。用户可以根据自己的实际需求和偏好,选择最适合自己的支付方式。 https://www.jianshu.com/p/b9e5e87eb2d3
9.一文读懂「PromptEngineering」提示词工程基础版2.2 交互方式分类:在线提示和离线提示 在线提示(Online prompt)是在与模型的实时互动中提供的提示,通常用于即时的交互式应用。这种提示在用户与模型进行实际对话时提供,用户可以逐步输入、编辑或更改提示,在在线聊天、语音助手、实时问题回答等应用中常见。 https://download.csdn.net/blog/column/12545383/135497369
10.比特币钱包存储路径(比特币钱包存储路径是什么)比特币钱包存储路径是什么 比特币钱包是一种数字货币钱包,用于存储和管理比特币(Bitcoin)以及其他加密货币。它通常由一个软件应用程序提供,并且使用一组加密保护私钥和公钥的算法来创建、存储和访问用户的加密货币。 比特币钱包的存储方式 比特币钱包的存储方式可以分为两种:在线钱包和离线钱包。 1. 在线钱包 在线钱包https://www.528btc.com/e/action/ShowInfo.php?classid=38&id=91419
11.在对齐AI时,为什么在线方法总是优于离线方法?澎湃号·湃客最重要的是,在线 RLHF 算法依赖于一个学习后的奖励模型,该奖励模型是使用与离线 RLHF 算法一样的成对偏好数据集训练得到的。这与常规强化学习设置存在根本性差异 —— 常规强化学习假设能以在线方式获取基本真值奖励,在这种情况下,在线强化学习的优势明显。假设 RLHF 受到奖励信号的瓶颈限制,我们就不清楚在线与离线https://www.thepaper.cn/newsDetail_forward_27434433
12.怎样兑换日元到人民币转账以及找出最便宜和最好的付款方式?有哪些在线支付的方式? 支付已经成为我们生活中不可缺少的一部分,尤其是在当今金融科技发展的时代,跨境汇款行业也随之获益,传统的离线支付方式也逐渐迈入在线化。 首先,信用卡是一种比较常见的传统支付方式,它允许用户通过网络进行支付,而不需要面对传统的汇款流程。这种支付方式可以大大缩短客户的支付过程,节省大量时间https://item.pandaremit.com/article/3979.html
13.什么是抖音飞鸽离线留言?如何处理留言?三、离线留言如何处理? 离线留言的处理分为手动和自动两种方式: 1、手动处理 在留言界面下,选择对应的离线留言,分配给客服处理即可; 2、离线留言自动分配 在【设置】-【在线客服】选项下,打开离线会话系统自动分配功能。系统会在客服上线且有空的时候,自动将离线会话分配给客服,跟进处理,无需商家再手动操作。 https://www.mmker.cn/article/12775.html
14.实时,在线方式和离线方式的含义是什么?20岁,女性,人院前2周间歇性发热并有寒战,夜间体温39℃。发热期间左腹股沟有疼痛、肿胀。伴食欲缺乏,恶心、呕吐,时有咳嗽。体检左腹股沟有3cm×5cm肿块,肝、脾略肿大,腹部见玫瑰疹。血白细胞1.5×109 /L,中性粒细胞0.70×109/L,淋巴细胞0.36×109 /L,单核细胞0.04×109 /L。肝功正常,腹股沟https://www.shuashuati.com/ti/1d46a43729e74fce9d6abaf97383d863.html
15.QQ状态同步究竟是推还是拉?问题四:轮询拉取群友状态也会给服务器带来过大的压力,还有什么优化方式? 回答: 群友的数据量太大,虽然每个用户平均加入了20个群,但实际上并不会每次登录都进入每一个群。不采用轮询拉取,而采用按需拉取,延时拉取的方式,在真正进入一个群时才实时拉取群友的在线状态,是既能满足用户需求(用户感觉是状态是实时https://www.w3cschool.cn/architectroad/architectroad-qq-status-consistency.html
16.IDEA如何安装lombok插件(在线和离线两种方式)IDEA离线安装lombok 有时候公司网络被限制的时候在线安装不会成功,同样可以采用离线的方式进行安装。 插件下载:lombok-plugin-0.16-2017.1.zip 1、定位File->Settings->Plugins 2、点击 Install plugin form disk 3、选择离线包所在的硬盘位置 4、点击确定,点击Apply 5、重启IDEA 重启之后在需要的JavaBean上使用lomb..https://www.pianshen.com/article/1377740150/
17.云盘扩容,离线扩容和在线扩容有什么区别,扩容时需要关机吗?阿里云提供了两种方式进行云盘扩容:在线扩容和离线扩容。在线扩容的优点在于扩容完成后无需重启实例,这https://developer.aliyun.com/ask/570725
18.法学:电子商务法律法规考试题库(考试必看)考试题库A.只是交易方式的电子化 B.其交易过程一般是在线订货、支付 C.其交易过程一般是离线送货 D.其交易过程一般是在线订货、支付和送货 点击查看答案 39、填空题 广义的电子商务是指所有利用()和()进行的商业贸易活动。 点击查看答案 40、名词解释 完全独立的服务器 点击查看答案 41、多项选择题 数据库特殊权利,http://www.91exam.org/exam/87-1478/1478378.html