(原标题:AI推理芯片竞赛,升级)
淌若您但愿不错通常碰面,接待标星储藏哦~
起首:内容编译自ieee,谢谢。
尽管Nvidia GPU在 AI 试验领域的主导地位仍然无可争议,但咱们可能看到早期迹象标明,在 AI 推理方面,竞争敌手正在向这家科技巨头靠近,尤其是在能效方面。但是,Nvidia 新款Blackwell芯片的隧谈性能可能很难被打败。
今天上昼, ML Commons发布了其最新 AI 推理竞赛ML Perf Inference v4.1的收尾。本轮比赛包括初次使用AMD Instinct加速器、最新的Google Trillium加速器、多伦多初创公司UntetherAI的芯片的团队提交的作品,以及 Nvidia 新款 Blackwell 芯片的初次试用。另外两家公司Cerebras和FuriosaAI告示推出新的推理芯片,但未向 MLPerf 提交作品。
MLPerf 就像奥林匹克说明一样,有很多类别和子类别。提交数目最多的是“数据中心阻滞”类别。阻滞类别(与通达类别相对)条款提交者按原样对给定模子进行推理,而无需进行要紧软件修改。数据中心类别测试提交者对查询的批量处理,而边际类别则侧重于最小化延伸。
每个类别中有 9 个不同的基准,适用于不同类型的 AI 任务。其中包括图像生成(举例Midjourney)和 LLM 问答(举例ChatGPT)等常见用例,以及图像分类、对象检测和保举引擎等相似遑急但不太受温雅的任务。
本轮比赛引入了一项名为“ Mixture of Experts.”的新基准。这是 LLM 部署中的一个发展趋势,其中说话模子被理解为几个较小的、零丁的说话模子,每个模子王人针对特定任务进行微调,举例惯例对话、科罚数常识题和协助编码。该模子不错将每个查询指点到较小模子或“众人”的适合子集。MLPerf 推理责任组主席兼AMD高档本领东谈主员Miroslav Hodak说,这种才气不错减少每个查询的资源使用量,从而镌汰资本并提升隐隐量。
在流行的数据中心阻滞基准测试中,每个基准测试的告成者仍然是基于 Nvidia 的 H200 GPU 和 GH200 超等芯片的提交,它们将 GPU 和 CPU 取悦在消除个封装中。但是,仔细不雅察性能收尾会发现一个更复杂的情况。一些提交者使用了很多加速器芯片,而另一些提交者只使用了一个。淌若咱们把柄使用的加速器数目对每个提交者每秒大致处理的查询数目进行圭臬化,并只保留每种加速器类型中性能最好的提交,就会出现一些情理的细节。(需要预防的是,这种才气忽略了 CPU 和互连的作用。)
以每个加速器为基准,Nvidia 的 Blackwell 在 LLM 问答任务(它提交的惟一基准)上比整个之前的芯片迭代跳跃 2.5 倍。Untether AI 的 speedAI240 Preview 芯片在其惟一的提交任务(图像识别)中的发扬着实与 H200 相配。谷歌的 Trillium 在图像生成方面的发扬略高于 H100 和 H200 的一半,而 AMD 的 Instinct 在 LLM 问答任务上的发扬与 H100 大致相配。
Blackwell 的纷乱
Nvidia Blackwell 告成的原因之一是它大致使用 4 位浮点精度启动 LLM。Nvidia偏激竞争敌手一直在镌汰 ChatGPT 等 Transformer 模子部分顶用于示意数据的位数,以加速蓄意速率。Nvidia 在 H100 中引入了 8 位数学运算,这次提交记号着 MLPerf 基准测试中 4 位数学运算的初次演示。
Nvidia 居品营销总监 Dave Salvator示意,使用这种低精度数字的最大挑战是保抓准确性。为了保抓 MLPerf 提交所需的高精度,Nvidia 团队必须在软件上进行要紧编削。
Blackwell 告成的另一个遑急孝顺是它的内存带宽着实翻了一番,达到 8 兆字节/秒,而 H200 仅为 4.8 兆字节/秒。
Nvidia 的 Blackwell 决议使用了单芯片,但 Salvator 示意,该决议专为收集和范围而瞎想,与 Nvidia 的 NVLink互取悦合使用时性能最好。Blackwell GPU 复旧最多 18 个 NVLink 100 GB/秒取悦,总带宽为 1.8 TB/秒,大要是 H100 互连带宽的两倍。
Salvatore 觉得,跟着大型说话模子 的范围不断扩大,即使是推理也需要多 GPU 平台才能清闲需求,而 Blackwell 即是为这种可能性而构建的。“Blackwell 是一个平台,”Salvator 说。
Nvidia 在预览子类别中提交了 基于Blackwell 芯片的系统,这意味着它尚未出售,但预测将在六个月后的下一个 MLPerf 发布之前上市。
Untether AI 在电力使用和边际领域大放异彩
关于每个基准测试,MLPerf 还包括一个动力测量对应项,它系统地测试每个系统在推行任务时消耗的电源插头功率。主要赛事(数据中心阻滞动力类别)本轮唯有两家提交者:Nvidia 和 Untether AI。天然 Nvidia 进入了整个基准测试,但 Untether 只提交了图像识别。
这家初创公司大致兑现如斯惊东谈主的效果,是因为它接管了一种名为“内存蓄意”的才气构建芯片。UntetherAI 的芯片由内存元素网格组成,股票操作微型处理器平直漫步在它们傍边。这些处理器是并行的,每个处理器王人与隔邻内存单位中的数据同期责任,从而大大减少了在内存和蓄意中枢之间传输模子数据所滥用的时刻和元气心灵。
Untether AI 居品副总裁罗伯特·比奇勒 (Robert Beachler) 示意:“咱们发现,推行 AI 责任负载的 90% 的能量仅仅将数据从 DRAM 移动到缓存再到处理单位。因此,Untether 所作念的即是扭转这种款式......不是将数据移动到蓄意,而是将蓄意移动到数据。”
这种才气在 MLPerf 的另一个子类别“边际闭合”中被线路独特告成。Beachler 示意,此类别面向更多现实用例,举例工场车间的机器查验、指点视觉机器东谈主和自动驾驶汽车——这些应用的拘泥耗和快速处理至关遑急。
在图像识别任务上(这亦然 UntetherAI 请问的惟一收尾),speedAI240 Preview 芯片的延伸性能比 NVIDIA L40S 跳跃 2.8 倍,隐隐量(每秒样本数)跳跃 1.6 倍。这家初创公司还提交了此类别的功率收尾,但其接管 Nvidia 加速的竞争敌手却莫得,因此很难进行平直相比。但是,UntetherAI 的 speedAI240 Preview 芯片的每芯片标称功耗为 150 瓦,而 Nvidia 的 L40s 的标称功耗为 350 瓦,从而标称功耗镌汰了 2.3 倍,同期延伸有所改善。
Cerebras 和 Furiosa 跳过MLPerf,但告示推出新芯片
昨天,在 斯坦福举行的IEEE Hot Chips会议上,Cerebras 推出了我方的推理事业。这家位于加州桑尼维尔的公司制造巨型芯片,其尺寸与硅片的大小相配,从而幸免了芯片之间的互连,并大大加多了其建造的内存带宽,这些建造主要用于试验大范围神经收集。目下,它已升级其软件堆栈,以使用其最新的蓄意机CS3进行推理。
尽管 Cerebras 莫得提交给 MLPerf,但该公司宣称其平台在每秒生成的 LLM token数目上比 H100 跳跃 7 倍,比竞争敌手 AI 初创公司 Groq 的芯片跳跃 2 倍。“今天咱们正处于 Gen AI 的拨号时期,”Cerebras 首席推行官兼和洽首创东谈主 Andrew Feldman 示意。“这是因为存在内存带宽间隔。不管是 Nvidia 的 H100 依然 MI 300 或 TPU,它们王人使用疏通的片外内存,况且会产生疏通的为止。咱们坎坷了这一间隔,咱们之是以能作念到这少许,是因为咱们兑现了晶圆级。”
Hot Chips 上还看到了来自首尔的 Furiosa的公告,该公司展示了其第二代芯片 RNGD(发音为“renegade”)。Furiosa 芯片的一鸣惊人之处在于其张量卤莽处理器 (TCP) 架构。AI 责任负载的基本运算是矩阵乘法,频繁手脚硬件中的原语兑现。但是,矩阵(一般称为张量)的大小和神气可能互异很大。RNGD 将这个更通用的版块张量的乘法手脚原语兑现。Furiosa 首创东谈主兼首席推行官June Paik在 Hot Chips 上示意:“在推理历程中,批次大小互异很大,因此愚弄给定张量神气固有的并行性和数据重用尽头遑急。”
尽管莫得提交给 MLPerf,但 Furiosa 在里面临 RNGD 芯片在 MLPerf 的 LLM 选录基准上的性能进行了相比。它的性能与 Nvidia 的边际导向型 L40S 芯片相配,但功耗仅为 185 瓦,而 L40S 的功耗为 320 瓦。Paik 示意,跟着软件进一步优化,性能将进一步提升。
IBM还 告示推出专为企业生成式 AI责任负载瞎想的新式 Spyre 芯片,将于 2025 年第一季度上市。
至少,在可料念念的改日,AI推理芯片市集的购物者不会感到败兴。
https://spectrum.ieee.org/new-inference-chips
半导体杰作公众号保举
专注半导体领域更多原创内容
温雅大家半导体产业动向与趋势
*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或复旧,淌若有任何异议,接待联系半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3869内容,接待温雅。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的内容就点“在看”共享给小伙伴哦