7月11日,英特尔在北京举办AI产品战略暨Gaudi2新品发布会,正式于中国市场推出第二代深度学习加速器——Habana Gaudi2。Habana是成立于2016年的AI芯片厂商,总部位于以色列,为数据中心提供可编程深度学习加速器。Habana在2019年推出了第一代Gaudi芯片,并在这一年12月被其早期投资人英特尔收购。其实在2022年5月,英特尔已经发布过Gaudi2。而这一次在北京的产品发布,是面向中国市场的“定制版”,类似英伟达推出A100与H100的定制版A800与H800。
英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera强调,Gaudi2是完全合法合规的。在性能方面,这款中国定制版训练最主要的性能裁剪在于网络端口。Gaudi2有21个百兆端口,而国际版有24个。不过,英特尔Habana Labs首席运营官Eitan Medina表示,“从客户使用情况来看,预计影响会非常小”。
在6月公布的MLCommons MLPerf基准测试(被普遍认为是最具信服力的AI性能测试基准)结果中,Gaudi2在GPT-3模型、计算机视觉模型ResNet-50(使用8个加速器)、Unet3D(使用8个加速器),以及自然语言处理模型BERT(使用8个和64个加速器)上均取得了比A100更优异的结果,但还弱于H100。不仅如此,英特尔Habana Labs首席运营官Eitan Medina表示Gaudi2在性价比上更具优势,Gaudi2的每瓦性能大约是A100的两倍。而随着性能的进一步优化,英特尔预计在今年9月,Gaudi2的性价比将会超过H100。
英特尔执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera强调,Gaudi2是完全合法合规的。在性能方面,这款中国定制版训练最主要的性能裁剪在于网络端口。Gaudi2有21个百兆端口,而国际版有24个。不过,英特尔Habana Labs首席运营官Eitan Medina表示,“从客户使用情况来看,预计影响会非常小”。
Gaudi2的推出,为训练大模型提供了英伟达之外的替代方案。在此之前,英伟达的GPU芯片——A100与H100,几乎垄断了训练大模型的市场。供需的极度不平衡也让GPU一芯难求。相比英伟达GPU,Gaudi2最显著的优势在于“更高的性价比”。英特尔表示,将致力于为中国用户提供更高的深度学习性能和效率,从而成为大规模部署AI的更优解。目前,英特尔正与浪潮信息合作,打造并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器。此外,新华三与超聚变也是英特尔的合作伙伴。
业内普遍认为生成式AI和大语言模型仅适宜在GPU上运行。其实,Gaudi2深度学习加速器暨Gaudi2夹层卡HL-225B,以第一代Gaudi高性能架构为基础,采用了台积电7nm工艺,专为训练大语言模型而构建。该加速器具备:24个可编程Tensor处理器核心(TPCs);21个100 Gbps(RoCEv2)以太网接口;96GB HBM2E内存容量;2.4TB/秒的总内存带宽;48MB片上SRAM;集成多媒体处理引擎。
在6月公布的MLCommons MLPerf基准测试(被普遍认为是最具信服力的AI性能测试基准)结果中,Gaudi2在GPT-3模型、计算机视觉模型ResNet-50(使用8个加速器)、Unet3D(使用8个加速器),以及自然语言处理模型BERT(使用8个和64个加速器)上均取得了比A100更优异的结果,但还弱于H100。不仅如此,英特尔Habana Labs首席运营官Eitan Medina表示Gaudi2在性价比上更具优势,Gaudi2的每瓦性能大约是A100的两倍。而随着性能的进一步优化,英特尔预计在今年9月,Gaudi2的性价比将会超过H100。