本文来源:时代财经 作者:郭美婷,冯恋阁
“你们喜欢我的外套吗?”
1月7日,着一身经典黑色皮衣的黄仁勋闪亮登场,开启了他长达90分钟的“CES个人秀”。
这位英伟达创始人兼首席执行官在现场手持Grace Blackwell NVLink72的Wafer晶圆“盾牌”,在台上摆出“美国队长”的造型来,他扬言要做出一个巨型芯片。
“Blackwell系统的奇迹在于其前所未有的规模,Blackwell芯片是人类历史上最大的单芯片。我们的最终目标是Physical AI。”“芯片队长”黄仁勋表示,英伟达能够满足全球几乎所有数据中心的需求。
上一年的CES,黄仁勋没有亮相主题演讲,但是在今年的CES,美国时间晚上6点半开始的演讲,下午4点就已经有上百人排队。
图源:截图自黄仁勋演讲视频
在生成式AI潮起后,放眼望去,英伟达似乎还未逢敌手。然而,巨大的蛋糕让众多科技公司虎视眈眈,今年CES前夕,就有英伟达的对手杀入了“万亿市值俱乐部”。
搅弄风云的是另一位华人——博通CEO陈福阳。近日来,ASIC(专用集成电路)成为芯片界的热词,陈福阳预言到2027年,市场对定制款AI芯片ASIC的需求规模将达到600亿至900亿美元。
在今年1月,市场传言称,英伟达或已经成立ASIC部门,并计划招募上千名芯片设计、软件开发及AI研发人员。不过,业内知情人士向时代财经记者否认了上述传闻。
赚得盆满钵满的英伟达仍是GPU的忠实拥趸,但科技巨头们却想摆脱对它的过度依赖。ASIC让它们看到了破局的希望。陈福阳此前就表示,公司正在与美国三家大型云计算厂商开发定制AI芯片。消息称,博通目前的客户包括谷歌、Meta、字节跳动、苹果和OpenAI等。
据时代财经记者了解,虽然目前ASIC芯片能够满足一部分AI算力需求,但它与GPU还谈不上替代关系。有业内人士透露,AI市场规模巨大,部分公司做针对性的专用型芯片属于正常现象。目前,很多大企业都在做,或着试着做这类产品。
黄仁勋演讲结束后,截至1月7日美股收盘,英伟达跌超过6%,1月8日截至发稿盘前回涨,涨超1.2%。
图源:截图自Wind
黄仁勋的野心
英伟达仍然野心勃勃。
2024年3月,英伟达宣布重磅推出新一代AI芯片架构Blackwell。据了解,Blackwell拥有2080亿个晶体管,是上一代芯片“Hopper”800亿个晶体管的两倍多,可以支持多达10万亿个参数的AI模型。首款采用Blackwell架构的芯片名为GB200。
不过,在之后几个月,英伟达Blackwell芯片几次被曝延迟交付。报道称,Blackwell AI芯片在高容量服务器机架中存在严重的过热问题,这些问题导致设计调整与项目延期。
去年11月,在英伟达2024年第三财季财报会上,黄仁勋就此回应称,Blackwell芯片已全面投产,预计将在未来几个财季供不应求。
在此次CES上,黄仁勋又一次提到了这一情况。他表示,Blackwell相比于前一代在性能上实现了四倍的提升。目前,所有主要云服务提供商均已建立系统就绪,15家计算机制造商已经推出了约200种不同型号和配置。其中包括采用液冷和风冷的x86 Nvidia GPU版本,还有NVLink 36x2和NVLink 72x1等不同类型的系统,能够满足全球几乎所有数据中心的需求。这些系统正在大约45家工厂进行制造。
图源:NVIDIA英伟达微信公众号
引人注意的是,黄仁勋还准备推出巨型芯片。黄仁勋在台上举起一个半人高的芯片模型向观众展示。
“我们的目标是创建一个名为Grace Blackwell NVLink72的巨型芯片。”黄仁勋表示。
据他介绍,该芯片将使用72个Blackwell GPU,有130万亿个晶体管,重量达1.5吨,有60万个零部件,功耗120千瓦,芯片背后有一根“脊柱”连接所有部件。这个芯片还包含5000根铜缆,总长度达2英里。这个芯片有14TB内存,内存带宽为每秒1.2TB,基本上相当于全世界互联网上的所有流量都能在此处理。
GPU之外的更多可能
在90分钟的演讲中,黄仁勋并未提及ASIC芯片相关的话题,似乎前段时间博通带起的资本热潮对他并无影响。
尽管知情人士否认了近日英伟达为ASIC“招兵买马”的传闻,但这已不是英伟达第一次传出布局ASIC的消息。据路透社去年2月报道,英伟达正在建立一个新的业务部门,专注于为云厂商等公司设计定制芯片,包括先进的AI处理器。
同年6月,报道称英伟达CEO黄仁勋曾在一场新闻发布会上被问及进军ASIC市场的传闻,黄仁勋彼时首次说了“Yes!”以确定这一决定。
或许在博通爆火前,英伟达已经看到了ASIC芯片的潜力。无论英伟达最终打不打算拓展这一块业务,ASIC芯片已经在AI芯片界闯出了名头。
据业内人士介绍,芯片一般分为三类,一类是以CPU和GPU为代表的非ASIC芯片,即通用芯片。这类芯片被设计应用于处理各种不同的计算任务,优势在于通用性与技术生态,劣势在于高功耗,在业务范围较明确的场景下,高能耗、低能效比的问题就尤为突出。
第二类是灵活的可编程芯片FPGA,主要厂商包括AMD、Altera等。这类芯片允许用户通过编码对芯片内部的逻辑功能进行配置和重新配置,因此多用于科研领域、商业数字产品预研发阶段。
第三类是ASIC或者说XPU芯片。此类芯片的诞生是因为市场需求发展到一定阶段后,某些细分领域需求突显,针对这些细分领域,芯片设计厂家针对性的设计研发出XPU芯片,在匹配这些细分市场需求的同时也降低了产品制造成本。
“一旦此类ASIC芯片实现批量生产,即在一定程度上将程序固化于硬件,可以将性能和效率在原有基础上提升数倍,且功耗也远低于CPU或GPU。”上述业内人士表示。
科技巨头们也瞄准了这一点。例如,谷歌早在十年前就力推自研AI芯片TPU(张量处理器,ASIC芯片的代表),该系列芯片也是与博通合作生产。去年12月12日,谷歌宣布正式向Google Cloud客户开放第六代TPU Trillium。亚马逊的ASIC产品包括Trainium和Inferentia,分别用于训练和推理环节。微软和Meta也推出了各自的ASIC产品Maia 100和MTIA。
不过,在Omdia半导体产业研究总监何晖看来,英伟达的GPU作为通用型产品,对于大规模算力中心而言必不可少。然而,不同AI公司拥有各自的核心算法,往往更适合在自定义的硬件架构上运行。此时,博通这类能够提供ASIC服务的公司,就成为了重要补充。
“对于任何从事AI算力硬件架构的公司来说,通用性和定制化都是必须同时具备的特质。”何晖表示。
TrendForce集邦咨询分析师邱珮雯则认为,ASIC偏向特定客户定制化,GPU通常为标准品,适用于多数客户。而且,相较于高阶NVIDIA芯片如B200,ASIC目前开发运算效能落差仍大。因此,ASIC和GPU有各自的目标市场及应用。
从目前的市场反馈来看,ASIC芯片更多被作为GPU之外的一种补充。
为什么是博通?
博通成立于1991年,事实上已经在ASIC领域深耕多年,堪称该领域的“老大哥”。
单从财报数据来看,博通仍处于增收不增利的状态。2024财年博通营收516亿美元,同比增长44%,但净利润58.95亿美元,同比下降58%。不过具体业务看,博通的人工智能业务全财年营收同比增长220%至122亿美元,驱动半导体业务的收入创新高至301亿美元。
陈福阳在财报会议上预期乐观:“我们目前有三家超大规模客户,他们已经制定了自己的多代AI XPU路线图,计划在未来三年内以不同速度部署。我们相信,到2027年,他们每家都计划在单一架构上部署100万XPU集群。”
何晖认为,博通的优势在于“连接”。“在AI时代,算力与互联技术均扮演着至关重要的角色。”她表示,博通在接口类的芯片方面能力较强,在计算类芯片领域也积累了多年的丰富经验,因此能够将这两项关键技术有效地结合在一起,为客户提供先进的加速计算解决方案。这也是为何英伟达一直在积极推进NVLink技术的原因。
芯和半导体创始人、总裁代文亮认为,“博通推出了3.5D F2F(Face-to-Face)技术,能够显著提升芯片的互连密度、功率效率和性能。”
去年底,博通宣布推出3.5D eXtreme Dimension系统级(XDSiP)封装平台技术。这是业界首个3.5D F2F封装技术,在单一封装中集成超过6000mm²的硅芯片和多达12个HBM内存堆栈,以满足AI芯片的高集成、高功率、高能效的计算需求。
代文亮告诉时代财经记者,3.5D F2F封装技术是一种架构创新,在此之前,业界比较常见的先进封装技术,要么是2.5D封装,要么是通过桥接芯片放在下面。3.5D F2F封装也许不是最优方案,但给产业提供了另一个解决当前痛点问题的路径。
代文亮进一步补充,目前行业里对于AI算力的需求暴涨,英伟达的通用GPU一卡难求,这时候能效比就显得越来越重要。通用GPU由于要兼顾多种类型的计算任务,这种灵活性势必会牺牲在特定应用上的性能和效率,譬如视频处理、网络通信、深度学习等,特别是在高负载或持续运行的情况下,这种现象越加明显。ASIC 芯片由于是为了某一特定应用专门定制的,这本身就是一个优势,在同等工况下,博通的ASIC芯片就能做到效能大幅提升,算力其实也非常强劲,更适合要求精确、高效处理的应用。“这种竞争的心态也是值得鼓励的,行业内通过百花齐放的创新把性能提高,而不是无止尽地内卷,把价格卷低。”
博通之后,还有谁?
“对我们而言是利好。”在博通一炮而红后,有国内从事ASIC芯片的业内人士告诉时代财经记者,博通将XPU的历史地位抬高了,这让他们感受到了鼓舞。
1月3日,第三方数据机构IDC发布最新的加速计算服务器市场预测数据显示,2024年中国加速服务器市场规模190亿美元,同比2023年增长87%。其中GPU(图形处理器)服务器依然是主导地位,占据74%的市场份额。然而,到2028年,中国加速计算服务器市场规模将超过550亿美元,其中ASIC加速服务器市场占比将接近40%。
图源:IDC微信公众号
也许未来,ASIC的市场份额会快速增长,但并无法取代通用处理器。
邱珮雯表示,云端业者除了采用NVIDIA GPU以外,也将积极研发自身ASIC芯片。这既能针对自身应用定制化以外,还能降低对NVIDIA芯片之依赖,并同时减少支出成本。博通本身为IC设计公司,也提供IC设计代工服务于客户,是否对于其他芯片厂造成冲击主要取决于客户是否要自行开发IC,进而替代原先供应商。
上述业内人士认为,ASIC芯片能否单独运作,取决于应用场景。例如,某地要建立一个数据中心,如果只是服务于科研领域的AI计算任务,那么定制化的ASIC芯片基于具有更低功耗和专用特性,可以以算力利用率更高效的特点来满足该需求。但如果该数据中心还需处理交通、安防等任务,那么此时则更倾向于使用GPU。服务对象决定了对芯片类型的选择。
“当一个市场领域展现出巨大的潜力时,必然会涌现出专用芯片。因为该领域的市场规模足够大,值得企业投入资源去开发专用芯片,通过大规模生产来降低成本,充分发挥高效利用率,并抢占市场份额。这就是ASIC芯片背后市场意义。”该业内人士表示。
目前,国产的AI芯片厂商有很多选择了ASIC方向。例如,独角兽企业中昊芯英专注于国产TPU芯片及其解决方案赛道,这也是ASIC芯片之一,2023年下半年,中昊芯英全自研的GPTPU架构高性能人工智能芯片刹那®实现了量产。据介绍,2024年下半年,该公司一方面落地了更多智算中心项目,另一方面也在加强生态建设,进一步优化软件平台,打造软硬件一体化的结合,使之更适合国内企业快速部署和独立使用。
另外,AI芯片第一股寒武纪-U(688256.SH)的方向也是ASIC。据Wind数据,近一年来寒武纪的股价涨了480.34%,截至1月8日收盘,寒武纪涨1.11%,报726元/股,市值已超过3000亿元。
在代文亮看来,未来,小场景的AI应用、小参数模型会越来越多。“千亿参数、万卡集群大部分时候是少数厂商玩家的游戏,大多数功能和场景的实现并不需要这种量级的硬件支持。”此外,端侧AI,AI PC和手机的概念越来越受关注,其实也侧面印证了这个趋势。所以,ASIC定制化芯片可以说是“性价比”相当高的选择。