新智元報道
編輯:編輯部
【新智元導讀】近日,外媒曝光了一份英偉達全新GPU路線圖,達年賭史上最強B100技術細節全流出,圖驚pg電子官方網站其中最神秘的爆流暴打X100,據悉將在2025年上市。出老
英偉達的黃豪AI硬件霸主,當得太久了!秘密武
現在,曝光各大科技公司都在虎視眈眈,英偉等著一舉顛覆它的達年賭霸主之位。
當然,圖驚英偉達也不會坐以待斃。爆流暴打
最近,出老外媒SemiAnalysis曝出了一份英偉達未來幾年的黃豪硬件路線圖,包括萬眾矚目的秘密武H200、B100和「X100」GPU。
隨之一同流出的,還有一些硬核信息,包括英偉達的工藝技術計劃、HBM3E的速度/容量、PCIe 6.0、PCIe 7.0、NVLink、1.6T 224G SerDes計劃。
如果這些計劃如愿成功,英偉達將繼續成功碾壓對手。
當然,霸主之位也沒這么好當——AMD的MI300、MI400,亞馬遜的Trainium2,微軟的Athena,英特爾的Gaudi 3,都不會讓英偉達好過。
準備好,前方高能來襲!
英偉達,不止想做硬件霸主
谷歌早已開始布局自己的AI基礎設施,他們構建的TPUv5和TPUv5e,既可以用于內部的訓練和推理,也可以給蘋果、Anthropic、CharacterAI、MidJourney等外部客戶使用。pg電子官方網站
谷歌不是英偉達唯一的威脅。
在軟件方面,Meta的PyTorch2.0和OpenAI的Triton也在迅猛發展,使其他硬件供應商得以實現兼容。
現在,軟件上的差距仍然存在,但遠不及從前那么巨大了。
在軟件堆棧上,AMD的GPU、英特爾的Gaudi、Meta的MTIA和微軟的Athena都取得了一定程度的發展。
盡管英偉達仍然保持著硬件領先地位,但差距的縮小,會越來越快。
英偉達H100,也不會獨領風騷太久。
在接下來的幾個月內,無論是AMD的MI300,還是英特爾的Gaudi 3,都將推出技術上優于H100的硬件產品。
而除了谷歌、AMD、英特爾這些難纏的對手,還有一些公司,也給了英偉達不小的壓力。
這些公司雖然在硬件設計上暫時落后,但能得到背后巨頭的補貼——天下苦英偉達久矣,這些公司都希望打破英偉達在HBM上的巨額利潤壟斷。
亞馬遜即將推出的Trainium2和Inferentia3, 微軟即將推出的Athena,都是已布局多年的投資。
競爭對手來勢洶洶,英偉達當然也不會坐以待斃。
在外媒SemiAnalysis看來,無論管理風格還是路線決策,英偉達都是「行業中最多疑的公司之一」。
而黃仁勛身上,體現了一股安迪·格魯夫的精神。
成功導致自滿。自滿導致失敗。只有偏執狂才能生存。
為了穩坐第一把交椅,英偉達野心勃勃,采取了多管齊下的冒險策略。
他們已經不屑于再和英特爾、AMD在傳統的市場上競爭,而是想成為谷歌、微軟、亞馬遜、Meta、蘋果這樣的科技巨頭。
而英偉達的DGX Cloud、軟件,以及針對非半導體領域的收購策略,背后都是一盤大棋。
路線圖最新細節曝光!
英偉達最新路線圖的重要細節,已經被曝光。
內容包括所采用的網絡、內存、封裝和工藝節點,各種GPU、SerDes選擇、PCIe6.0、協同封裝光學器件和光路交換機等細節。
顯然,懾于谷歌、亞馬遜、微軟、AMD和英特爾的競爭壓力,英偉達連夜加快了B100和「X100」的研發。
B100:上市時間高于一切
根據內部消息,英偉達的B100將于2024年第三季度量產,部分早期樣品將于2024年第二季度出貨。
從性能和TCO看,無論是亞馬遜的Trainium2、谷歌的TPUv5、AMD的MI300X,還是英特爾的Gaudi 3或微軟的Athena,跟它相比都弱爆了。
即使考慮到從設計合作方、AMD或臺積電獲得的補貼,它們也統統打不過。
為了盡快將B100推向市場,英偉達做了不少妥協。
比如,英偉達本想把功耗定在更高的水平(1000W),但最終,他們還是選擇了繼續使用H100的700W。
這樣,B100推出時,就能繼續使用風冷技術。
此外,在B100早期系列,英偉達也會堅持使用PCIe5.0。
5.0和700W的組合意味著,它可以直接插入現有的H100 HGX服務器中,從而大大提高供應鏈能力,更早地量產和出貨。
之所以決定堅持使用5.0,還有部分原因是,AMD和英特爾在PCIe6.0集成上還遠遠落后。而即使英偉達自己的內部團隊,也沒有準備好使用PCIe6.0CPU。
此外,他們還將使用速度更快的C2C式鏈接。
在以后,ConnectX-8會配備一款集成的PCIe6.0交換機,但目前還沒人準備好。
據悉,博通和AsteraLabs要到年底才能準備好量產的PCIe6.0重定時器,而考慮到這些基板的尺寸,所需的重定時器只會更多。
這也意味著,最初的B100將被限制在3.2T,使用ConnectX-7時的速度也僅僅是400G,而非英偉達在PPT上所宣稱的每個GPU 800G。
如果保持空氣冷卻,電源、PCIe和網絡速度不變,那無論是制造還是部署,都會很容易。
稍后,英偉達會推出一個需要水冷的1,000W+版本B100。
這一版B100將通過ConnectX-8,為每個GPU提供完整的800G網絡連接。
對于以太網/InfiniBand,這些SerDes仍然是8x100G。
雖然每個GPU的網絡速度提高了一倍,但基數卻減半了,因為它們仍需通過相同的51.2T交換機。而102.4T交換機,在B100一代中將不再使用。
有趣的是,有爆料稱B100上的NVLink組件將采用224G SerDes,如果英偉達真能做到這一點,無疑是巨大的進步。
大多數人業內人士都認為,224G并不可靠,2024年不可能實現,但英偉達的人除外。
要知道,無論是谷歌、Meta,還是亞馬遜,他們的224G AI加速器量產目標都定在2026/2027年。
如果英偉達在2024/2025年就實現了這一點,鐵定會把對手們打得落花流水。
據悉,B100仍然是臺積電的N4P,而不是基于3nm工藝的技術。
顯然,對于如此大的芯片尺寸,臺積電的3nm工藝尚未成熟。
根據英偉達基板供應商Ibiden透露的基板尺寸,英偉達似乎已經轉而采用由2個單片大芯片MCM組成的設計,包含8或12個HBM堆疊。
SambaNova和英特爾明年的芯片,都采用了類似的宏觀設計。
英偉達之所以沒有像AMD那樣使用混合鍵合技術,是因為他們需要量產,而成本就是他們的一大顧慮。
據SemiAnalysis估測,這兩款B100芯片的內存容量將與AMD的MI300X相近或更高,達到24GB堆疊。
風冷版B100的速度可達6.4Gbps,而液冷版可能高達9.2Gbps。
另外,英偉達還在路線圖中展示了GB200和B40。
GB200和GX200都使用了G,顯然這是一個占位符,因為英偉達將推出基于Arm架構的新CPU。并不會長期使用Grace。
B40很可能只是B100的一半,只有一個單片N4P芯片,和最多4或6層的HBM。與L40S不同,這對于小模型的推理是很有意義的。
「X100」:致命一擊
曝出的路線圖中最惹人注意的,就是英偉達的「X100」時間表了。
有趣的是,它與AMD目前的MI400時間表完全吻合。就在H100推出一年后,AMD發布了MI300X戰略。
AMD給MI300X的封裝令人印象深刻,他們大量塞入了更多的計算和內存,希望能超越一年前的H100,從而在純硬件上超越英偉達。
英偉達也發現了,他們兩年一次發布新GPU的節奏,給了競爭對手大好的機會搶奪市場。
被逼急了的英偉達,正在把產品周期加快到每年一次,不給對手任何機會。比如,他們計劃于2025年推出「X100」,僅僅比B100晚一年。
當然,「X100」目前還并未量產(不像B100),所以一切還懸而未決。
要知道,在過去,英偉達可從來不會討論下一代產品之后的產品,這次已經是史無前例了。
而且,名字大概率也不叫「X100」。
英偉達一直以來的傳統,都是以Ada Lovelace、Grace Hopper和Elizabeth Blackwell等杰出女科學家的名字來命名GPU的。
至于「X」,唯一符合邏輯的就是研究半導體和金屬帶結構的Xie Xide,但考慮到她的身份,概率應該不大。
供應鏈大師:老黃的豪賭
自英偉達成立之初,黃仁勛就一直在積極推動著對供應鏈的掌握,從而支持龐大的增長目標。
他們不僅愿意承擔不可取消的訂單——高達111.5億美元的采購、產能和庫存承諾,并且還有38.1億美元的預付款協議。
可以說,沒有一家供應商能與之相提并論。
而英偉達的事跡也不止一次表明,他們可以在供應短缺時創造性地增加供應量。
2007年黃仁勛與張忠謀的對話
1997年,張忠謀和我相遇時,只有100人的英偉達在那一年完成了2700萬美元的收入。 你們可能不相信,但張忠謀以前經常打電話推銷,并且還會上門拜訪。而我則會向張忠謀解釋英偉達是做什么的,以及我們的芯片尺寸需要多大,而且每年都會越來越大。 后來,英偉達總共做了1.27億個晶圓。從那時起,英偉達每年增長近100%,直到現在。也就是在過去10年中,復合年增長率達到了70%左右。
當時,張忠謀無法相信英偉達需要如此多的晶圓,但黃仁勛堅持了下來。
英偉達通過在供應方面的大膽嘗試,取得了巨大成功。雖然時不時要減記價值數十億美元的庫存,但他們仍然從過度的訂購中獲得了正收益。
這次,英偉達直接搶占了GPU上游組件的大部分供應——
他們向SK海力士、三星和美光這3家HBM供應商下了非常大的訂單,擠占了除博通和Google之外其他所有人的供應。同時,還買下了臺積電CoWoS的大部分供應,以及Amkor的產能。
此外,英偉達還充分利用了HGX板卡和服務器所需的下游組件,如重定時器、DSP、光學器件等。
如果供應商對英偉達要求置若罔聞,那么就會面對老黃的「蘿卜加大棒」——
一方面,他們會從英偉達獲得難以想象的訂單;另一方面,他們可能會被英偉達從現有的供應鏈中剔除。
當然,英偉達也只有在供應商至關重要且無法被淘汰或多元化供應的情況下,才會使用承諾和不可取消的訂單。
每個供應商似乎都認為自己是AI的贏家,部分原因是因為英偉達向所有供應商都下了大量的訂單,而他們也都認為自己贏得了大部分業務。但實際上,只是因為英偉達的增長速度太快了。
回到市場動態上,雖然英偉達的目標是在明年實現超過700億美元的數據中心銷售額,但只有谷歌在上游有足夠的產能——擁有超過100萬臺的設備。AMD在AI領域的總產能仍然非常有限,最高也不過幾十萬臺。
商業策略:潛在的反競爭
眾所周知,英偉達正在利用對GPU的巨大需求,來向客戶推銷和交叉銷售產品。
供應鏈中有大量信息透露,英偉達會根據一系列因素向某些公司提供優先分配。包括但不限于:多元化采購計劃、自主研發AI芯片計劃、購買英偉達的DGX、NIC、交換機和/或光學設備等。
事實上,英偉達的捆綁銷售非常成功。盡管之前只是一家規模很小的光纖收發器供應商,但他們的業務量在一個季度內增長了兩倍,預計明年的出貨量將超過10億美元——遠遠超過了自家GPU或網絡芯片業務的增長速度。
這些策略,可以說是相當周密。
比如,想要在英偉達的系統上實現3.2T網絡和可靠的RDMA/RoCE,唯一方法就是使用英偉達的NIC。當然,一方面也是因為英特爾、AMD和博通的產品實在是缺乏競爭力——仍然停留在200G的水平上。
而通過對供應鏈的管理,英偉達還促使400G InfiniBand NIC的交付周期,能夠比400G以太網NIC明顯縮短。而這兩種NIC(ConnectX-7)在芯片和電路板設計上,其實是完全相同的。
其原因在于英偉達的SKU配置,而非實際的供應鏈瓶頸——迫使企業不得不購買成本更高的InfiniBand交換機,而不是標準的以太網交換機。
這還不止,看看供應鏈對L40和L40S GPU有多么著迷,就知道英偉達又在分配上做手腳了——為了贏得更多H100的分配,OEM廠商就需要購買更多的L40S。
這與英偉達在PC領域的操作,也是如出一轍——筆記本制造商和AIB合作伙伴必須購買更大量的G106/G107(中/低端GPU)才能獲得更稀缺、更高利潤的G102/G104(高端和旗艦GPU)。
作為配合,供應鏈中的人也被灌輸了這樣的說法——L40S比A100更好,因為它具有更高的FLOPS。
但實際上,這些GPU并不適合LLM推理,因為它們的顯存帶寬還不到A100的一半,而且也沒有NVLink。
這意味著在L40S上運行LLM并實現良好的TCO幾乎是不可能的,除非是非常小的模型。而大批量的處理也會導致分配到每個用戶上的token/s幾乎是不可用的,從而使理論上的FLOPS在實際應用中變得毫無用處。
此外,英偉達的MGX模塊化平臺,雖然省去了服務器設計的艱苦工作,但也同時降低了OEM的利潤率。
戴爾、惠普和聯想等公司顯然對MGX持抵制態度,但諸如超微、廣達、華碩、技嘉等公司則爭相填補這一空白,將低成本的「企業人工智能」商品化。
而這些參與L40S和MGX炒作的OEM/ODM,也可以從英偉達那里獲得更好的主線GPU產品分配。
光電共封裝(Co-Packaged Optics)
在CPO方面,英偉達也是相當重視。
他們一直在研究各種解決方案,包括來自Ayar Labs的解決方案,以及他們自己從Global Foundries和臺積電獲得的解決方案。
目前,英偉達已經考察了幾家初創公司的CPO方案,但暫時還沒有做出最終的決定。
分析認為,英偉達很有可能將CPO集成到「X100」的NVSwitch上。
因為直接集成到GPU本身可能成本太高,而且在可靠性方面也很困難。
光路交換機(Optical Circuit Switch)
谷歌在人工智能基礎設施方面最大的優勢之一,就是它的光路交換機。
顯然,英偉達也在追求類似的東西。目前,他們已經接觸了多家公司,希望能夠進行合作開發。
英偉達意識到,Fat Tree在繼續擴展方面已經走到了盡頭,因此需要另一種拓撲結構。
與谷歌選擇6D Torus不同,英偉達更傾向于采用Dragonfly結構。
據了解,英偉達距離OCS的出貨還遙遙無期,但他們希望在2025年時能夠更加接近這一目標,但大概率無法實現。
OCS + CPO是圣杯,尤其是當OCS可以實現按數據包交換時,將會直接改變游戲規則。
不過,目前還沒有人展示過這種能力,甚至連谷歌也沒有。
雖然英偉達的OCS和CPO還只是研究部門的兩套PPT,但分析人士認為,CPO會在2025至2026年內離產品化更進一步。
參考資料:
https://www.semianalysis.com/p/nvidias-plans-to-crush-competition
下一篇:恩比德:76人沒有拖累哈登 每回合都讓他控球
上一篇:盧:不擔心哈登能否融入原有體系 我有四位能得分&持球的球星