英偉達最新季度財報發布后,不只AMD緘默沉靜英特爾流淚,偉達做過長期心思建造的卡英pg電子·(中國)娛樂官方網站分析師也沒想到真實情況如此超預期。
更可怕的偉達是,英偉達同比暴升854%的卡英收入,很大程度上是偉達因為“只能賣這么多”,而不是卡英“賣出去了這么多”。一大堆“草創公司拿H100典當借款”的偉達小作文背面,反響的卡英是H100 GPU供應嚴重的現實。
假如缺貨持續延續到本年年末,偉達英偉達的卡英成績恐怕會愈加震懾。
H100的偉達缺少不由讓人想起幾年前,GPU因為加密錢銀暴升導致缺貨,卡英英偉達被游戲玩家罵得狗血淋頭。偉達不過當年的卡英顯卡缺貨很大程度上是因為不合理的溢價,H100的缺貨卻是產能真實有限,加價也買不到。
換句話說,英偉達仍是賺少了。
在財報發布當天的電話會議上,“產能”天經地義地成為了最高頻詞匯。對此,英偉達遣詞謹慎,不應背的鍋堅決不背:
“商場份額方面,不是僅靠咱們就能夠取得的,這需求跨過許多不同的供應商?!?。
實踐上,英偉達所說的“許多不同的供應商”,算來算去也就兩家:
SK海力士。和。臺積電。。
HBM。:韓國人的游戲。
假如只看面積占比,pg電子·(中國)娛樂官方網站一顆H100芯片,歸于英偉達的部分只要50%左右。
在芯片剖面圖中,H100裸片占有中心方位,兩頭各有三個HBM倉庫,加起面積與H100裸片適當。
這六顆平平無奇的。內存芯片。,便是H100供應缺少的元兇巨惡之一。
HBM(High Bandwidth Memory)。直譯過來叫高寬帶內存,在GPU中承當一部分存儲器之職。
和傳統的DDR內存不同,HBM實質上是將多個DRAM內存在筆直方向堆疊,這樣既添加了內存容量,又能很好的操控內存的功耗和芯片面積,削減在封裝內部占用的空間。
“堆疊式內存”本來瞄準的是對芯片面積和發熱十分靈敏的智能手機商場,但問題是,因為出產本錢太高,智能手機終究挑選了性價比更高的LPDDR道路,導致堆疊式內存空有技能儲備,卻找不到落地場景。
直到2015年,商場份額節節敗退的AMD期望憑借4K游戲的遍及,抄一波英偉達的后路。
在當年發布的AMD Fiji系列GPU中,AMD選用了與SK海力士聯合研制的堆疊式內存,并將其命名為HBM(High Bandwidth Memory)。
AMD的想象是,4K游戲需求更大的數據吞吐功率,HBM內存高帶寬的優勢就能表現出來。其時AMD的Radeon R9 Fury X顯卡,也確實在紙面功能上壓了英偉達Kepler架構新品一頭。
但問題是,HBM帶來的帶寬進步,顯著難以抵消其自身的高本錢,因而也未得到遍及。
直到2016年,AlphaGo橫掃冠軍棋手李世石,深度學習橫空出世,讓HBM內存一下有了用武之地。
深度學習的中心在于經過海量數據練習模型,確認函數中的參數,在決議計劃中帶入實踐數據得到終究的解。
理論上來說,數據量越大得到的函數參數越牢靠,這就讓AI練習對數據吞吐量及數據傳輸的推遲性有了一種近乎病態的尋求,而這恰恰是HBM內存處理的問題。
2017年,AlphaGo再戰柯潔,芯片換成了Google自家研制的TPU。在芯片規劃上,從第二代開端的每一代TPU,都選用了HBM的規劃。英偉達針對數據中心和深度學習的新款GPU Tesla P100,搭載了第二代HBM內存(HBM2)。
跟著高功能核算商場的GPU芯片簡直都裝備了HBM內存,存儲巨子們環繞HBM的競賽也敏捷打開。
現在,全球能夠量產HBM的僅有存儲器三大巨子:SK海力士、三星電子、美光。
SK海力士是HBM發明者之一,是現在僅有量產HBM3E(第三代HBM)的廠商;三星電子以HBM2(第二代HBM)入局,是英偉達首款選用HBM的GPU的供應商;美光最落后,2018年才從HMC轉向HBM道路,2020年年中才開端量產HBM2。
其間。,SK海力士獨占HBM 50%商場份額,而其獨家供應給英偉達的HBM3E,更是牢牢卡住了H100的出貨量:
H100 PCIe和SXM版別均用了5個HBM倉庫,H100S SXM版別可到達6個,英偉達力推的H100 NVL版別更是到達了12個。依照研究機構的拆解,單顆16GB的HBM倉庫,本錢就高達240美元。那么H100 NVL單單內存芯片的本錢,就將近3000美元。
本錢仍是小問題,考慮到與H100直接競賽的谷歌TPU v5和AMD MI300行將量產,后兩者相同將選用HBM3E,陳能愈加綽綽有余。
面臨激增的需求,聽說SK海力士已定下產能翻番的小方針,著手擴建產線,三星和美光也對HBM3E躍躍欲試,但在半導體工業,擴建產線歷來不是一蹴即至的。
依照9-12個月的周期達觀估量,HBM3E產能至少也得到下一年第二季度才干得到補償。
別的,就算處理了。HBM。的產能,H100能供應多少,還得看臺積電的臉色。
CoWoS:臺積電的寶刀。
分析師Robert Castellano不久前做了一個測算,H100選用了臺積電4N工藝(5nm)出產,一片4N工藝的12寸晶圓價格為13400美元,理論上能夠切開86顆H100芯片。
假如不考慮出產良率,那么每出產一顆H100,臺積電就能取得155美元的收入[6]。
但實踐上,每顆H100給臺積電帶來的收入很或許超越1000美元,原因就在于H100選用了臺積電的CoWoS封裝技能,經過封裝帶來的收入高達723美元[6]。
每一顆H100從臺積電十八廠的N4/N5產線上下來,都會運往同在園區內的臺積電先進封測二廠,完結H100制作中最為特別、也至關重要的一步——。CoWoS。。
要了解CoWoS封裝的重要性,仍然要從H100的芯片規劃講起。
在消費級GPU產品中,內存芯片一般都封裝在GPU中心的外圍,經過PCB板之間的電路傳遞信號。
比方下圖中同屬英偉達出品的RTX4090芯片,GPU中心和GDDR內存都是分隔封裝再拼到一塊PCB板上,互相獨立。
GPU和CPU都遵從著馮·諾依曼架構,其間心在于“存算別離”——即芯片處理數據時,需求從外部的內存中調取數據,核算完結后再傳輸到內存中,一來一回,都會形成核算的推遲。一同,數據傳輸的“數量”也會因而受限制。
能夠將GPU和內存的聯系比作上海的浦東和浦西,兩地間的物資(數據)運送需求依靠南浦大橋,南浦大橋的運載量決議了物資運送的功率,這個運載量便是內存帶寬,它決議了數據傳輸的速度,也直接影響著GPU的核算速度。
1980年到2000年,GPU和內存的“速度失配”以每年50%的速率添加。也便是說,就算修了龍耀路地道和上中路地道,也無法滿意浦東浦西兩地物資運送的添加,這就導致高功能核算場景下,帶寬成為了越來越顯著的瓶頸。
CPU/GPU功能與內存功能之間的距離正在拉大。
2015年,AMD在運用HBM內存的一同,也針對數據傳輸選用了一種立異的處理計劃:把浦東和浦西拼起來。
簡略來說,2015年的Fiji架構顯卡,將HBM內存和GPU中心“縫合”在了一同,把幾塊小芯片變成了一整塊大芯片。這樣,數據吞吐功率就成倍進步。
不過如上文所述,因為本錢和技能問題,AMD的Fiji架構并沒有讓商場合作。但深度學習的迸發以及AI練習對數據吞吐功率不計本錢的尋求,讓“芯片縫合”有了用武之地。
別的,AMD的思路當然好,但也帶來了一個新問題——不管HBM有多少優勢,它都必須和“縫芯片”的先進封裝技能合作,兩者唇亡齒寒。
假如說HBM內存還能貨比三家,那么“縫芯片”所用的先進封裝,看來看去就只要臺積電一家能做。
CoWoS是臺積電先進封裝工作的起點,英偉達則是第一個選用這一技能的芯片公司。
CoWoS由CoW和oS組合而來:CoW表明Chip on Wafer,指裸片在晶圓上被組裝的進程,oS表明on。Substrate。,指在基板上被封裝的進程。
傳統封裝一般只要oS環節,一般在代工廠完結晶圓制作后,交給第三方封測廠處理,但先進封裝添加的CoW環節,就不是封測廠能處理的了的。
以一顆完好的H100芯片為例,H100的裸片周圍散布了多個HBM倉庫,經過CoW技能拼接在一同。但不僅僅拼接罷了,還要一同完成裸片和倉庫間的通訊。
臺積電的CoW差異于其他先進封裝的亮點在于,是將裸片和倉庫放在一個硅中介層(實質是一塊晶圓)上,在中介層中做互聯通道,完成裸片和倉庫的通訊。
相似的還有英特爾的EMIB,差異在于經過硅橋完成互聯。但帶寬遠不及硅中介層,考慮到帶寬與數據傳輸速率休戚相關,CoWoS便成了H100的僅有挑選。
這便是卡住H100產能的另一只手。
盡管CoWoS作用逆天,但4000-6000美元/片的天價仍是攔住了不少人,其間就包含富甲一方的蘋果。因而,臺積電準備的產能適當有限。
但是,AI浪潮忽然迸發,供需平衡瞬間被打破。
早在6月就有傳言稱,本年英偉達對CoWoS的需求現已到達4.5萬片晶圓,而臺積電年頭的預估是3萬片,再加上其他客戶的需求,產能缺口超越了20%。
為了補償缺口,臺積電的陣仗不可謂不大。
6月,臺積電正式啟用同在南科的先進封測六廠,光無塵室就比其他封測廠的加起來還大,并許諾逐季添加CoWoS產能,為此將部分oS外包給第三方封測廠。
但正如HBM擴產不易,臺積電擴產也需求時刻。現在,部分封裝設備、零組件交期在3-6個月不等,到年末前,新產能能開出多少仍是不知道。
不存在的Plan B。
面臨H100的結構性緊缺,英偉達也不是徹底沒有Plan B。
在財報發布后的電話會議上,英偉達就泄漏,CoWoS產能現已有其他供應商參加認證。盡管沒說詳細是誰,但考慮到先進封裝的技能門檻,除了臺積電,也就只要英特爾先天不足的EMIB、三星開發了好久一向等不來客戶的I-Cube能牽強救火。
但中心技能替換好像陣前換將,跟著AMD MI300行將量產出貨,AI芯片競賽白熱化,是否能和英特爾和三星的技能磨合到位,恐怕黃仁勛自己心思也是惴惴。
比黃仁勛更著急的或許是買不到H100的云服務廠商與AI草創公司。究竟游戲玩家搶不到顯卡,也便是游戲幀數少了20幀;大公司搶不到H100,很或許就丟掉了幾十億的收入和上百億的估值。
需求H100的公司主要有三類:微軟、亞馬遜這類云服務商;Anthropic、OpenAI這些草創公司;以及特斯拉這類大型科技公司,特斯拉的新版別FSD計劃就用了10000塊H100組成的GPU集群來練習。
這還沒算上Citadel這類金融公司,以及買不到特供版H800的我國公司。
依據。GPU。Utils的測算[7],保存估量,現在H100的供應缺口到達43萬張。
盡管H100存在理論上的代替計劃,但在實踐情況下都缺少可行性。
比方H100的前代產品A100,價格只要H100的1/3左右。但問題是,H100的功能比A100強了太多,導致H100單位本錢的算力比A100高??紤]到科技公司都是成百上千張起購,買A100反而更虧。
AMD是另一個代替計劃,并且紙面功能和H100相差無幾。但因為英偉達CUDA生態的壁壘,選用AMD的GPU很或許讓開發周期變得更長,而選用H100的競賽對手很或許就因為這點時刻差,和自己拉開了距離,乃至上億美元的出資血本無歸。
種種原因導致,一顆全體物料本錢3000美元的芯片,英偉達直接加個零賣,我們竟然都搶著買。這或許是黃仁勛自己也沒想到的。
而在HBM與CoWoS產能改進之前,買到H100的辦法或許就只剩下了一種:
等那些靠吹噓逼融到錢買了一堆H100的。草創公司。破產,然后接盤他們的二手GPU。。
參考資料。
[1] AI Capacity Constraints - CoWoS and HBM Supply Chain,SemiAnalysis。
[2] 原廠活躍擴產,預估2024年HBM位元供應年成長率105%,TrendForce。
[3] HBM技能會給數據中心帶來怎樣的改變?半導體工業縱橫。
[4] 先進封裝第二部分:英特爾、臺積電、三星、AMD、日月光、索尼、美光、SKHynix、YMTC、特斯拉和英偉達的選項/運用回憶,Semianalysis。
[5] OpenAI聯合創始人兼職科學家Andrej Karpathy推文。
[6] Taiwan Semiconductor: Significantly Undervalued As Chip And Package Supplier To Nvidia,SeekingAlpha。
[7] Nvidia H100 GPUs: Supply and Demand,GPU Utils。
修改:李墨天。
視覺規劃:疏睿。
責任修改:李墨天。
下一篇:中國郵政儲蓄銀行太原市分行因貸前調查不盡職等違規行為被罰50萬
上一篇:卡萊爾:面對騎士的進攻我們保持了堅韌 今天球隊展現出了團結