今天我親手握住了世界上最大的計(jì)算機(jī)芯片。雖然它的體積令人印象深刻,但其速度更為驚人,也更為重要。大多數(shù)計(jì)算機(jī)芯片都很小,只有郵票大小甚至更小。相比之下, Cerebras WSE (Wafer Scale Engine) 是一個(gè)巨大正方形,每邊長(zhǎng) 8.5 英寸或 22 厘米,而最新型號(hào)在單個(gè)芯片上擁有驚人的 40 億個(gè)晶體管。正是因?yàn)橛辛诉@數(shù)十億個(gè)晶體管,WSE 才創(chuàng)造了 AI 推理操作的世界速度記錄,比一個(gè)大體上性能相當(dāng)?shù)?NVIDIA 集群快約 2.5 倍。
“這是全球最快的推理速度,” Cerebras 首席信息安全官 Naor Penso 今天在溫哥華 Web Summit 上對(duì)我說(shuō)。 “上周 NVIDIA 宣布在 Llama 4 上實(shí)現(xiàn)了每秒 1,000 個(gè) token 的速度,這令人印象深刻。而我們今天剛剛發(fā)布的基準(zhǔn)測(cè)試達(dá)到了每秒 2,500 個(gè) token。”
如果你對(duì)這些概念感到陌生,可以把“推理”理解為思考或行動(dòng):根據(jù)你的輸入或提示構(gòu)建句子、圖像或視頻。把“token”看作思維的基本單元:一個(gè)單詞、一個(gè)字符或一個(gè)符號(hào)。
AI 引擎每秒能處理的 token 越多,它返回結(jié)果的速度也就越快。而速度至關(guān)重要。也許對(duì)你個(gè)人來(lái)說(shuō)意義不大,但當(dāng)企業(yè)客戶希望在購(gòu)物車(chē)中加入 AI 引擎,以便即時(shí)告訴你只需再加一種配料就能做出完美的韓式燒烤牛肉塔可時(shí),他們必須能夠?yàn)槌汕先f(wàn)的人迅速提供服務(wù)。
有趣的是,速度即將變得更加關(guān)鍵。
我們正邁入一個(gè)代理時(shí)代,屆時(shí) AI 將能為我們執(zhí)行復(fù)雜的多步驟任務(wù),例如規(guī)劃并預(yù)訂去奧斯汀觀看一級(jí)方程式比賽的周末旅行。代理并非魔法:他們對(duì)待大任務(wù)的方式和你一樣……一步一步來(lái)。也就是說(shuō),需要將一個(gè)龐大的任務(wù)分解為 40、50 或甚至 100 個(gè)子任務(wù),這就意味著工作量會(huì)大幅增加。
“AI 代理需要處理更多的工作,而且各個(gè)任務(wù)之間需要相互通信,” Penso 告訴我。 “你不能忍受推理速度緩慢。”
WSE 上的 40 億個(gè)晶體管正是實(shí)現(xiàn)這種高速性能的關(guān)鍵部分。作為對(duì)比,英特爾 Core i9 擁有 33.5 億個(gè)晶體管,而 Apple M2 Max 芯片也僅提供 67 億個(gè)晶體管。但構(gòu)建出高速計(jì)算怪獸的關(guān)鍵不僅僅在于晶體管數(shù)量,更在于系統(tǒng)的協(xié)同布局:將所有組件整合在同一芯片上,同時(shí)配備 44GB 的最快型 RAM(內(nèi)存)。
“AI 計(jì)算需要大量的內(nèi)存,” Penso 說(shuō)。 “NVIDIA 需要外部存儲(chǔ),而使用 Cerebras 你不需要外部存儲(chǔ)。”
獨(dú)立機(jī)構(gòu) Artificial Analysis 驗(yàn)證了這一速度數(shù)據(jù),他們稱在 Llama 4 上測(cè)試該芯片時(shí)達(dá)到了每秒 2,522 個(gè) token,而 NVIDIA Blackwell 的速度只有每秒 1,038 個(gè) token。
“我們測(cè)試了數(shù)十家供應(yīng)商,而 Cerebras 是唯一在 Meta 旗艦?zāi)P屯评碇斜憩F(xiàn)優(yōu)于 Blackwell 的解決方案,” Artificial Analysis 首席執(zhí)行官 Micah Hill-Smith 表示。
WSE 芯片展示了計(jì)算機(jī)芯片設(shè)計(jì)的一次有趣演進(jìn)。
自 1950 年代開(kāi)始制造集成電路和 1960 年代開(kāi)始制造微處理器以來(lái),CPU 曾長(zhǎng)期主導(dǎo)著計(jì)算領(lǐng)域。直到最近,GPU(圖形處理單元)才從圖形和游戲領(lǐng)域的輔助工具轉(zhuǎn)變?yōu)?AI 開(kāi)發(fā)中關(guān)鍵的處理組件。Cerebras 首席營(yíng)銷官 Julie Shin 告訴我,WSE 并非采用 x86 或 ARM 架構(gòu),而是一種全新架構(gòu),用于加速 GPU 計(jì)算。
“這不是一項(xiàng)漸進(jìn)式技術(shù),” 她補(bǔ)充道。 “這是芯片領(lǐng)域的又一次跨越性飛躍。”