來自伊利諾伊大學厄巴納-香檳分校和加州大學伯克利分校的研究人員推出了一個新框架,為開發者提供了對大語言模型 (LLM) "思考"方式的更多控制,在提升推理能力的同時更高效地利用推理預算。
這個名為 AlphaOne (α1) 的框架是一種測試時縮放技術,在推理過程中調整模型行為,無需進行昂貴的重新訓練。它為調節先進大語言模型的推理過程提供了一種通用方法,為開發者提供了靈活性,能夠以比現有方法更可控、更具成本效益的方式提升復雜任務的性能。
**緩慢思考的挑戰**
近年來,大型推理模型 (LRM) 的開發者,如 OpenAI o3 和 DeepSeek-R1,已經納入了受"系統 2"思維啟發的機制——這是人類認知中緩慢、深思熟慮且邏輯性的模式。這與"系統 1"思維不同,后者是快速、直覺且自動的。融入系統 2 能力使模型能夠解決數學、編程和數據分析等領域的復雜問題。
模型被訓練自動生成過渡 Token,如"wait"、"hmm"或"alternatively"來觸發緩慢思考。當這些 Token 之一出現時,模型會暫停對之前步驟進行自我反思并糾正方向,就像人在遇到困難問題時暫停重新思考一樣。
然而,推理模型并不總能有效利用其緩慢思考能力。不同研究表明,它們容易對簡單問題"過度思考",浪費計算資源,或對復雜問題"思考不足",導致錯誤答案。
正如 AlphaOne 論文所指出的:"這是因為大型推理模型無法找到最優的類人系統 1 到系統 2 推理轉換,且推理能力有限,導致推理性能不盡如人意。"
有兩種常見方法來解決這個問題。并行縮放,如"best-of-N"方法,多次運行模型并選擇最佳答案,但計算成本昂貴。順序縮放試圖在單次運行中調節思考過程。例如,s1 是一種通過在模型上下文中添加"wait" Token 來強制更多緩慢思考的技術,而"Chain of Draft" (CoD) 方法提示模型使用更少詞匯,從而減少思考預算。然而,這些方法提供的是剛性的、一刀切的解決方案,往往效率不高。
**推理的通用框架**
研究人員沒有簡單地增加或減少思考預算,而是提出了一個更根本的問題:是否可能開發出更好的策略來在緩慢和快速思考之間轉換,從而能夠通用地調節推理預算?
他們的框架 AlphaOne 為開發者提供了在測試時對模型推理過程的精細控制。該系統通過引入 Alpha (α) 參數來工作,該參數充當縮放模型思考階段預算的旋鈕。
在生成的某個點之前 (研究人員稱為"α 時刻"),AlphaOne 策略性地安排插入"wait" Token 的頻率以鼓勵緩慢、深思熟慮的思考。這實現了論文中描述的"可控且可擴展的思考"。
一旦達到"α 時刻",框架會在模型上下文中插入 Token,結束緩慢思考過程并強制模型切換到快速推理并產生最終答案。
以前的技術通常應用研究人員所稱的"稀疏調節",只做少數幾個孤立的調整,比如在整個過程中添加一兩次"wait" Token。相比之下,AlphaOne 可以配置為頻繁干預 (密集) 或很少干預 (稀疏),為開發者提供了比其他方法更精細的控制。
AlphaOne 通過在不同間隔向模型上下文添加"wait" Token 來調節推理 來源:AlphaOne GitHub 頁面
"我們將 AlphaOne 視為深思熟慮推理的統一接口,與思維鏈提示或基于偏好的調優互補,并能夠與模型架構一起發展," AlphaOne 團隊在書面評論中告訴 VentureBeat。"關鍵要點不在于實現細節,而在于一般原則:推理過程的慢到快結構化調節增強了能力和效率。"
**AlphaOne 實際應用**
研究人員在三個不同的推理模型上測試了 AlphaOne,參數規模從 15 億到 320 億不等。他們在數學、代碼生成和科學問題解決的六個具有挑戰性的基準上評估了其性能。
他們將 AlphaOne 與三個基線進行了比較:未修改的原始模型;單調增加緩慢思考的 s1 方法;以及單調減少緩慢思考的 Chain of Draft (CoD) 方法。
結果產生了幾個對構建 AI 應用程序的開發者特別相關的關鍵發現。
首先,"先緩慢思考,再快速思考"的策略在大型推理模型中帶來更好的推理性能。這突出了大語言模型與人類認知之間的根本差距,人類認知通常基于先快速思考后緩慢思考的結構。與人類不同,研究人員發現模型受益于在快速行動之前強制執行緩慢思考。
"這表明有效的 AI 推理不是來自模仿人類專家,而是來自明確調節推理動態,這與現實世界應用中已經使用的提示工程和分階段推理等實踐一致," AlphaOne 團隊說。"對開發者而言,這意味著系統設計應該主動施加慢到快的推理時間表來提高性能和可靠性,至少目前如此,因為模型推理仍然不完美。"
另一個有趣的發現是,投資于緩慢思考可以帶來整體上更高效的推理。"雖然緩慢思考減慢了推理速度,但使用 α1 時整體 Token 長度顯著減少,引發了緩慢思考帶來的更有信息量的推理進展,"論文指出。這意味著雖然模型花費更多時間"思考",但它產生了更簡潔準確的推理路徑,最終減少了生成的 Token 總數并降低了推理成本。
與 s1 風格的基線相比,AlphaOne 將平均 Token 使用量減少了約 21%,降低了計算開銷,同時將推理準確率提高了 6.15%,甚至在博士級別的數學、科學和代碼問題上也是如此。
雖然 AlphaOne 在開始時進展緩慢,但與其他測試時縮放方法相比,它最終用更少的 Token 獲得更好的結果 來源:AlphaOne GitHub 頁面
"對于復雜查詢回答或代碼生成等企業應用,這些收益轉化為雙重好處:提高生成質量和顯著節省成本," AlphaOne 說。"這些可以降低推理成本,同時提高任務成功率和用戶滿意度。"
最后,研究發現高頻插入"wait" Token 是有幫助的,AlphaOne 通過比以前方法更頻繁地添加 Token 獲得了更好的結果。
通過為開發者提供新的控制水平,預計很快發布代碼的 AlphaOne 框架可以幫助他們在下一代推理模型之上構建更穩定、可靠和高效的應用程序。
"對于使用開源或定制模型的公司,特別是那些在預訓練階段使用過渡 Token 訓練的模型,AlphaOne 設計為易于集成," AlphaOne 團隊告訴 VentureBeat。"在實踐中,集成通常只需要最小的更改,比如簡單地更新配置腳本中的模型名稱。"