一家名為 Nari Labs 的兩人初創(chuàng)公司推出了 Dia,這是一款擁有 1.6 億參數(shù)的文本轉(zhuǎn)語(yǔ)音(TTS)模型,旨在直接從文本提示生成自然化對(duì)話 —— 其中一位創(chuàng)始人聲稱,其性能超越了包括 ElevenLabs、Google 熱門(mén)的 NotebookLM AI 播客生成產(chǎn)品等競(jìng)爭(zhēng)對(duì)手的專有產(chǎn)品。
它甚至可能對(duì) OpenAI 最近推出的 gpt-4o-mini-tts 產(chǎn)生沖擊。
“Dia 在與 NotebookLM 播客功能的競(jìng)爭(zhēng)中不但旗鼓相當(dāng),而且在質(zhì)量上超越了 ElevenLabs Studio 和 Sesame 的開(kāi)源模型,” Nari 以及 Dia 的聯(lián)合創(chuàng)始人 Toby Kim 在社交網(wǎng)絡(luò) X 上的帖子中如是說(shuō)道。
在另一篇帖子中,Kim 指出該模型是在“零資金”情況下構(gòu)建的,并在一個(gè)主題帖中補(bǔ)充道: “……我們一開(kāi)始并非 AI 專家。一切始于我們?nèi)ツ晖瞥龅?NotebookLM 播客功能令我們著迷。我們期待更多 —— 有更多對(duì)聲音的控制,劇本也有更多自由。我們嘗試了市面上所有的 TTS API,但沒(méi)有一款聽(tīng)起來(lái)像真實(shí)的人類對(duì)話。”
Kim 進(jìn)一步感謝 Google,通過(guò)其 Research Cloud,讓他和合作者得以使用公司的 Tensor Processing Unit 芯片 (TPU) 來(lái)訓(xùn)練 Dia。
現(xiàn)在,Dia 的代碼和權(quán)重(內(nèi)部模型連接集)已經(jīng)在 Hugging Face 以及 Github 上對(duì)所有人開(kāi)放下載與本地部署。個(gè)別用戶還可以在 Hugging Face Space 上嘗試生成語(yǔ)音。
高級(jí)控制與更多可定制功能
Dia 支持諸如情感語(yǔ)調(diào)、說(shuō)話人標(biāo)記及非語(yǔ)言音頻提示等細(xì)致特征 —— 所有這些均可由純文本實(shí)現(xiàn)。
用戶可以利用 [S1] 和 [S2] 等標(biāo)簽標(biāo)記說(shuō)話人轉(zhuǎn)換,并添加 (laughs) 、 (coughs) 或 (clears throat) 等提示,使生成的對(duì)話在非語(yǔ)言行為上更加豐富。
這些標(biāo)簽?zāi)茉谏蛇^(guò)程中被 Dia 正確解析 —— 根據(jù)公司示例頁(yè)面,其他現(xiàn)有模型對(duì)此支持并不穩(wěn)定。
該模型目前僅支持英語(yǔ),并且不關(guān)聯(lián)于某個(gè)特定說(shuō)話人的聲音,每次生成時(shí)的音色均可能不同,除非用戶固定生成種子或提供音頻提示。通過(guò)音頻條件約束(或語(yǔ)音克隆),用戶可通過(guò)上傳樣本片段來(lái)引導(dǎo)語(yǔ)音的語(yǔ)調(diào)和音色。
Nari Labs 提供了示例代碼以便簡(jiǎn)化這一流程,并推出了基于 Gradio 的演示,用戶無(wú)需進(jìn)行復(fù)雜設(shè)置即可體驗(yàn)。
與 ElevenLabs 和 Sesame 的對(duì)比
Nari 在其 Notion 網(wǎng)站上展示了大量由 Dia 生成的示例音頻,并將其與其他領(lǐng)先的語(yǔ)音轉(zhuǎn)文本競(jìng)爭(zhēng)對(duì)手進(jìn)行了對(duì)比,特別是 ElevenLabs Studio 以及 Sesame CSM-1B —— 后者是 Oculus VR 頭顯聯(lián)合創(chuàng)始人 Brendan Iribe 推出的一款新文本轉(zhuǎn)語(yǔ)音模型,曾在今年早些時(shí)候于 X 平臺(tái)引起熱議。
Nari Labs 通過(guò)并排示例展示了 Dia 在多個(gè)方面優(yōu)于競(jìng)爭(zhēng)對(duì)手:
在標(biāo)準(zhǔn)對(duì)話場(chǎng)景中,Dia 無(wú)論在自然時(shí)序還是在非語(yǔ)言表達(dá)上都表現(xiàn)更佳。例如,在劇本以 (laughs) 結(jié)束時(shí),Dia 能真正理解并生成笑聲,而 ElevenLabs 和 Sesame 則只輸出諸如 “haha” 之類的文本替代表達(dá)。
例如,下面展示的是 Dia 的效果……
……
而下面則是由 ElevenLabs Studio 朗讀同一句話時(shí)的效果。
在多輪情感豐富的對(duì)話中,Dia 展現(xiàn)出更加平滑的過(guò)渡和語(yǔ)調(diào)變化。一項(xiàng)測(cè)試包括一個(gè)充滿戲劇性、情感激昂的緊急場(chǎng)景,Dia 有效地傳遞了緊迫感和說(shuō)話者壓力,而競(jìng)爭(zhēng)模型往往顯得表達(dá)平淡或節(jié)奏丟失。
在處理僅包含非語(yǔ)言內(nèi)容的劇本時(shí),例如涉及咳嗽、吸鼻子和笑聲的幽默對(duì)話,Dia 表現(xiàn)尤為出色,而其他模型則往往無(wú)法識(shí)別這些標(biāo)簽或?qū)⑵渫耆雎浴?
即使面對(duì)如說(shuō)唱歌詞這類節(jié)奏復(fù)雜的內(nèi)容,Dia 也能生成流暢、富有表現(xiàn)力且保持一定節(jié)奏感的語(yǔ)音;這與 ElevenLabs 和 Sesame 的 1B 模型產(chǎn)生的較為單調(diào)或斷裂的輸出形成了鮮明對(duì)比。
利用音頻提示,Dia 還能延續(xù)或擴(kuò)展說(shuō)話人的語(yǔ)音風(fēng)格,實(shí)現(xiàn)新臺(tái)詞的無(wú)縫銜接。一則使用對(duì)話片段作為種子的示例顯示,Dia 能將樣本中的語(yǔ)音特征貫穿于后續(xù)生成的整個(gè)對(duì)話中,而這一特性在其他模型中尚未得到穩(wěn)健支持。
在一組測(cè)試中,Nari Labs 指出,Sesame 最佳網(wǎng)站演示很可能采用了內(nèi)部 8B 版本模型,而非公開(kāi)的 1B 檢查點(diǎn),導(dǎo)致其廣告效果與實(shí)際性能之間存在差距。
模型訪問(wèn)與技術(shù)參數(shù)
開(kāi)發(fā)者可以從 Nari Labs 的 GitHub 倉(cāng)庫(kù)以及 Hugging Face 模型頁(yè)面上獲取 Dia。
該模型運(yùn)行在 PyTorch 2.0+ 和 CUDA 12.6 環(huán)境下,大約需要 10GB 的顯存。
在企業(yè)級(jí) GPU(如 NVIDIA A4000)上推理時(shí),速度約為每秒 40 個(gè) Token。
雖然當(dāng)前版本僅支持在 GPU 上運(yùn)行,Nari 計(jì)劃未來(lái)推出 CPU 版本及量化版本,以提升可訪問(wèn)性。
該初創(chuàng)公司同時(shí)提供了 Python 庫(kù)和 CLI 工具,進(jìn)一步簡(jiǎn)化了部署過(guò)程。
憑借靈活的特性,Dia 在內(nèi)容創(chuàng)作、輔助技術(shù)以及合成語(yǔ)音旁白等多種應(yīng)用場(chǎng)景中展現(xiàn)出廣闊前景。
此外,Nari Labs 正在開(kāi)發(fā)一款面向休閑用戶的消費(fèi)版 Dia,旨在滿足希望混剪或分享生成對(duì)話的用戶。感興趣的用戶可以通過(guò)電子郵件注冊(cè)早期訪問(wèn)候補(bǔ)名單。
完全開(kāi)源
該模型采用 Apache 2.0 完全開(kāi)源許可證發(fā)布,這意味著它可用于商業(yè)用途 —— 這一特性無(wú)疑會(huì)吸引企業(yè)和獨(dú)立應(yīng)用開(kāi)發(fā)者。
Nari Labs 明確禁止使用該模型進(jìn)行冒充個(gè)人、傳播虛假信息或參與非法活動(dòng)。團(tuán)隊(duì)倡導(dǎo)負(fù)責(zé)任的試驗(yàn),并對(duì)不道德的部署行為持明確反對(duì)態(tài)度。
Dia 的開(kāi)發(fā)還得到了 Google TPU Research Cloud、Hugging Face 的 ZeroGPU 撥款計(jì)劃以及在 SoundStorm、Parakeet 和 Descript Audio Codec 等項(xiàng)目上的既有研究工作的支持。
盡管 Nari Labs 的團(tuán)隊(duì)僅由兩位工程師(一位全職、一位兼職)組成,他們?nèi)酝ㄟ^(guò) Discord 服務(wù)器和 GitHub 積極邀請(qǐng)社區(qū)貢獻(xiàn)。
憑借對(duì)表達(dá)質(zhì)量、可復(fù)現(xiàn)性和開(kāi)放獲取的堅(jiān)定追求,Dia 為生成式語(yǔ)音模型領(lǐng)域增添了一種獨(dú)特的新聲。