科大訊飛語(yǔ)音合成技術(shù)升級 聲音復刻與超擬人能力實(shí)現突破
上證報中國證券網(wǎng)訊(記者孫小程)6月26日,科大訊飛(002230)宣布語(yǔ)音合成技術(shù)全新升級,一句話(huà)聲音復刻與超擬人合成兩大核心能力實(shí)現突破。只需一句話(huà)錄音,AI就能完整捕捉用戶(hù)喉腔共鳴、口音特點(diǎn)、氣息流轉等發(fā)音特征,還原用戶(hù)的停頓習慣、情感起伏和呼吸節奏,達到復刻效果。專(zhuān)業(yè)測評顯示,科大訊飛一句話(huà)聲音復刻技術(shù)在相似度、準確度等維度行業(yè)領(lǐng)先。
2024年4月,訊飛星火APP的“一句話(huà)聲音復刻”功能正式上線(xiàn)。在智能語(yǔ)音領(lǐng)域,聲音復刻效果的核心指標始終圍繞相似度與準確度兩大維度展開(kāi)。相似度決定“第一耳印象”,包含音色特質(zhì)及風(fēng)格韻味;準確度則關(guān)乎聲音復刻是否好用,確保發(fā)音標準、停頓自然、語(yǔ)氣連貫。
據介紹,此次技術(shù)突破的關(guān)鍵,除了星火語(yǔ)音大模型底座的基礎和持續迭代,還構建了一套三階段層次化語(yǔ)音建?蚣。首先,通過(guò)星火底座大模型精確捕捉發(fā)音規律和韻律特征。其次,在音色恢復階段解耦并重構聲學(xué)特征。最后,通過(guò)高精度聲碼器恢復高保真波形。
在音色解耦表征能力的基礎上,科大訊飛在聲音復刻場(chǎng)景針對性進(jìn)行兩項關(guān)鍵技術(shù)的嘗試與突破:音色編碼增強、強化學(xué)習。在需要深入交流的場(chǎng)景里,僅有相似音色并不足夠。訊飛的超擬人合成技術(shù)此次進(jìn)階的重點(diǎn)是賦予AI聲音以“上下文情商”。面對多輪對話(huà)的復雜度,科大訊飛開(kāi)發(fā)了上下文感知的語(yǔ)音生成系統。
科大訊飛研究院院長(cháng)劉聰表示:“我們希望聲音不止于工具,更成為承載情感與個(gè)性的新維度,賦能更多場(chǎng)景行業(yè)、催生更多可能”。屬于A(yíng)I聲音的多元化、情感化時(shí)代,正加速駛入現實(shí)。
業(yè)內人士認為,從曾經(jīng)要錄上數十個(gè)小時(shí)的語(yǔ)音素材,到錄入幾段話(huà),再到現在僅用一句話(huà)就能復刻聲音,語(yǔ)音合成技術(shù)一直在向更快、更好、更易用的方向奔跑。一句話(huà)復刻技術(shù)的進(jìn)階,代表著(zhù)能用更少的資源、更快的速度帶來(lái)驚艷且實(shí)用的效果,顯著(zhù)降低了應用門(mén)檻,讓更多的場(chǎng)景和行業(yè)衍生出更多的個(gè)性化需求。
0人