微軟宣布Azure AI Speech"Avatar"智能語音服務(wù)全面上線,該服務(wù)允許開發(fā)人員構(gòu)建支持自然語音的語音功能、多語種、生成式 AI 應(yīng)用程序。Azure AI Speech服務(wù)中新的文本到語音頭像功能可以將簡單的文本轉(zhuǎn)換為逼真的人以自然的聲音說話的視頻。開發(fā)人員可以使用作為該服務(wù)一部分的任何預(yù)建替身,也可以創(chuàng)建自己的自定義替身。
新功能使開發(fā)人員能夠為其用戶創(chuàng)建個性化和引人入勝的內(nèi)容。這項服務(wù)的輸出視頻分辨率為 1920 x 1080,每秒 25 幀(FPS)。
下面是文字轉(zhuǎn)語音"頭像"服務(wù)的演示:
Azure Speech 文本轉(zhuǎn)語音"Avatar"具有以下功能:
通過 Azure AI 文本轉(zhuǎn)語音技術(shù),將文本轉(zhuǎn)換成逼真的人聲數(shù)字視頻,并配以自然的聲音。
提供一系列預(yù)制頭像。
化身的聲音由 Azure AI 文本轉(zhuǎn)語音技術(shù)生成。
通過批量合成 API 異步或?qū)崟r將文字合成為語音化身視頻。
在 Speech Studio 中提供內(nèi)容創(chuàng)建工具,無需編碼即可創(chuàng)建視頻內(nèi)容。
通過 Speech Studio 中的即時聊天頭像工具實現(xiàn)實時頭像對話。
文字轉(zhuǎn)語音"Avatar"服務(wù)的定價有點復(fù)雜。不出所料,收費將基于視頻輸出的長度,并按秒計費。此外,作為文本到語音頭像服務(wù)解決方案一部分的文本到語音、語音到文本、Azure OpenAI 或其他 Azure 服務(wù)將單獨收費。此外,該服務(wù)現(xiàn)在可在以下 Azure 地區(qū)使用:東南亞、北歐、西歐、瑞典中部、美國中南部和美國西部