一款基于流匹配的全非自回歸文本到語音轉換系統(tǒng),零樣本,支持聲音克隆、速度控制、控制語音情感表現(xiàn)、長文本合成、中英文多語言合成,并支持商用。
不需要復雜的設計如持續(xù)時間模型、文本編碼器和音素對齊,能夠快速訓練并實現(xiàn)實時因素(RTF)0.15 的推理速度,顯著優(yōu)于當前基于擴散的 TTS 模型。
F5-TTS 在公共的 100K 小時多語言數(shù)據(jù)集上進行訓練,展現(xiàn)出高自然性和表現(xiàn)力的零樣本能力、無縫代碼切換能力和速度控制效率。
正文完