Parler TTS 是一個(gè)輕量級(jí)的開(kāi)源高質(zhì)量文本轉(zhuǎn)語(yǔ)音 (TTS) 模型,可以以給定說(shuō)話者的風(fēng)格(性別、音調(diào)、說(shuō)話風(fēng)格等)生成高質(zhì)量、自然流暢的語(yǔ)音。它是根據(jù) Dan Lyth 和 Simon King 在 Stability AI 和 Edinburgh University 發(fā)表的論文《Natural language guidance of high-fidelity text-to-speech with synthetic annotations》的工作進(jìn)行的復(fù)現(xiàn),與其他 TTS 模型不同,Parler-TTS 是一個(gè)完全開(kāi)源的發(fā)布版本,所有的數(shù)據(jù)集、預(yù)處理、訓(xùn)練代碼和權(quán)重都以寬松的許可證公開(kāi)發(fā)布,感興趣的同學(xué)可以在線體驗(yàn)。
正文完
2024-04-14