該項(xiàng)目實(shí)現(xiàn)了一個(gè)實(shí)時(shí)語(yǔ)音交互的數(shù)字人,支持多種語(yǔ)音方案,包括 GLM-4-Voice 和 ASR-LLM-TTS。用戶(hù)可以根據(jù)需求自定義數(shù)字人的外觀和聲音,而無(wú)需進(jìn)行訓(xùn)練,音色克隆功能讓用戶(hù)能夠輕松創(chuàng)建個(gè)性化的語(yǔ)音體驗(yàn)。初始加載延遲低至 3 秒,適合各種應(yīng)用場(chǎng)景。
開(kāi)源地址:https://github.com/Henry-23/VideoChat
正文完
2024-11-14