豬豆網(wǎng)全新上線啦！每日更新有價值的內容，歡迎收藏分享本網(wǎng)站。

GPT-SoVITS beta1.30 一分鐘復刻聲音，支持中日英，國人自研低成本AI音色克隆軟件

85次閱讀

簡介：

本軟件為 B 站 UP 主 @花兒不哭耗時兩個月自主研發(fā)的開源低成本 AI 音色克隆軟件（GitHub?Star7.9k），他也是知名聲音克隆軟件 Bert-vits2 和 RVC 變聲器的創(chuàng)始人，按照他視頻里的說法，本軟件一分鐘就能復刻聲音 (并且效果比今年 1 月爆火的人工智能語音公司 ElevenLabs 的技術好很多)，還有 5 秒極限復刻模式，用于特殊情況。我花了三天時間實測了一下效果確實很好，只需要半個小時就能訓練出你想要的聲音，并且 1 分鐘的音頻訓練出來的相似度已經(jīng)很高了，底下評論區(qū)置頂也有成功案例，因此來向大家推薦

此外，由于軟件幾乎每天都更新，且處于 beta 階段，目前并沒有版本號，因此暫時用最后一次更新的日期代表版本號，等軟件作者給出明確版本號我再更新版本號

配置要求（直接借用秋月大佬的話了）：

訓練至少 10 系及以上，A 卡 (rx6000 除外) 和 I 卡別想訓練，推理還行(cpu)

訓練顯存至少 6G，推理至少 2G

看顯存：任務管理器 / 性能 /GPU/ 專用 GPU 內存

16 系顯卡需要額外配置

硬要用 cpu 訓練的勸你不要為難電腦，不如玩其他去

功能：

零樣本文本到語音（TTS）：輸入 5 秒的聲音樣本，即刻體驗文本到語音轉換。
少樣本 TTS：僅需 1 分鐘的訓練數(shù)據(jù)即可微調模型，提升聲音相似度和真實感。
跨語言支持：支持與訓練數(shù)據(jù)集不同語言的推理，目前支持英語、日語和中文。
WebUI 工具：集成工具包括聲音伴奏分離、自動訓練集分割、中文自動語音識別 (ASR) 和文本標注，協(xié)助初學者創(chuàng)建訓練數(shù)據(jù)集和 GPT/SoVITS 模型。

音頻展示：

這部分請大家先去看官方的演示視頻吧，體驗一下這個視頻最開始給我的震撼

官方演示視頻地址：https://www.bilibili.com/video/BV12g4y1m7Uw

再附上我自己初步訓練的日文測試音頻以及 B 站 UP 和辛勤答疑員白菜工廠 1145 號員工訓練的很不錯的測試音頻合集：https://wwb.lanzouq.com/iJ7Ku1mved5c

整合包下載地址：

百度網(wǎng)盤：https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi?提取碼：mqpi

123 云盤：https://www.123pan.com/s/5tIqVv-GVRcv.html

請大家不要將該軟件用于違法用途，并且在開始之前，你必須同意并遵循使用規(guī)約，在任何音視頻網(wǎng)站發(fā)布基于 GPT-SoVITS 項目或本整合包制作的作品時，必須在簡介注明相關的說明。簡介模板在下方。

本軟件以 MIT 協(xié)議開源, 作者不對軟件具備任何控制力, 使用軟件者、傳播軟件導出的聲音者自負全責.

如不認可該條款, 則不能使用或引用軟件包內任何代碼和文件. 詳見根目錄 LICENSE.

軟件安裝使用詳細教程（本人純手打，寫了幾個小時，因為圖片多所以顯得長，其實操作起來蠻快的）：

一、從度盤或者 123 云盤下載整合包并且用 7z 或者 Nanazip 解壓，前者論壇有人發(fā)，后者能在微軟官方商店下載，極其不推薦用 360 解壓，快壓等軟件，可能會缺失文件

PS：要注意解壓路徑不能出現(xiàn)中文，不然出現(xiàn)各種報錯別怪我沒告訴你

二、解壓完成之后運行 ”go-webui.bat” 文件，直接雙擊就行，別右鍵用管理員身份啟動，此時會出現(xiàn) 一個黑色的控制臺窗口，一定不要關閉它，關閉它程序就結束運行了

三、這個時候你的默認瀏覽器應該會自動彈出一個網(wǎng)頁，如果沒有彈出，那請你手動復制控制臺上的網(wǎng)址進入，比如我的網(wǎng)址就是：http://0.0.0.0:9874，你可以看到網(wǎng)頁內容是分為三個部分：0- 前置數(shù)據(jù)集獲取工具，1-GPT-SoVITS-TTS，2-GPT-SoVITS- 變聲，其中變聲部分作者還在開發(fā)，所以顯示還在施工中。千萬不要看到這么多選項就害怕了，其實很簡單，我接下來按照每個功能的序號一一講解

這個時候你要準備一份聲音素材，時長 1 分鐘到 30 分鐘都行，不用太長，質量好就行，并且越清晰等一下復刻的效果就越好，如果是很干凈的，沒有雜音的人聲，那你可以直接跳過這一步，不然就需要用軟件提供的 UVR5 來進行聲音分離，這兩個目前都是最強的聲音分離工具之一，再或者你也可以用 UVR5 客戶端，比網(wǎng)頁版的效果更好，論壇已經(jīng)有人發(fā)過這個客戶端了，因此我不多說客戶端了

1. 我們先點擊“是否開啟 UVR5-WebUI”文字前面的框框，等待幾秒，就會自己彈出來一個界面

2. 在彈出來的界面中輸入輸入待處理音頻文件夾路徑，或者直接把你的音頻文件拖進去，之后選擇模型，這一步我們正常情況下選擇 HP2，如果音頻文件有和聲就選擇 HP5，導出文件格式可以選擇 wav 或者 flac，然后點擊轉換，速度的話 3060 處理 40 分鐘音頻耗時 4 分鐘，轉換完成之后還要繼續(xù)處理，把分離好的人聲文件再次拖進來選擇“onnx_dereverb”模型來去混響，之后再把去好混響的音頻文件拖進來選擇“DeEcho-Aggressive”來去延遲，這樣你就得到了一份處理的比較完美干凈的純人聲音頻文件了，這個純人聲音頻文件的文件夾路徑為 GPT-SoVITS-betaoutputuvr5_opt

0b. 此時先取消剛剛勾上的框框，不然 UVR5 網(wǎng)頁會一直占用內存，之后在紅色框框里面輸入你處理好或者準備好的純人聲音頻文件的文件夾路徑。此時如果你要訓練的是中文或者英語那你直接點擊開啟語音分割就行，如果是日語請把每段最小時長調整為 5000（日語長一點比較好，顯卡好可以調到 10000），之后也是點擊開啟語音分割，在控制臺可以看到進度，這個步驟很快，切分好的文件的文件夾路徑為 GPT-SoVITS-betaoutputslicer_opt

0c. 此時在“批量 ASR(中文 only)輸入文件夾路徑”里面填入你的切分好的文件夾路徑，點擊開啟離線批量 ASR。如果你要訓練的是日語或者英語，那么等一下就要手動轉錄文本打標，或者你也可以使用由另一位 UP 主劉悅提供的轉寫標注軟件：https://www.bilibili.com/video/BV1LW4y1w76v，下載地址：https://pan.baidu.com/s/1OMXwY4dYiKwcYTUP223m_w?pwd=v3uc，不過這樣打標出來的文件每行前面缺少一段音頻文件路徑比如：E:Bert-Vits2_Audio_Toolwavs/ 這樣的，一鍵加上去就行，具體百度，很簡單

轉錄標注完的文件所在的文件夾的路徑為 GPT-SoVITS-betaoutputasr_opt

PS：如果這一步出現(xiàn)報錯，一般是你沒設置虛擬內存，或者虛擬內存設置的不夠大，請調大一點，如何設置虛擬內存請百度

0d. 1. 關鍵來了，看好這里，這個步驟是打標，打標一定要打好，我們先在紅框里面輸入.list 文件地址，注意是這個.list 文件的地址，不是文件夾地址！然后點擊“是否開啟打標 WebUI”前面的框框，等待一下會彈出來一個界面

2. 在這個界面我們可以對于識別出來的文本進行手動的修正，你要做的就是把錯誤的文本改成正確的，并且一定要加上合適的標點符號，其中如果有句子出現(xiàn)了笑聲這種不能識別成文字的語氣詞，先點擊這個句子后面的 Yes 前的框框，然后點擊界面上的 ”Delete Audio” 選項，注意刪除句子前請務必確保你保存了文件，保存方式為先點擊界面上方的 ”Save File” 按鈕，然后點擊左上方的 ”Submit Text” 按鈕，這兩個都點了才算保存，只點一個不生效！

3. 在修正完第一個界面的句子之后請先保存，然后再點擊右上角的 ”Next Index” 按鈕到下一頁繼續(xù)進行修正以及刪除，如果想回到上一頁點擊 ”Previous Index” 按鈕就行，如果想切換為黑色主題，點擊界面最下方的 ”Dark Theme” 按鈕就行，全部修正并且保存完成之后就能進行下一步了，進行下一步之前，記得先把框框里面的勾去掉，修正完成的文件一般都保存在 GPT-SoVITS-betaoutputasr_opt 下 PS：打標過程請記住一個原則：寧缺毋濫，不要把有噪音，有笑聲的片段留著不刪除，這種片段極其有可能導致你訓練結果很不好看

1A. 點擊最開始彈出的界面上面的 ”1-GPT-SoVITS-TTS” 進入這個步驟，首先填寫模型名，一定不能填中文，填英文就好，然后填好“文本標注文件”的路徑，一般為 GPT-SoVITS-betaoutputasr_optxxx.list 文件，之后填“訓練集音頻文件目錄”，一般為 GPT-SoVITS-betaoutputslicer_opt，都填完之后點擊最下面的“一鍵三連”按鈕，等待一小會，這時可以在控制臺看到進度，顯示完成之后進入下一個步驟

1B. 這里又要敲黑板了，這個也是重點部分，這個步驟就是訓練，訓練過程分為 SoVITS 訓練和 GPT 訓練，其中 SoVITS 比較慢，它的輪數(shù)不建議設置過多，多了容易出現(xiàn)過擬合現(xiàn)象，導致電音什么的，至于 GPT 訓練，這個蠻快的，也不用訓練太多輪，特別要注意的就是每張顯卡的 batch_size 值，這個值是按照你的顯卡顯存 / 2 來算的，比如 6G 的顯存這里就推薦填 3，至于怎么看顯存，文章開頭就告訴你了，都填好之后，先點擊 ” 開啟 SoVITS 訓練 ”，訓練完成后再點擊 ” 開啟 GPT 訓練 ”，控制臺可以看到進度，報錯了請調低 batch_size 值，這個值也不是越高越好的，兩次訓練都完成了就進行最后一步了

PS：這里要引入一個重要概念：步數(shù)，步數(shù) = 訓練輪數(shù) *（你最終篩選出來的音頻數(shù)量 /batch_size 值），這個是針對 SoVITS 模型來說的，訓練步數(shù)不能過高，否則會出現(xiàn)過擬合，一般最多 10000 步，你篩選出來的音頻越多，步數(shù)就越多，在你訓練完成之后，你的模型名稱結尾會有 ”exx_sxxxx” 這種字樣，”exx” 中的 ”xx” 就是代表輪數(shù)，”sxxxx” 中的 ”xxxx” 就是代表步數(shù)

1C. 1. 這是最后一個步驟，這個步驟要先點擊 ” 刷新模型路徑 ”，然后在 GPT 模型列表和 SoVITS 模型列表里面選擇模型，一般就選輪數(shù)最多的，之后點擊 ” 是否開啟 TTS 推理 WebUI” 的框框，等待一會彈出新的窗口

2. 在彈出來的這個界面，我們要先上傳參考音頻，注意這個參考音頻非常重要，等一會生成的音頻文件的語氣和語速還有音色都會最接近這個參考音頻因此你要按照你等一會想生成的句子來上傳參考語句，這個也是可以隨時換的，效果不好換一個就行，一般第一次用你就上傳一個之前切割好了的音頻文件就行，這時參考文本你可以在 GPT-SoVITS-betalogs 模型名稱 2 -name2text.txt 里面找到

3. 上傳完參考音頻后填寫需要合成的目標文本就行，中文英語日語都能填，需要合成的語種純中文就填中文，純英文就填英文，純日語就填日文，中英混合填中文，日英混合填日文，中日暫時不支持，畢竟日文和中文中都有相同的漢字并且讀音不同，這里填寫文本一次最好不要填太多，要少量多次，不然就有可能漏字，填完之后點擊合成語音，生成速度一般都蠻快的，大概是文字內容字數(shù)的 1 / 2 秒，重要的是如果你覺得效果不太好，可以在上方的 GPT 和 SoVITS 模型列表里面切換模型，就算是相同的模型，每次生成的效果也是不一樣的，如果不滿意可以多試幾次

使用教程就此結束，下面是分享模型的教程：

你生成的 SoVITS 模型就在 GPT-SoVITS-betaSoVITS_weights 文件夾下，你生成的 GPT 模型就在 GPT-SoVITS-betaGPT_weights 文件夾下，你可以選擇這兩個模型的合適的輪數(shù)，并且附上參考音頻和文本進行壓縮打包就能分享給別人了

關于報錯，先看一下白菜工廠 1145 號員工寫的報錯合集再提問吧：https://www.yuque.com/baicaigong … 1e/pgah3gvetrdy8ryt，如果感覺有用，可以點一下文章下面的“有用”按鈕，點這個可以增加推薦指數(shù)讓更多人看到

正文完

AI音色克隆軟件

發(fā)表至：電腦軟件精品軟件

2024-02-02

0

轉載說明：本站提供的一切軟件、教程、電子書、視頻、圖片、音樂、文字以及所有內容信息僅供個人學習、研究或欣賞；不得將上述內容用于商業(yè)或者非法用途，否則，一切后果請用戶自負。本站信息來自網(wǎng)友分享及網(wǎng)絡收集整理，版權爭議與本站無關。您必須在下載后的24個小時之內，從您的電腦或手機中徹底刪除上述內容。如果您喜歡相關內容信息，請支持正版，進行購買注冊，以得到更好的正版服務。我們非常重視版權問題，如有侵權請郵件與我們聯(lián)系處理。敬請諒解！侵刪請致信E-mail：tntwl@qq.com

Total Movie Converter v4.1.0.56 視頻轉換器

愛其意v1.1.2 一款免費的手機追劇、觀影APP

皮皮剪輯v5.0 安卓一鍵搬運、去重、抽幀、隨機特效、剪切助手

TapTap 雙擊背部v1.6.1

自動精靈v1.1.5 一款智能的自動點擊器

電視直播源有效性檢測工具

雷跳跳v1.0.3 去除軟件開屏廣告可自定義

掃描全能王v6.83.0高級版

公眾號文章封面圖提取下載器v1.0