你的購物車目前是空的!
AI4-語音 & 聲音 AI
- Whisper(OpenAI)→ 語音轉文字(ASR)準確度極高。
- VALL-E(Microsoft)→ 只需幾秒鐘樣本即可克隆聲音。
- Bark(Suno AI)→ 能夠生成帶情感的語音和音效。
- RVC(Retrieval-Based Voice Conversion)→ 訓練個人聲音並進行轉換。
- Coqui TTS(開源)→ 高品質的文字轉語音模型。
- WaveNet(DeepMind):Google 的文字轉語音基礎技術。
- Tacotron 2(Google):端到端 TTS 模型。
- Voicebox(Meta):多語言語音生成與編輯工具。
- StyleTTS 2(開源):強調自然語調與情感表達的 TTS。
- Voice Cloning Toolkit(OpenVINO):Intel 的開源聲音克隆工具。
1. 語音辨識(ASR, Automatic Speech Recognition)
用途:將人類語音轉換為文字,實現人機語音交互。
- 應用場景:
- 即時字幕生成:會議記錄、影片字幕(如 Whisper 支援多語言)。
- 客服對話轉錄:分析客戶通話內容以優化服務(如 Amazon Transcribe)。
- 醫療聽寫:醫生口述病歷自動轉為結構化文字(如 Nuance Dragon)。
- 司法筆錄:法庭審訊或警察詢問的自動記錄。
- 代表模型:
- Whisper(OpenAI):高準確度、支援 99+ 語言。
- DeepSpeech(Mozilla):開源語音辨識框架。
- Wav2Vec 2.0(Meta):自監督學習模型,適用低資源語言。
2. 語音合成(TTS, Text-to-Speech)
用途:將文字轉換為自然流暢的語音輸出。
- 應用場景:
- 有聲書製作:自動生成書籍朗讀版本(如 Google Cloud Text-to-Speech)。
- 導航與公共廣播:GPS 導航提示、車站到站播報。
- 視障輔助工具:螢幕閱讀器語音輸出(如 NVDA 整合 TTS)。
- 虛擬角色配音:遊戲 NPC 或動畫角色的動態語音生成。
- 代表技術:
- WaveNet(DeepMind):基於深度學習的擬真語音合成。
- Tacotron 2(Google):端到端的神經 TTS 模型。
- VITS(開源):結合變分推理與對抗訓練的高品質合成。
3. 聲音克隆與語音轉換(Voice Cloning & Conversion)
用途:複製特定人聲或修改語音特徵(如性別、年齡、口音)。
- 應用場景:
- 影視後製:替換演員配音或修復老電影音軌(如 Resemble AI)。
- 個性化助手:自定義語音助理的聲音(如「用我的聲音唸新聞」)。
- 語言本地化:保留原說話者音色但轉換語言(如跨語種播客)。
- 無障礙溝通:為失語症患者復刻原有聲音(如 Voice Keeper)。
- 代表模型:
- VALL-E(Microsoft):3 秒樣本即可克隆聲音。
- RVC(Retrieval-Based Voice Conversion):開源聲音轉換工具。
- So-VITS-SVC:實時語音轉換的熱門開源項目。
4. 情感語音合成(Emotional Speech Synthesis)
用途:生成帶有情感(喜悅、悲傷、憤怒)或特定語調的語音。