AI4-語音 & 聲音 AI

作者:

分類:
  • Whisper(OpenAI)→ 語音轉文字(ASR)準確度極高。
  • VALL-E(Microsoft)→ 只需幾秒鐘樣本即可克隆聲音。
  • Bark(Suno AI)→ 能夠生成帶情感的語音和音效。
  • RVC(Retrieval-Based Voice Conversion)→ 訓練個人聲音並進行轉換。
  • Coqui TTS(開源)→ 高品質的文字轉語音模型。
  • WaveNet(DeepMind):Google 的文字轉語音基礎技術。
  • Tacotron 2(Google):端到端 TTS 模型。
  • Voicebox(Meta):多語言語音生成與編輯工具。
  • StyleTTS 2(開源):強調自然語調與情感表達的 TTS。
  • Voice Cloning Toolkit(OpenVINO):Intel 的開源聲音克隆工具。

1. 語音辨識(ASR, Automatic Speech Recognition)

用途:將人類語音轉換為文字,實現人機語音交互。

  • 應用場景
    • 即時字幕生成:會議記錄、影片字幕(如 Whisper 支援多語言)。
    • 客服對話轉錄:分析客戶通話內容以優化服務(如 Amazon Transcribe)。
    • 醫療聽寫:醫生口述病歷自動轉為結構化文字(如 Nuance Dragon)。
    • 司法筆錄:法庭審訊或警察詢問的自動記錄。
  • 代表模型
    • Whisper(OpenAI):高準確度、支援 99+ 語言。
    • DeepSpeech(Mozilla):開源語音辨識框架。
    • Wav2Vec 2.0(Meta):自監督學習模型,適用低資源語言。

2. 語音合成(TTS, Text-to-Speech)

用途:將文字轉換為自然流暢的語音輸出。

  • 應用場景
    • 有聲書製作:自動生成書籍朗讀版本(如 Google Cloud Text-to-Speech)。
    • 導航與公共廣播:GPS 導航提示、車站到站播報。
    • 視障輔助工具:螢幕閱讀器語音輸出(如 NVDA 整合 TTS)。
    • 虛擬角色配音:遊戲 NPC 或動畫角色的動態語音生成。
  • 代表技術
    • WaveNet(DeepMind):基於深度學習的擬真語音合成。
    • Tacotron 2(Google):端到端的神經 TTS 模型。
    • VITS(開源):結合變分推理與對抗訓練的高品質合成。

3. 聲音克隆與語音轉換(Voice Cloning & Conversion)

用途:複製特定人聲或修改語音特徵(如性別、年齡、口音)。

  • 應用場景
    • 影視後製:替換演員配音或修復老電影音軌(如 Resemble AI)。
    • 個性化助手:自定義語音助理的聲音(如「用我的聲音唸新聞」)。
    • 語言本地化:保留原說話者音色但轉換語言(如跨語種播客)。
    • 無障礙溝通:為失語症患者復刻原有聲音(如 Voice Keeper)。
  • 代表模型
    • VALL-E(Microsoft):3 秒樣本即可克隆聲音。
    • RVC(Retrieval-Based Voice Conversion):開源聲音轉換工具。
    • So-VITS-SVC:實時語音轉換的熱門開源項目。

4. 情感語音合成(Emotional Speech Synthesis)

用途:生成帶有情感(喜悅、悲傷、憤怒)或特定語調的語音。