AI3-生成式 AI（圖片、影片、音樂）

用途：圖像、影片、音樂、3D 物件的生成。

用途：從文字、草圖或其他圖像生成全新視覺內容，或修改現有圖像。

應用場景：
- 藝術創作：生成風格化插畫、概念設計（如 Midjourney 的奇幻風格作品）。
- 廣告與行銷：快速產生產品宣傳圖、海報或社交媒體素材（如 DALL·E 3 的精準文字轉圖像）。
- 圖像修復：修復老照片、去模糊、補全缺失區域（如 GFPGAN 用於人臉修復）。
- 虛擬試衣：生成服裝穿戴效果（如電商平臺的 AI 試衣間）。
- 醫學影像合成：生成訓練用的合成醫療影像（如腫瘤模擬）。
代表模型：
- Stable Diffusion 系列：開源模型，支援精細控制（如 ControlNet）。
- DALL·E 3（OpenAI）：與 ChatGPT 整合，理解複雜提示詞。
- StyleGAN（NVIDIA）：生成高逼真人臉或藝術風格圖像。

用途：生成動態影片內容或修改現有影片（如轉換風格、擴增片段）。

應用場景：
- 短影音創作：將文字或圖像轉換為短影片（如 Runway Gen-2 生成動畫）。
- 電影與特效：自動生成場景、替換背景（如 Sora 的長鏡頭影片生成）。
- 廣告動態化：靜態產品圖轉化為動態廣告（如 Pika 的靈活風格調整）。
- 教育內容：生成歷史事件模擬或科學演示動畫。
- 深度偽造（Deepfake）：替換影片中的人物臉部或語音（需注意倫理風險）。
代表模型：
- Sora（OpenAI）：生成高連貫性、物理合理的長影片。
- Stable Video Diffusion：開源影片生成框架，支援多種解析度。
- Pika Labs：主打風格化與用戶友好介面。

用途：創作原創音樂、配樂，或生成特定音效。

應用場景：
- 配樂製作：為影片、遊戲生成背景音樂（如 Mubert 的即時配樂）。
- 獨立音樂人創作：生成旋律、和弦進程或歌詞（如 Suno AI 的完整歌曲生成）。
- 音效設計：為影視或遊戲生成環境音、武器聲等（如 Stable Audio）。
- 個性化鈴聲：根據用戶偏好生成獨特鈴聲。
代表模型：
- MusicGen（Meta）：基於文字提示生成音樂片段。
- Jukebox（OpenAI）：生成帶人聲的完整歌曲（現已較少更新）。
- Riffusion：透過「文字→頻譜圖→音樂」的創新方法生成音訊。

用途：生成三維模型、虛擬場景或動態 3D 內容。

應用場景：
- 遊戲開發：快速生成角色、建築或地形（如 GET3D 生成高品質 3D 網格）。
- 虛擬實境（VR）：構建沉浸式環境（如 NeRF 從 2D 圖像重建 3D 場景）。
- 工業設計：生成產品原型（如傢俱、汽車的 3D 模型）。
- 電影預製：為分鏡腳本生成 3D 預覽。
代表技術：
- DreamFusion：透過文字提示生成 3D 模型（使用 2D Diffusion 模型引導）。
- Point-E（OpenAI）：從文字生成 3D 點雲模型。

用途：結合不同數據類型（如文字+圖像+聲音）生成混合內容。

應用場景：
- 互動式藝術：用戶語音輸入生成同步的視覺與音樂（如 Google 的 Chimera Painter）。
- 多媒體行銷：一段文字同時生成圖文、影片和配樂的完整方案。
- 教育互動：輸入歷史事件描述，生成動畫+旁白+背景音樂的教學內容。
代表模型：
- Flamingo（DeepMind）：處理圖文交互的少樣本生成。
- KOSMOS-2（Microsoft）：理解圖像中的空間關係並生成描述。

用途：根據用戶輸入即時生成客製化內容。

應用場景：
- 社交媒體濾鏡：實時生成動漫風格自拍（如 Snapchat 的 AI 濾鏡）。
- 虛擬偶像：驅動虛擬角色的外型、動作與聲音（如 初音未來 的 AI 進階版）。
- 遊戲 NPC：動態生成角色的對話、表情與行為（如 Inworld AI 的 NPC 引擎）。

生成式 AI 正從「實驗室玩具」轉變為 生產力工具，未來將更深度整合到影視、遊戲、設計、教育等產業，同時也需解決倫理、法律與技術可靠性的挑戰。