AI-2電腦視覺(CV)模型

作者:

分類:
  • YOLOv8(Ultralytics)→ 即時物件偵測,高效能且輕量。
  • SAM(Segment Anything Model)(Meta)→ 任意圖像分割模型。
  • DINOv2(Meta)→ 無需標註的大規模影像辨識模型。
  • Whisper(OpenAI)→ 高準確度的語音轉文字(ASR)。
  • DeepLabV3+(Google)→ 影像分割模型,廣泛用於醫療與自動駕駛。
  • YOLOv8(Ultralytics)→ 即時物件偵測,高效能且輕量。
  • SAM(Segment Anything Model)(Meta)→ 任意圖像分割模型。
  • DINOv2(Meta)→ 無需標註的大規模影像辨識模型。
  • Whisper(OpenAI)→ 高準確度的語音轉文字(ASR)。
  • DeepLabV3+(Google)→ 影像分割模型,廣泛用於醫療與自動駕駛。

1. 影像分類(Image Classification)

用途:識別圖像中的主要對象或場景類別(例如:貓、風景、疾病特徵)。

  • 應用場景
    • 醫療診斷:自動辨識X光片中的腫瘤或骨折(如 CheXNet)。
    • 零售:商品自動分類(如電商平臺的圖像搜索)。
    • 農業:監測作物健康狀態(如 PlantVillage 模型)。
  • 代表性模型
    • ViT(Vision Transformer):基於 Transformer 的高精度分類模型。
    • ResNet:經典的深度卷積神經網絡,廣泛用於分類任務。

2. 物件檢測(Object Detection)

用途:定位圖像中多個物體的位置並分類(輸出邊界框和標籤)。

  • 應用場景
    • 自動駕駛:辨識行人、車輛、交通標誌(如 Tesla 的 Autopilot 系統)。
    • 安防監控:偵測異常行為或危險物品(如機場安檢)。
    • 工業檢測:產品瑕疵檢測(如半導體製造)。
  • 代表性模型
    • YOLO系列(YOLOv8):輕量級且實時性強,適用於嵌入式設備。
    • EfficientDet:平衡精度與效率的檢測框架。

3. 影像分割(Image Segmentation)

用途:將圖像分割為多個區域,精確標註物體輪廓(像素級別)。

  • 子任務
    • 語義分割:區分不同類別的區域(如道路、建築物)。
    • 實例分割:區分同一類別的不同個體(如人羣中的每個人)。
  • 應用場景
    • 醫療影像:標記腫瘤或器官(如 nnUNet)。
    • 虛擬實境(VR):背景分離與場景重建。
    • 衛星影像:土地利用分類(如森林、城市)。
  • 代表性模型
    • SAM(Segment Anything Model):可分割任意物體的通用模型。
    • DeepLab系列(DeepLabV3+):高精度語義分割模型。

4. 圖像生成與編輯(Image Generation & Editing)

用途:生成新圖像或修改現有圖像內容。

  • 應用場景
    • 藝術創作:生成風格化圖像(如 Stable Diffusion)。
    • 廣告設計:自動替換背景或添加元素。
    • 老照片修復:去除噪點、補全缺失區域(如 GFPGAN)。
  • 相關技術
    • GAN(生成對抗網絡):如 StyleGAN 用於人臉生成。
    • Diffusion模型:如 DALL·E 3 生成高解析度圖像。

5. 影片分析(Video Analysis)

用途:理解影片中的動態內容(動作、事件、時序關係)。