極為簡略的介紹下當前計算機視覺的基本概念和基本的研究方向。
是什麼:使機器“看”的科學
- 是什麼(分類)
- 在哪兒(檢測、定位、分割)
- 直接從圖片資料產生知識
為什麼:視覺是人最主要的資訊輸入
- 70~80%資訊來自人眼
- 移動多媒體時代產生更多的是圖片和影片資料
- 圖片和影片價值沒有完全挖掘,屬於“暗資料”
- 圖片影片包含更多的資訊
基本任務
分為圖片和影片兩部分,主要羅列比較成熟熱門的幾個方向。
|
|
分類(Classification)
- 預測圖片的類別(What)
- 子任務
- 單標籤(Single-Label)
- 多標籤(Multi-Label)
- 粗粒度(Coarse-Grained)
- 細粒度(Fine-Grained)
- 典型應用:搜尋、分類
|
|
檢測(Detection)
- 定位物體位置(Where)
- 子任務
- D檢測
- 3D檢測
- 顯著性檢測
- 遙感檢測
- 典型應用:人臉檢測、汽車檢測
|
|
分割(Segmentation)
- 畫素級的內容理解和定位
- 子任務:
- 語義分割/例項分割
- Alpha Matting
- 3D分割
- 典型應用:換天、人像摳圖
|
|
影象生成(Generation)
|
|
- 透過演算法生成圖片
- 子任務
- 隨機生成
- 風格遷移
- 圖片合成
- 圖片翻譯
- 典型應用:卡通化、換臉、換裝
關鍵點定位(KeyPoint)
- 定點陣圖像中的關鍵畫素點
- 子任務
- 人臉關鍵點
- 人體關鍵點
- 手勢關鍵點
- 物體姿態估計
- 典型應用:人臉配準、手勢識別
|
|
影象恢復(Restoration)
- 蛻化影象生成高質量影象
- 子任務
- 超解析度
- 影象去噪
- 影象修補
- 去模糊
- 上色、去霧、去雨等
- 典型應用:拍照畫質增強、老照片修復
|
|
影片
影片跟蹤(Tracking)
- 跟蹤影片指定物體
- 子任務
- 單目標跟蹤
- 多目標跟蹤
- 典型應用:自動駕駛、安防監控
|
|
影片識別(Video Recognition)
- 識別影片中的特定行為
- 子任務
- 人體行為識別
- 事件識別
- 典型應用:監控、安防
|
|
影片摘要(Video Summarization)
- 提取有意義(精彩)的片段
- 子任務
- 精彩鏡頭
- 縮圖
- 典型應用:影片動態封面
|
|
影片插幀(Video Interpolation)
- 合成任意時刻的影片幀,從而最佳化解決影片中卡頓、抖動等畫
- 典型應用:慢動作影片製作
|
|
影片其他任務
影片HDR
|
軌跡分析 |
影片壓縮 |
影片防抖 |
一些典型的垂直應用
- 人臉
- 人臉檢測/跟蹤
- 關鍵點定位
- 姿態估計
- 人臉識別
- 人臉聚類
- 性別識別
- 年齡估計
- 表情識別
- 活體檢測
- 閉眼檢測
- 口罩檢測
- 人臉質量評估
- 文件
- 印刷體檢測/識別(OCR)
- 手寫體檢測/識別(HCR)
- 自然場景識別(NCR)
- 文件佈局識別
- 文件重建
- 票證類識別
- 表格識別
- 人體
- 人體檢測
- 姿態估計
- 行人重識別
- 行人追蹤
- 手勢識別
- 人流量統計/人群密度分析
- 動作行為識別
- 人像分割
- 屬性分析
未來趨勢
- 影片
- 3D(VR/AR)
- 多模態:融合文字、音訊、視覺資訊
- 細粒度理解(分割、系列度分類)
- 大規模資料預訓練(例如:GPT-3)