車載視覺感測器概述
相對於其他感測器,攝像頭的價格相對低廉,技術成熟,有著識別車道線、車輛、交通標誌等物體的基礎能力,在汽車高階輔助駕駛市場已被規模使用。
目前使用攝像頭的ADAS功能有:自適應巡航ACC、車道偏離預警LDW、車道保持輔助LKA、前碰撞預警FCW、自動緊急制動AEBS、交通標誌識別TSR、智慧遠光控制IHC、自動泊車AP、行人監測系統PDS、360環視系統、倒車影相系統、盲點探測BSD、駕駛員疲勞檢測DSM、全景泊車系統SVC等。
某車型前視攝像頭
車載視覺感測器技術定義:簡單而言,就是用攝像頭代替人眼對目標(車輛、行人、交通標誌)進行識別、跟蹤和測量,感知到汽車周邊的障礙物以及可駕駛區域,理解道路標誌的語義,從而對當下的駕駛場景進行完整描述。
車載視覺感測器優勢:攝像頭在技術層面相對成熟,具有較高的影象穩定性、高傳輸能力和抗干擾能力,且單個攝像頭成本已降到200元以下,因此單車可以配備6-8個攝像頭覆蓋不同角度,目前國內前後裝攝像頭需求量已超過8000萬個。
某車型360環視介面
車載視覺感測器劣勢:攝像頭對光線的依賴使其無法全天時(如夜晚)、全路況(如隧道)工作,需要其他感測器作為補充。
車載視覺感測器分類:依據不同的影象檢測原理,可分為單目攝像頭和雙目攝像頭,根據晶片型別又可分為CCD攝像頭和CMOS攝像頭,等等。
車載視覺感測器的功能:感知能力,定位能力。
感知能力:障礙物識別、車道線識別、交通標誌識別、交通訊號燈識別、可通行空間識別;
定位能力:視覺SLAM技術,根據提前建好的地圖和實時的感知結果做匹配,獲取當前無人車的位置。視覺SLAM需要解決的最大問題在於地圖的容量過大,稍微大一點的區域,就對硬碟的容量要求很高。如何製作出足夠輕量化的地圖,成為SLAM技術商業化的關鍵。
車載視覺感測器的關鍵效能:
1、微光效能:微光效能對於汽車影像系統是相當重要的,卓越的微光效能可提高在夜間等光線很暗的情況的行車安全。影象感測器廠商都以“在暗處能看見”為目標。
2.高動態範圍(HDR):HDR 是汽車影像系統應用的另一個重要特性,確保攝像機可在寬範圍的光線 、黑暗和高光照對比情況下清楚地呈現場景細節,提高影象資訊的精確度從而提升安全性。
3.廣角魚眼畸變校正(DEWARP):廣角魚眼鏡頭用於車載影像具有寬廣視野的優勢,但採集到的影象資訊會產生一定程度的失真,採用 DEWARP 技術可對廣角魚眼鏡頭所產生的影片影象失真進行實時校正,將影象復原展平。
4.影象疊加:影象疊加指透過影象感測器與影象處理輔助晶片結合使用,實現影象的延伸、縮放、右視、兩板左 / 右視、三聯式畫面及倒車動態輔助線。影象疊加功能可以更好地輔助駕駛員看清周圍環境,減少事故發生率。
單目攝像頭
單目攝像頭由一個攝像機+一個鏡頭組成。
奧迪單目
優點:演算法成熟度高;
缺點:視角問題(短焦距視野廣看得近,長焦距看得遠視角小)、測距精度問題。
單目攝像頭有一個非常重要的功能就是障礙物分類,我們都知道,攝像頭獲得的是照片,但是怎麼讓照片和照片中的物體分類對應起來呢?此時就需要引入機器學習了。
20世紀80年代末期,用於人工神經網路的反向傳播演算法(也叫Back Propagation演算法或者BP演算法)的發明,給機器學習帶來了希望,掀起了基於統計模型的機器學習熱潮。這個熱潮一直持續到今天。人們發現,利用BP演算法可以讓一個人工神經網路模型從大量訓練樣本中學習統計規律,從而對未知事件做預測。這種基於統計的機器學習方法比起過去基於人工規則的系統,在很多方面顯出優越性。這個時候的人工神經網路,雖也被稱作多層感知機(Multi-layer Perceptron),但實際是種只含有一層隱層節點的淺層模型。
2006年,加拿大多倫多大學教授、機器學習領域的泰斗Geoffrey Hinton和他的學生RuslanSalakhutdinov在《科學》上發表了一篇文章,開啟了深度學習在學術界和工業界的浪潮。這篇文章有兩個主要觀點:1)多隱層的人工神經網路具有優異的特徵學習能力,學習得到的特徵對資料有更本質的刻畫,從而有利於視覺化或分類;2)深度神經網路在訓練上的難度,可以透過“逐層初始化”(layer-wise pre-training)來有效克服,在這篇文章中,逐層初始化是透過無監督學習實現的。與人工規則構造特徵的方法相比,利用大資料來學習特徵,更能夠刻畫出資料的豐富內在資訊。
深度學習的實質:是透過構建具有很多隱層的機器學習模型和海量的訓練資料,來學習更有用的特徵,從而最終提升分類或預測的準確性。因此,“深度模型”是手段,“特徵學習”是目的。
深度學習的不同在於:1)強調了模型結構的深度,通常有5層、6層,甚至10多層的隱層節點;2)明確突出了特徵學習的重要性,也就是說,透過逐層特徵變換,將樣本在原空間的特徵表示變換到一個新特徵空間,從而使分類或預測更加容易。
攝像機的成像圖是透檢視,越遠的物體成像越小。近處物體,需要用幾百個甚至上千個畫素點描述;而處於遠處的同一物體,可能只需要幾個畫素點即可描述出來,這種特性導致,越遠的地方,一個畫素代表的距離越大,因此對單目來說,物體越遠,測距精度越低。
雙目攝像頭
單目測距存在缺陷,雙目攝像機應運而生。相近的兩個攝像機拍攝物體時,會得到同一物體在攝像機的成像平面的畫素偏移量。有了畫素偏移量、相機焦距和兩個攝像機的實際距離這些資訊,根據數學換算即可得到物體的距離。
雙目測距原理
根據雙目測距原理應用在影象上每一個畫素點時,即可得到影象的深度資訊。
優點:雙目能得到較高精度的測距結果和提供影象分割的能力;
缺點:視角問題,對兩個鏡頭的安裝位置和距離要求較多,給相機的標定帶來麻煩,對攝像頭的一致性要求非常高。
三目攝像頭
由於單目和雙目都存在某些缺陷,因此廣泛應用於無人駕駛的攝像機方案為三目攝像機。三目攝像機其實就是三個不同焦距的單目攝像機的組合。
採埃孚三目相機
根據焦距不同,每個攝像機所感知的範圍也不盡相同。三個攝像頭的感知範圍由遠及近,分別為前視窄視野攝像頭(最遠感知250米)、前視主視野攝像頭(最遠感知150米)及前視寬視野攝像頭(最遠感知60米)。
由於三目攝像機每個相機的視野不同,因此近處的測距交給寬視野攝像頭,中距離的測距交給主視野攝像頭,更遠的測距交給窄視野攝像頭。這樣一來每個攝像機都能發揮其最大優勢,可以得到較好的測距精度。
三目攝像機能較好地彌補感知範圍的問題。但是需要同時標定三個攝像機,因而工作量更大。其次軟體部分需要關聯三個攝像機的資料,對演算法要求也很高。
魚眼相機
之前提到的三款攝像機它們所用的鏡頭都是非魚眼的,環視攝像機的鏡頭是魚眼鏡頭,而且安裝位置是朝向地面的。
魚眼鏡頭是一種焦距為16mm或更短的並且視角接近或等於180°的鏡頭。 它是一種極端的廣角鏡頭,“魚眼鏡頭”是它的俗稱。為使鏡頭達到最大的攝影視角,這種攝影鏡頭的前鏡片直徑很短且呈拋物狀向鏡頭前部凸出,與魚的眼睛頗為相似,“魚眼鏡頭”因此而得名。
魚眼鏡頭屬於超廣角鏡頭中的一種特殊鏡頭,它可以獲得較大視野,但是圖形畸變嚴重。透過標定值,進行影象的投影變換,可將影象還原成俯檢視的樣子。之後對四個方向的影象進行拼接,再在四幅影象的中間放上一張車的俯檢視,即可實現從車頂往下看的效果。
事件驅動型攝像頭
在傳統的視覺領域,相機傳回的資訊是同步的,所謂同步,就是在某一時刻t,相機會進行曝光,把這一時刻所有的畫素填在一個矩陣裡回傳,一張照片就誕生了。
傳統攝像頭為取悅人眼而存在,應用於機器視覺並不經濟。時間驅動型攝像頭DVS採用新型的仿生原理影象感測器晶片,全時全速追蹤運動物體,有效過濾冗餘背景資訊,輸出運動物體的結構化場景資訊,實現感知端預處理,減輕後端訊號處理演算法的複雜度,並使用更低的計算資源處理器來實現實時處理能力。
事件驅動型攝像頭的工作機制是,當某個畫素所處位置的亮度值發生變化時,相機就會回傳一個具有四組資料的事件,其中前兩項為事件的畫素座標,第三項為事件發生的時間戳,最後一項取值為極性(polarity)0、1,(或者-1、1)代表亮度是由低到高還是由高到低,也常被稱作Positive or Negtive Event,又被稱作On or Off Event。就這樣,在整個相機視野內,只要有一個畫素值變化,就會回傳一個事件,這些所有的事件都是非同步發生的(再小的時間間隔也不可能完全同時),所以事件的時間戳均不相同,由於回傳很簡單,所以和傳統相機相比,它具有低時延的特性,可以捕獲很短時間間隔內的畫素變化。
DVS的特點:無固定觀察頻率、響應速度靈敏、脈衝式資訊讀取和輸出、畫素電路間並行處理、主動特徵提取,無多餘背景資訊。自動駕駛、尤其是L4、L5高度自動駕駛,面臨大量對實時和高速處理要求高、算力不可達的場景,以及一些邊緣性場景(Corner Case),基於上述原理和核心技術,DVS動態視覺感測器有能力解決。比如特斯拉Model S將卡車誤判為白雲、Uber自動駕駛車輛夜晚撞死橫穿馬路的行人、以及自動駕駛車輛進出隧道光強變化等場景。
DVS技術在許多領域將有重要應用,除運用自動駛ADAS系統中外,還可應用於機器人和無人機防撞系統、體感和人機互動工業過程控制、爆炸/碰撞分析、安防監控、物聯網、高速運動物體軌跡記錄與實時分析等。