機器之心專欄
作者:鑑智機器人
2021年10月25日,特斯拉市值站上萬億美金,成為美股第五家市值破萬億的企業,幾乎超過美股全部主要車企市值的總和。特斯拉在資本市場的成功,刺激著投資者的神經,也促使市場再一次將視野聚焦在自動駕駛領域,進一步思考自動駕駛技術路線的發展方向。
本文希望從技術角度客觀分析和回答以下問題:自動駕駛等級提升需要解決什麼關鍵問題?怎樣的自動駕駛方案更加具有實現大規模無人駕駛的可能性?自動駕駛作為現實世界的AI問題,難點在哪裡?以上問題促使我們理性客觀地思考該如何去實現自動駕駛——這一承載了太多期望、不斷挑撥大眾神經的技術生產力變革,從而推動行業冷靜且務實地向前發展。
1.自動駕駛的眼睛:基於高質量影象成像的視覺雷達
隨著自動駕駛等級的不斷提高,控制權和責任主體逐漸從駕駛員轉換為車輛,智駕系統的定位也將由擴增人的感知能力到接管車輛自主駕駛。由此對智駕系統之於物理世界環境理解的要求完全不同,將由對物理世界部分資訊的提取提升到事無鉅細的全面感知與理解。而這種變化,首要就是對2D影象成像與3D建模的越來越高的要求:1)更高解析度和環境適應度的2D影象成像;2)對物理世界準確且稠密的實時3D建模。
Camera是自動駕駛感知物理世界最重要的感測器,其解析度的提升將極大的提升影象的資訊承載量,使得自動駕駛系統能夠感知更加細節和更遠距離的行車環境。當前主流自動駕駛前視攝像頭的解析度已經到800萬畫素以上,而更高的解析度也是未來必然發生的事情。自動駕駛汽車面臨的是一個開放性的外部環境,除了解析度的提升,還需要提升自動駕駛在各種行車路況下的影象成像質量,比如不同的光線環境,傍晚、夜晚等,不同的氣候環境,雨雪霧天等。相對於傳統汽車應用的車載成像,自動駕駛對於車載成像質量的要求將極大提升,如何透過成像計算獲取更高質量的影象就成為一個要解決的關鍵性問題。
自動駕駛汽車在三維物理世界中執行,必然要求對物理世界進行更加深刻的三維理解。當前的高級別輔助駕駛在道路上不斷出現各種各樣的事故,這些事故的發生很大程度上是由於沒有識別到未被樣本庫所覆蓋的異形、非標等物體,比如一輛拉著一棵樹的貨車等,而這些corner case是無法被窮盡的。對於行車環境的實時稠密3D建模不僅可以識別異形和非標等物體,還能判斷路面坑窪與起伏,這無疑將大大提升自動駕駛的安全級別。當前自動駕駛的3D環境感知,主要依賴鐳射雷達等主動投射測量裝置,但其在解析度上遠低於Camera,也不具備顏色資訊。隨著深度學習的發展,單目深度估計、雙目立體視覺、SFM、MVS等問題已經可以被深度神經網路所建模,從而可以基於多目視覺透過AI的方法實時生成3D點雲,其視覺點雲天然與影象對齊,並且其解析度也能達到影象解析度的級別。因此,如何透過多目視覺實現高解析度的實時稠密3D建模,即視覺雷達,是另外一個要解決的關鍵性問題。
視覺感測器的資訊承載量極高,目前遠未被充分挖掘,但無論2D影象成像還是實時稠密3D建模都需要強有力的演算法和算力進行支撐,這需要演算法和算力進行協同設計。視覺感測器+算力+演算法的感測器計算模式,將更加本質的推動解決自動駕駛當前面臨的關鍵問題,即從2D和3D層面對物理世界進行事無鉅細的感知與理解。
鑑智機器人核心團隊擁有超過十年的影象處理、AI演算法和算力設計的行業經驗,將以視覺感測器為核心,透過解決車載ISP、視覺雷達等視覺感測器2D、3D成像的核心問題,打造更加強大的自動駕駛之眼,從而推動自動駕駛安全等級的提升。
1.1 從手機ISP到車載ISP
ISP(Image Signal Processor)是指透過一系列數字影象處理演算法完成對數字影象的成像處理。在攝像機成像的整個環節中,ISP負責接收感光元件的原始訊號資料,可以理解為整個攝像機影象輸出的第一步處理流程。ISP在提高影象質量、增強資料的一致性等方面有著極其關鍵的作用。
得益於智慧手機的發展和手機攝像頭畫素越來越高,手機ISP在過去幾年得到了快速的發展和進步,手機拍照和錄影的質量也越來越高,甚至到了驚豔的地步。比如在夜晚等場景,可以拍到比人眼看到的更清晰、光照更充足、色彩更豐富的照片;比如在進出隧道等光照變化劇烈的場景,也可以錄製出比人眼表現更穩定、更清晰的影片。這些效果除了源於手機攝像頭硬體上的升級,專門的AI ISP處理演算法和處理晶片也起到了至關重要的作用。
隨著自動駕駛對車載成像質量的階躍式提升需求,車載ISP,特別是針對駕駛場景最佳化的AI ISP處理演算法和處理晶片,將迎來爆發式的發展。AI在車載ISP整個流程中將變得越來越重要,特別是在降噪、去模糊、HDR等問題上,可以在夜晚、陽光直射、進出隧道等暗光、強光、高動態場景得到遠超人眼的成像效果,同時最大程度上解決由Sensor引起的噪點、模糊等問題。將AI計算前置在ISP計算Pipeline中,透過流式計算,使得ISP的計算Pipeline不被打斷,也將大大提升AI ISP的效能功耗比。
鑑智機器人擁有全鏈路的晶片級ISP IP的設計能力,將解決ISP特別是AI ISP在車載場景的核心問題,讓車載攝像頭成像更清晰,從而進一步提高視覺雷達點雲生成和影象語義感知等後續任務的準確性。
圖1:鑑智機器人擁有全鏈路的ISP演算法和演算法硬核化設計能力
1.2 從2D感知到視覺雷達
面對大規模自動駕駛,對3D點雲的資訊稠密程度、場景泛化性、效能可擴充套件性方面提出了更高的要求。基於視覺雷達,透過雙目或者多目立體視覺計算,產生實時稠密的3D點雲是更優的方式。
雙目立體視覺是機器視覺的一種重要形式,與人眼類似,它是基於視差原理,透過計算影象對應點間的位置偏差,來獲取物體三維幾何資訊的方法,和基於TOF、結構光原理的深度相機不同,它不對外主動投射光源,完全依靠拍攝的兩張圖片(彩色RGB或者灰度圖)來計算深度。
傳統的雙目立體匹配演算法針對弱紋理、反光等區域效果比較差,同時對於物體語義資訊利用比較少,演算法適用範圍具有侷限性,點雲效果上限比較明顯。隨著深度學習技術的發展,基於CNN、Cost Volume、Transformer的立體匹配演算法展現出來了極強的演算法效果和潛力。目前知名自動駕駛資料集KITTI上的立體匹配任務排名靠前的基本都是基於深度學習的演算法。基於深度學習的雙目立體匹配演算法對於計算晶片的AI算力提出了比較高的要求,對於研發模式也提出了新的要求,需要從傳統的雙目相機研發模式變成以AI為核心、軟硬結合、資料驅動的研發模式。
從雙目立體視覺更進一步,充分利用相機的運動資訊和多個相機間的幾何約束,透過相機姿態估計、深度估計、光流估計、MVS等演算法,以及任務之間互相監督的一系列自監督演算法,可以得到360度的點雲資料,也就是視覺雷達,從而形成與影象解析度相匹配的稠密點雲。同時,以攝像頭+算力+演算法為核心的視覺雷達,還具有產業鏈成熟可控、成本可控、器件穩定性有保證、滿足車規等優勢,更容易實現大規模前裝量產上車使用。
圖2:鑑智機器人視覺雷達Roadmap
2自動駕駛的大腦:全流程資料驅動的強單車智慧
自動駕駛的大腦負責從感知到決策的駕駛全流程,也是自動駕駛最複雜、最核心和難度最高的部分。傳統的以規則為核心的軟體1.0工程化系統,在可維護性、擴充套件性和進化性上都具有一定的侷限性。以AI和軟體2.0為核心,全流程資料驅動的感知、預測、規控演算法和強單車智慧的解決方案,無疑是實現大規模無人駕駛更可行的方案。
鑑智機器人核心團隊在AI演算法和應用、軟體2.0的基礎設施、資料驅動的大規模實踐上擁有豐富的經驗,將透過全流程資料驅動的自動駕駛大腦,建立強單車智慧,從而降低對外部基礎設施的依賴,更加利於自動駕駛的複製與推廣。
2.1 深度學習帶來的2D感知技術突破
感知是自動駕駛獲取資訊的第一步, 所謂感知是指透過攝像頭或其他感測器識別所看到的物體並理解該物體是什麼,這對自動駕駛是至關重要的環節。自動駕駛車輛首先是要識別車道線,然後還要識別紅綠燈、標誌牌,除此之外就是識別障礙物比如前後左右有沒有車輛,有沒有行人,才能夠進一步規劃行駛路線。
過去十年是人工智慧技術的黃金十年,深度學習改變了計算機視覺整個領域,也帶來了2D感知各個方向技術的突破。2D感知主要有影象分類、影象(物體)識別、細粒度識別(人臉識別)等方向,所採用的技術也從最早的模板匹配、線性分類到現在所廣泛使用的深層卷積神經網路,再到最近重新整理各大視覺任務榜單的Transformer。隨著硬體計算能力的不斷提升、演算法正規化的不斷改進、可利用資料資源的不斷增長,基於攝像頭的2D感知已經成為了乘用車智慧駕駛的主流方案,同時也成為了很多解決方案的核心差異點。
鑑智機器人核心團隊在國內最早基於深度學習在2D視覺感知各個方向開展系統性研究和大規模落地應用,在眾多全球最具影響力的2D感知AI比賽和評測中獲得冠軍,發表頂級會議和期刊論文幾十餘篇,在多個業務領域實現了人工智慧2D感知技術的大規模應用落地。
(a)目標檢測、人體骨骼點 |
(b)全景分割 |
(c)360°視覺感知 |
(d)單目測距 |
圖3:鑑智機器人在2D感知方向具有世界一流的核心能力
2.2 從2D感知到4D感知
如果說2D感知還是在平面上檢測、識別、分割物體,那麼加入深度資訊後,基礎的2D感知即轉化為3D感知。如果進一步在3D的基礎上加入時間這一維度,進化得到的則是4D感知。在自動駕駛領域,4D感知可以完整且連續的探測車輛周圍的物體。
基於深度學習和三維視覺技術不斷髮展,隨著Cost Volume、Optical Flow、differentiable Homography、Transformer等技術的成熟,以及多感測器融合、眾包重建、稠密重建、自動標註等方向不斷髮展,可以高效率的提供高質量、大規模的4D場景資料,端到端的4D感知正在成為技術趨勢。相比於傳統的2D感知+後融合的方案,端到端的4D感知擁有很多優勢,可以解決測距抖動較大、多攝像頭拼接不準確、時序結果不穩定、迭代效率較低等一系列問題。
更進一步,基於端到端的4D感知,可以進行更好的4D預測,一方面可對於交通參與者進行更優的運動軌跡預測,從而實現效能更加優異的規劃控制;另一方面可對於道路行駛區域預測更加精細的3D結構化資訊,線上生成區域性實時3D地圖,降低對高精地圖等基礎設施的依賴。
圖4:鑑智機器人針對複雜路口駕駛場景的4D感知結果
自動駕駛被認為是目前最重要的硬科技創新之一。在汽車行業百年未有之大變革的歷史性時刻,中國由於在電動汽車領域的提前佈局、全面開花,以及完整產業鏈的巨大優勢,國內企業在自動駕駛方向擁有非常好的機會和產業優勢,有機會透過電動化和智慧化實現百年汽車工業這一最重要的支柱產業的超車和領先。但自動駕駛的發展速度仍然低於大眾和市場的預期,這裡存在若干影響自動駕駛等級提升的關鍵性問題亟待解決,鑑智機器人基於自身在AI演算法、AI算力層面的積累,致力於解決自動駕駛成像計算和下一代自動駕駛方案的關鍵性問題,從而推動自動駕駛的創新發展。
作者簡介
都大龍:鑑智機器人聯合創始人,碩士畢業於中科院計算所,現清華大學創新領軍博士在讀。曾任某AI科技公司研發副總裁,地平線演算法總監,百度IDL架構師。曾深度參與國內首款AI晶片的產品研發,並實現AI2B產品的大規模落地。因其在卷積神經網路、序列學習、神經網路訓練框架方面的突出貢獻,曾連續兩次獲得百度工程師最高榮譽-“百度百萬美金最高獎”。發表數十篇AI領域國際頂級會議,並帶領團隊在MSCOCO、FRVT等多項AI比賽中獲得世界一流成績。
黃冠:鑑智機器人演算法負責人,擁有十年的深度學習/機器學習/計算機視覺經驗,在國內最早開始深度學習在目標檢測、分割、關鍵點等方向的系統性研究和應用。多次獲得FRVT、COCO等全球最具影響力AI比賽冠軍,釋出全球最大的公開人臉資料集WebFace260M,在人工智慧頂級會議和期刊上發表論文十餘篇,支撐了多個領域人工智慧技術的大規模落地應用,擁有豐富的學術研究和產業落地經驗。目前致力於研發全流程資料驅動的演算法,用於下一代自動駕駛解決方案。