先進(jìn)AI視覺系統(tǒng)—以iToF解鎖3D立體空間
在整個(gè)AI產(chǎn)業(yè)中,視覺系統(tǒng)扮演極重要的角色。由于iToF對(duì)于距離與空間的重現(xiàn)具有高度的可靠度外,還有分辨率的優(yōu)勢。本文敘述iToF感測和技術(shù)的原理、組成組件、距離計(jì)算方式及成像技術(shù)的應(yīng)用。
人工智能(Artificial intelligence;AI)經(jīng)由ChatGPT生成式AI工具再度獲得世人的關(guān)注,但聊天機(jī)器人需要大量且快速的運(yùn)算能力來處理復(fù)雜的AI模型以及數(shù)據(jù),而這些必須要獲得高階人工智能(AI)芯片才能支撐的運(yùn)算工作。
可是在可看見的未來,AI應(yīng)用會(huì)更貼近人們的生活,它只需要一般運(yùn)算力需求的AI芯片,就能達(dá)到自助與自動(dòng)特定功能的工作。例如:只會(huì)開車的司機(jī),送餐送貨的工人,門口的警衛(wèi),無人商店的店員,工廠的作業(yè)員,以及其他更多重復(fù)的工作內(nèi)容。
AI也是需要視覺系統(tǒng)讓虛擬的AI鏈接到現(xiàn)實(shí)環(huán)境。當(dāng)AI裝上Camera攝影機(jī),就像是人的眼睛一樣透過攝影機(jī)AI能精確的截取物體形狀、大小、顏色、深度距離的影像,甚至能傳輸?shù)皆贫耍\(yùn)行算法進(jìn)行分析辦識(shí)。有一句廣告詞「計(jì)算機(jī)嘛ㄟ撿土豆喔」,沒有視覺系統(tǒng)的AI計(jì)算機(jī),如何撿土豆呢?可見視覺系統(tǒng),在整個(gè)AI產(chǎn)業(yè)中,扮演極重要的角色。除了傳統(tǒng)的影像以外,AI更是需要獲得深度或距離訊息。
iToF相機(jī)
人類的眼睛可以分辨顏色,形狀與空間但是距離總是用「想象的」。這就是籃球選手距離籃框越遠(yuǎn)命中率越低的原因。 AI的視覺中,平面(2D)與顏色可以經(jīng)由一般的攝影機(jī)來達(dá)成,但距離要怎么辦呢? 那就需要另一只眼睛。它可以是一般的攝影機(jī)(image)或Depth傳感器來協(xié)助并透過算法得到精確的距離。
偵測距離或深度的方案 :
1.采用立體視覺(Stereo Vision)
2.結(jié)構(gòu)光(structured light)的方案
3.Depth傳感器的種類如下:光達(dá)Lidar、iToF(Indirect Time-of- Fligh)/dToF(Direct-Time-of-Fligh)、FMCW(Frequency Modulated Continuous Wave)、超聲波(Ultrasound)及雷達(dá)(Radar)
而其中iToF對(duì)于距離與空間的重現(xiàn)有者高度的可靠度外,還有分辨率的優(yōu)勢。
以下我們就原理、組成組件、距離計(jì)算方式、成像技術(shù)的應(yīng)用來了解一下iToF感測和技術(shù)。
飛行測距(ToF)原理
ToF(Time of Flight;飛行測距)相機(jī)透過測量光源發(fā)送到場景中,并經(jīng)由物體反射到感測組件來獲取深度信息,若是透過發(fā)射波形和反射接收的時(shí)間差是dToF(Direct Time of FLY)而測量的是發(fā)射波形和反射接收波形之間的相位移則是iToF(圖一)。
圖一 : ToF相機(jī)透過測量光源發(fā)送到場景中,并經(jīng)由物體反射到感測組件來獲取深度信息。
dToF和iToF在傳感器原件上的區(qū)別是iToF使用CMOS工藝開發(fā)的CIS傳感器(Camera Image Sensor),而dToF需要使用單光子雪崩二極管(single-photon avalanche diode,SPAD)傳感器。雖然dToF有長距離與抗干擾性的特點(diǎn)較適用長距離的量測。而iToF在成本與空間圖像分辨率的優(yōu)勢很適合AI應(yīng)用。
iToF感測組件
外觀與一般圖像傳感器(image sensor)無異。只是周邊的邏輯電路變更讓儲(chǔ)存數(shù)據(jù)內(nèi)容不同如下圖(二)。
圖二 : iToF感測組件/圖像傳感器(Image Sensor)外觀
以onsemi的iToF感測組件(AF0130/AF0131)為例:
? 背照式(BSI)CMOS工藝
? 1280 X 960像素
? Global Shutter
? 3.5 um 像素大小
? 1/3.2 傳感器大小
? AF0130 內(nèi)建深度計(jì)算處理器(Depth Processing)
Image Sensor(圖像傳感器):連續(xù)時(shí)間內(nèi)累積的能量(顏色或亮度)。
iToF depth傳感器:在不同時(shí)間(frame)內(nèi)量測到的反射能量(光發(fā)射后的飛行軌跡),并透過計(jì)算這些軌跡得到「光」飛行時(shí)間/距離。
既然iToF Depth有計(jì)算前的能量與處理后的距離(深度)。所以除了距離的訊息外,它還能以成像的方式來表現(xiàn)。而解度高的depth傳感器,甚至可以描繪出具有細(xì)節(jié)的輪廓。
iToF核心組件與架構(gòu):雷射驅(qū)動(dòng) / 激光器或LED / 發(fā)射端光學(xué) / 接收端光學(xué) / 接收傳感器CMOS / 深度計(jì)算
系統(tǒng)架構(gòu)(圖三)
雷射或LED(Vertical Cavity Surface Emitting Laser:VCSE或(Edge Emitting Laser : EEL)
? 發(fā)射端光學(xué)鏡頭(Lens)
? 雷射或LED驅(qū)動(dòng)(Laser/LED Driver)
? 接收端光學(xué)鏡頭(Lens)
? 傳感器CMOS iToF sensor
? 深度計(jì)算單元
圖三 : iToF模塊圖
目前市售的ToF應(yīng)用大都選擇850nm和940nm,主要是這兩個(gè)波長的發(fā)光源器件可以使用VCSEL實(shí)現(xiàn)但再長的波長可能需要EEL,另一方面接收端傳感器對(duì)850nm是最敏銳的,就是對(duì)該光譜的響應(yīng)率最高.可以得到最佳的信噪比,940nm的感度會(huì)比850nm低,但對(duì)人眼的干擾較低。
如果波長要更長,傳感器的制造會(huì)更難,在電子消費(fèi)品中很少選擇使用,可是在眼球保護(hù)(Eyesafe)法規(guī)下,或許不久以后,就會(huì)其他發(fā)光源器件與iToF sensor問世。
感測與計(jì)算
幀率(frame rate)是每秒可以更新距離訊息次數(shù),所以對(duì)于移動(dòng)的物體iToF 傳感器具有高幀率與計(jì)算單元可以減小物體移動(dòng)時(shí)間誤差。一般認(rèn)定每秒超過60幀(frame)為高幀率。
另外,由于計(jì)算單元需要不斷計(jì)算實(shí)時(shí)相位偏移信息來獲得當(dāng)下的探測距離,若iToF傳感器沒有內(nèi)建Depth Mapping處理器與記憶儲(chǔ)存空間,那數(shù)據(jù)就需要傳送所有的相位差數(shù)據(jù)到計(jì)算單元,這樣就延遲了距離偵測的時(shí)效性,所以感測與計(jì)算在同一組件是最佳的方式。
iTof探測距離
indirect time of flight,非直接測量TOF,方法是測量發(fā)射端的正弦波或脈沖信號(hào)與接收端的正弦波或脈沖信號(hào)的相位差的透過算法計(jì)算出時(shí)間,也稱為「phase-based ToF」。在iToF系統(tǒng)中,相位差的函數(shù)是測量光強(qiáng)度而不是時(shí)間,這是iToF的硬件使用普通的圖像傳感器架構(gòu)的緣由,圖像傳感器的特點(diǎn)就是在一個(gè)固定時(shí)間收集光子,然后轉(zhuǎn)化成電信號(hào)輸出。
iTof傳感器輸出的是接收到的光強(qiáng)還有計(jì)數(shù)后的時(shí)間函數(shù),通過對(duì)比函數(shù)與光強(qiáng),計(jì)算出飛行時(shí)間。
iToF可以按發(fā)射光波的方式分成連續(xù)波調(diào)制(CW-iToF)和脈沖調(diào)制(Pulsed-iToF)。
連續(xù)波(CW)調(diào)變與調(diào)頻連續(xù)波(FMCW)
連續(xù)波iToF的基本原理是將光調(diào)制為固定或多個(gè)頻率f的正弦波,發(fā)射端依照頻率f發(fā)射正弦波,當(dāng)采集返回的光能量時(shí),連續(xù)波iToF會(huì)根據(jù)不同的相位打開多個(gè)窗口(frame),對(duì)多個(gè)窗口相位的數(shù)據(jù)進(jìn)行采樣,分析該時(shí)期內(nèi)發(fā)射和接收的相位差信息,然后通過公式得到距離信息。需要注意的是距離偵測(Depth)精度與頻率f成正比,可檢測最大距離與頻率f成反比。
iToF 4個(gè)相位差資料測量
iToF是針對(duì)相位差數(shù)據(jù)來計(jì)算距離,相位分別是 0 、90 、180、270 。
但是誤差存在于每個(gè)系統(tǒng),因此距離偵測計(jì)算每次大概需要是4~8 frame的4個(gè)相位數(shù)據(jù)來確認(rèn)相位偏移正確性(圖四)。
圖四 : 連續(xù)波(CW)調(diào)變相位差數(shù)據(jù)與計(jì)算
iToF雙頻測量
透過發(fā)射兩個(gè)頻率的光譜得到的相位差數(shù)據(jù)與計(jì)算用于長距離消除相位模糊
圖五 : 雙頻測量
若是調(diào)頻連續(xù)波(FMCW)方法為基礎(chǔ)的LiDAR傳感器,可提供深度、速度和極化強(qiáng)度的數(shù)據(jù)。而FMCW是被廣泛應(yīng)用于都普勒(coherent Doppler)架構(gòu)為基礎(chǔ)的技術(shù);FMWC持續(xù)發(fā)射脈沖弦波,在訊號(hào)返回時(shí)計(jì)算發(fā)射和接收端的相位差。由于都普勒效應(yīng),該偏移是偵測物體距離和速度的函數(shù)。
脈沖式iToF
由于多個(gè)調(diào)制頻率下進(jìn)行四次相關(guān)函數(shù)采樣。對(duì)于較長距離的測量,或場景中環(huán)境光較強(qiáng)時(shí),對(duì)連續(xù)輸出功率要求較高,會(huì)影響加熱和穩(wěn)定性。
而功率高對(duì)人眼安全相關(guān)法規(guī)也是不利的。因此可透由改變發(fā)射脈沖模式或選擇更長奈米波長的光(>950奈米波長),來達(dá)到更長距離的目標(biāo)偵測。例如:功率提高到30W但調(diào)制頻率由100Mhz降為10Mhz(圖六)。
圖六 : 脈沖式iToF調(diào)變與功率示意圖
iToF相機(jī)應(yīng)用: 「3D/4D」的空間地圖與對(duì)象識(shí)別
從現(xiàn)實(shí)與虛擬的AR/VR到人臉或手勢辨識(shí) AI可以認(rèn)知將為某人提供適合的服務(wù)。AI自主移動(dòng)機(jī)器或機(jī)器手臂可以知道在倉庫移動(dòng)與搬運(yùn)對(duì)的物品,甚至可以應(yīng)用在汽車的自動(dòng)駕駛與安全輔助。
iToF相機(jī)優(yōu)勢
1. 內(nèi)建Depth Mapping處理器與記憶模塊(Memory)。
2. 百萬像素(Mage)等級(jí)的像素分辨率。
3. 低動(dòng)態(tài)拖影(Low Motion Artifacts) & 高幀率(Hight frame)。
4. 長景深距離與高環(huán)境光抑制。
5. 短距離與人眼保護(hù)—奈米波長與頻率響應(yīng)(Quantum Efficiency)。
機(jī)器視覺的方案經(jīng)由各種的傳感器搭配且要有快速及高更新率,來維持實(shí)時(shí)且準(zhǔn)確的空間地圖。然后,以AI為基礎(chǔ)的智能產(chǎn)品,才能透過最精確的訊息以達(dá)成任務(wù)。
所以,綜合以上iToF相機(jī)的優(yōu)勢是實(shí)現(xiàn)「3D/4D」的AI視覺—空間地圖與定位的最佳方案。
運(yùn)動(dòng)偽影
當(dāng)要辨別運(yùn)動(dòng)的物體或手勢往往是一個(gè)瞬間發(fā)生的動(dòng)作若相機(jī)沒有高效率與高幀率(Hight frame) 常常會(huì)造成拖影或辨識(shí)錯(cuò)誤,像機(jī)器手臂或自主移動(dòng)機(jī)器人就需要高效率與高幀率的特性。
圖七 : 運(yùn)動(dòng)偽影及應(yīng)用
百萬像素的像素分辨率
而百萬像素(Mage pixel)等級(jí)的像素分辨率,如同讓人一眼就看出真假與辨識(shí)出特征,就尤其在人臉的識(shí)別上是不可或缺的特點(diǎn)。
不受人工或自然的光源干擾
COMS Sensor具有高量子效率(Quantum Efficiency;QE)能對(duì)入射光子400~1100nm波長的光譜能量,能夠更有效率轉(zhuǎn)換成電子的訊號(hào)。這就是先前提到為何光源可以選擇850nm~940nm波長的不可見光,并透過控制雷射或LED驅(qū)動(dòng),讓偵測做彈性的變化且搭配波長的不可見光,不管室內(nèi)室外都不會(huì)被人工或自然的光源所干擾。
圖八 : 不受人工或自然的光源所干擾
長短距離偵測
1. 短距離 : 發(fā)出能量低的光譜搭配較高的頻率以提高精確度。
2.長距離 : 提高雷射或LED能量但搭配較低頻率,除了延長有效測距的范圍外還可以抑制發(fā)射端功耗降低散熱問題。
圖九 : 長度離延伸及室內(nèi)室外的應(yīng)用
結(jié)論
ToF應(yīng)用非常多,電子消費(fèi)領(lǐng)域有人臉辨識(shí)、照相機(jī)輔助對(duì)焦、接近傳感器、體感互動(dòng)、手勢識(shí)別、AR、機(jī)器人/無人機(jī)避障與3D/4D場景掃描等等;工業(yè)和安防應(yīng)用可以用于工業(yè)自動(dòng)化機(jī)器人、人數(shù)統(tǒng)計(jì)、智能停車場、智能交通、自動(dòng)化倉儲(chǔ)管理、電子圍籬及距離測量等;汽車領(lǐng)域則可以用于智慧駕駛輔助、哨兵模式或自動(dòng)停車。
若是導(dǎo)入以AI為基礎(chǔ)算法,上述應(yīng)用則會(huì)進(jìn)一步智能化,AI能根據(jù)視覺系統(tǒng)反饋的訊息重現(xiàn)空間并進(jìn)行對(duì)象識(shí)別,除了距離(depth)外 AI 還可以經(jīng)由幀(frame)與幀的訊息差異進(jìn)行移動(dòng)物體的速度計(jì)算。因?yàn)锳I可以確切了解目標(biāo)物,并控制自身的行動(dòng)速度及高精確度,如此可以推算正確的指令。
未來AI更會(huì)搭配ToF與影像系統(tǒng)深入各種消費(fèi)、信息安全、工業(yè)自動(dòng)化、自主機(jī)器人與汽車安全的應(yīng)用,讓每個(gè)產(chǎn)品都像個(gè)可靠的AI機(jī)器人,這需要高解析深度成像技術(shù)的iToF與影像視覺系統(tǒng)的空間與定位來給與達(dá)成決各種任務(wù)的眼睛。
隨著應(yīng)用提升CPU任務(wù)繁重可想而知,從單純的距離感知到自主行動(dòng)最終達(dá)到AI互動(dòng)的能力。因此就近傳感器進(jìn)行數(shù)據(jù)處理的必要性;如果可能,應(yīng)該所有預(yù)處理、清理和AI強(qiáng)化都必要在傳感器的位置進(jìn)行,以減輕CPU的負(fù)擔(dān)。就像人類的神經(jīng)反應(yīng)一樣,不需要每個(gè)動(dòng)作都要經(jīng)過大腦思考。目前已有直接距離計(jì)算的能力的產(chǎn)品,所以對(duì)于距離,事實(shí)上可以直接反應(yīng)只是「運(yùn)算」能力如何附加與克服附加之后的散熱問題。
評(píng)論