谷歌最近發(fā)布了一個(gè)全新的移動(dòng)3D識(shí)別方案Objectron,它可以在2D圖像中找到物體,并通過(guò)AI模型估計(jì)它們的位置、方向和大小。谷歌表示,Objectron對(duì)機(jī)器人技術(shù)、自動(dòng)駕駛汽車(chē)、圖像檢索和ar技術(shù)有著深遠(yuǎn)的影響。例如,它可以幫助工廠車(chē)間的機(jī)器人實(shí)時(shí)避開(kāi)障礙物。
目前,跟蹤三維物體是一個(gè)棘手的問(wèn)題,尤其是在處理有限的計(jì)算資源時(shí)。由于數(shù)據(jù)的缺乏以及物體外觀和形狀的多樣性,當(dāng)唯一可用的圖像是2D時(shí),情況會(huì)變得更糟。
為此,Objectron R&D團(tuán)隊(duì)開(kāi)發(fā)了一種圖片標(biāo)記工具,可以從分屏視角顯示2D視頻幀,并支持記者以分屏視角顯示2D視頻幀,以標(biāo)記對(duì)象的3D邊界框(即矩形邊框)。這些3D邊界框?qū)B加在點(diǎn)云數(shù)據(jù)、相機(jī)屏幕和識(shí)別的平面上。
在3D視圖中標(biāo)記3D包圍盒后,記者可以在2D視頻幀中驗(yàn)證,而對(duì)于靜態(tài)圖像,記者只需在單幀中標(biāo)記目標(biāo)對(duì)象。標(biāo)記工具還使用AR會(huì)話(huà)數(shù)據(jù)中的實(shí)際攝像機(jī)信息來(lái)確定對(duì)象在所有幀中的位置。
為了補(bǔ)充現(xiàn)實(shí)世界中的數(shù)據(jù),提高AI模型預(yù)測(cè)的準(zhǔn)確性,谷歌R&D團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)引擎,將虛擬物體放置在包含AR會(huì)話(huà)數(shù)據(jù)的場(chǎng)景中,這樣相機(jī)圖像檢測(cè)到的平面區(qū)域和預(yù)測(cè)的光線就可以用來(lái)生成與物理中的場(chǎng)景相匹配的光照位置,從而產(chǎn)生高質(zhì)量的合成數(shù)據(jù)。在驗(yàn)證測(cè)試中,綜合數(shù)據(jù)的準(zhǔn)確率提高了10%左右。