日韩高清一区-天天色综-9.1成人看片-aaa欧美-99久久久久久-99资源-夜夜草导航-精品在线视频观看-色视频免费观看-av在线观-亚洲无吗av-香蕉久久久久久-正在播放国产一区-伊人一二三-www黄在线观看-欧美aaaa视频-美女在线视频一区二区-国产精品69久久久久孕妇欧美-av在线电影观看-亚洲第5页-夜噜噜-伊人久久大香线蕉成人综合网-亚洲一区二区三区综合-亚洲综合色小说-成人 亚洲

蘇州昊瓦智能裝備有限公司
當(dāng)前位置: > 3D相機(jī)資訊

3D工業(yè)視覺(jué)行業(yè)研究:機(jī)器人的眼睛

點(diǎn)擊:833

1.視覺(jué):把目光放在機(jī)器人1.1預(yù)計(jì)2022-2027年中國(guó)3D工業(yè)視覺(jué)CAGR為53.8%。

預(yù)計(jì)2027年中國(guó)機(jī)器視覺(jué)市場(chǎng)規(guī)模為566億元,CAGR為27%。根據(jù)高技術(shù)產(chǎn)業(yè)研究所的數(shù)據(jù),2022年至2027年,全球機(jī)器視覺(jué)市場(chǎng)規(guī)模將增至172億美元,年復(fù)合增長(zhǎng)率為7.4%。中國(guó)市場(chǎng)規(guī)模預(yù)計(jì)將從170.7億元增長(zhǎng)至565.6億元,年復(fù)合增長(zhǎng)率為27.1%,遠(yuǎn)高于全球水平。預(yù)計(jì)2027年中國(guó)3D工業(yè)相機(jī)市場(chǎng)規(guī)模為160億元,2022-2027年CAG R為53.8%。GGII數(shù)據(jù)顯示,2022年,中國(guó)3D工業(yè)相機(jī)市場(chǎng)規(guī)模將為18.4億元,同期增長(zhǎng)59.90%,滲透率接近10%。隨著制造智能化的深入, 預(yù)計(jì)2027年3D工業(yè)相機(jī)市場(chǎng)規(guī)模接近160億元,2022-2027年CAGR為53.8%。1.2視覺(jué)技術(shù)用于識(shí)別、定位、測(cè)量和檢測(cè)的難度越來(lái)越大。在機(jī)器視覺(jué)的下游應(yīng)用行業(yè)中,消費(fèi)電子占21.9%,鋰電池和半導(dǎo)體各占10%,電力/電子占6.6%。在國(guó)內(nèi),機(jī)器視覺(jué)在3C行業(yè)的需求最大,其應(yīng)用涵蓋了電子元器件的生產(chǎn)、組裝、檢測(cè)、識(shí)別、分類和讀碼、溯源等全過(guò)程。近年來(lái),國(guó)內(nèi)新能源、半導(dǎo)體、汽車行業(yè)視覺(jué)普及率快速提升。就技術(shù)難度而言,識(shí)別、定位, 測(cè)量和檢測(cè)正在增加。在線檢測(cè)需要在短時(shí)間內(nèi)處理和分析大量的圖像數(shù)據(jù),同時(shí)保證檢測(cè)的準(zhǔn)確性和可靠性,不受環(huán)境因素的干擾。由于工業(yè)細(xì)分場(chǎng)景多樣,在線檢測(cè)要適應(yīng)不同的產(chǎn)品類型、規(guī)格和形狀,自動(dòng)識(shí)別和調(diào)整檢測(cè)參數(shù)和策略,處理復(fù)雜的圖像特征和背景干擾,實(shí)現(xiàn)自動(dòng)學(xué)習(xí)和優(yōu)化。


從消費(fèi)電子、鋰電池、半導(dǎo)體三個(gè)典型行業(yè)的具體場(chǎng)景看機(jī)器視覺(jué)的應(yīng)用:a .在消費(fèi)電子領(lǐng)域,機(jī)器視覺(jué)主要用于工藝檢測(cè)、尺寸測(cè)量、全尺寸檢測(cè)。過(guò)程中檢測(cè)包括精確的目視檢測(cè)、高效的尺寸測(cè)量以及利用大數(shù)據(jù)快速定位源頭。關(guān)鍵尺寸測(cè)量包括螺孔尺寸測(cè)量、關(guān)鍵輪廓測(cè)量、信號(hào)和焊接尺寸測(cè)量。全尺寸檢測(cè)包括所有裝配位置的測(cè)量、孔徑長(zhǎng)度和寬度的測(cè)量以及特征結(jié)構(gòu)匹配的測(cè)量。b .在動(dòng)力電池制造過(guò)程中,機(jī)器視覺(jué)應(yīng)用于缺陷檢測(cè)、尺寸測(cè)量和關(guān)鍵工序定位。在電池芯的預(yù)處理中,諸如箔暴露、黑斑, 鋰電池在涂布和卷繞中容易出現(xiàn)亮點(diǎn)和劃痕。機(jī)器視覺(jué)主要用于極片的涂層矯正、尺寸測(cè)量、表面缺陷檢測(cè)、尺寸測(cè)量和繞組對(duì)齊。新的后處理主要應(yīng)用于裸電池極耳的折疊、極耳切割碎屑、頂蓋和密封釘?shù)暮附淤|(zhì)量檢查、電池外觀檢查、尺寸測(cè)量、涂膠定位等。模塊和封裝階段,主要用于底藍(lán)膠、焊縫、側(cè)焊縫、模塊全尺寸和封裝檢測(cè)。c .在半導(dǎo)體領(lǐng)域,機(jī)器視覺(jué)主要應(yīng)用于硅片檢測(cè)分選、晶圓缺陷檢測(cè)和成品外觀檢測(cè),尤其是在晶圓制造的整個(gè)過(guò)程中,如檢測(cè)、定位、切割、封裝等。3D測(cè)量系統(tǒng)用于硅晶片檢查和分類, 其實(shí)現(xiàn)了硅片產(chǎn)品各種性能參數(shù)的一站式自動(dòng)檢測(cè)、檢測(cè)數(shù)據(jù)管理的可視化分析和統(tǒng)計(jì)、硅片質(zhì)量等級(jí)的自動(dòng)分類。半導(dǎo)體工藝檢測(cè)利用機(jī)器視覺(jué)實(shí)現(xiàn)制造工藝外觀缺陷、晶圓表面缺陷、雜物、裂紋、切割和碎裂的3D和2D檢測(cè)。實(shí)現(xiàn)封裝工藝、晶圓缺陷、膠缺陷、焊線缺陷、焊球缺陷、雜質(zhì)的檢測(cè)。成品外觀檢測(cè)主要包括劃痕檢測(cè)、電池檢測(cè)、卡槽檢測(cè)。2.3 3D視覺(jué)最有前景的場(chǎng)景:機(jī)器人引導(dǎo), 高精度測(cè)量和缺陷識(shí)別。3D視覺(jué)技術(shù)的性能在檢測(cè)精度和光照環(huán)境方面遠(yuǎn)優(yōu)于2D。2D視覺(jué)技術(shù)在工業(yè)自動(dòng)化過(guò)程中的應(yīng)用已經(jīng)超過(guò)30年。2D視覺(jué)是由物體的平面輪廓驅(qū)動(dòng)的,可以在二維層面上解決讀碼條識(shí)別、邊緣檢測(cè)等一些問(wèn)題,無(wú)法獲得曲率、空間坐標(biāo)等三維參數(shù)。完全可以用于外觀檢測(cè)識(shí)別,但檢驗(yàn)精度較低。3D視覺(jué)技術(shù)在2014年左右開(kāi)始興起,利用立體攝像機(jī)、激光雷達(dá)等技術(shù),精確采集物體的3D信息,對(duì)光照條件、物體對(duì)比度等客觀因素的適應(yīng)性更強(qiáng),可以實(shí)現(xiàn)2D視覺(jué)無(wú)法或不能實(shí)現(xiàn)的功能,如檢測(cè)高度、平面度、 產(chǎn)品的體積和三維建模。更適合半導(dǎo)體、汽車、3C等領(lǐng)域的高精度工業(yè)要求。要求的檢測(cè)精度達(dá)到< 1微米..三維工業(yè)視覺(jué)提高了檢測(cè)和測(cè)量的精度和效率,擴(kuò)大了質(zhì)量控制在線檢測(cè)的應(yīng)用范圍,在機(jī)器人引導(dǎo)(移動(dòng)機(jī)器人+三維視覺(jué),機(jī)械臂+三維視覺(jué))場(chǎng)景中具有廣闊的應(yīng)用前景。目前,三維視覺(jué)最有前景的工業(yè)應(yīng)用場(chǎng)景是高精度測(cè)量和缺陷識(shí)別、高速高精度在線檢測(cè)、自動(dòng)裝配、視覺(jué)引導(dǎo)機(jī)器人等。a .擴(kuò)大在線質(zhì)量控制檢測(cè)的應(yīng)用范圍:2D視覺(jué)技術(shù)在低對(duì)比度、高反射或透明材料或有陰影的特征方面有局限性。由于這些限制,即使在最先進(jìn)的制造商的工廠中, 只有30-40%的組件在線測(cè)試。三維視覺(jué)可以解決這些問(wèn)題,擴(kuò)大在線質(zhì)量控制檢測(cè)的范圍。b .協(xié)同機(jī)械手的柔性裝配:目前裝配是大多數(shù)行業(yè)自動(dòng)化程度最低的環(huán)節(jié)之一,涉及到精確的標(biāo)定、各種工件和潛在的頻繁變化。在汽車制造中,焊接過(guò)程的自動(dòng)化程度在90%左右,而裝配的自動(dòng)化程度不到5%。3D視覺(jué)是使用協(xié)作機(jī)器人和其他先進(jìn)自動(dòng)化設(shè)備的下一代柔性裝配系統(tǒng)的使能技術(shù)。c .倉(cāng)庫(kù)自動(dòng)化和隨機(jī)揀箱是應(yīng)用難點(diǎn)。存儲(chǔ)、檢索、分類和碼垛都需要3D視覺(jué)來(lái)確定包裝尺寸。揀箱是工廠和倉(cāng)庫(kù)的基本功能。近年來(lái), 生產(chǎn)和物流的自動(dòng)化程度有了很大的提高,但是隨機(jī)揀箱(多種類型的物體重疊堆積,而不是排列在一個(gè)平面上)的場(chǎng)景還是無(wú)人操作。三維視覺(jué)不僅可以識(shí)別物體,還可以讓機(jī)器人識(shí)別物體的姿態(tài),通過(guò)視覺(jué)伺服控制機(jī)器人工作。


D.視覺(jué)引導(dǎo)機(jī)器人:引導(dǎo)定位可分為移動(dòng)機(jī)器人+機(jī)器視覺(jué)和機(jī)械臂+機(jī)器視覺(jué)兩條路線。在幾種環(huán)境傳感技術(shù)中,激光雷達(dá)和毫米波雷達(dá)各有明顯的優(yōu)缺點(diǎn)。激光雷達(dá)精度高,探測(cè)范圍廣,可以構(gòu)建機(jī)器人和周圍環(huán)境的3D信息,但受天氣干擾強(qiáng)。毫米波雷達(dá)對(duì)煙霧、灰塵等環(huán)境有很強(qiáng)的穿透力,所以在特殊環(huán)境下測(cè)距信息會(huì)更好,但測(cè)距精度會(huì)更弱。視覺(jué)感知可以有效彌補(bǔ)其他傳感技術(shù)的不足。立體視覺(jué)加毫米波對(duì)于可靠性要求高的場(chǎng)合也是很好的組合, 而且視覺(jué)感知的技術(shù)成本會(huì)比激光雷達(dá)低。2.從2D成像到3D視覺(jué)感知是一次技術(shù)飛躍。2.1激光三角測(cè)量、結(jié)構(gòu)光、ToF、多目視覺(jué)等技術(shù)共同推動(dòng)了3D視覺(jué)的發(fā)展。在3D視覺(jué)中有四種常用的技術(shù):激光三角測(cè)量、結(jié)構(gòu)光、飛行時(shí)間(ToF)和多眼視覺(jué)。工作原理是紅外激光發(fā)射器發(fā)射近紅外光,經(jīng)人臉?lè)瓷浜螅t外信息被紅外CMOS圖像處理器接收,信息匯總到圖像處理芯片,獲得物體的三維數(shù)據(jù),實(shí)現(xiàn)空間定位。區(qū)別在于發(fā)射近紅外光獲取三維數(shù)據(jù)的方式,激光三角測(cè)量利用激光線掃描物體表面,結(jié)構(gòu)光發(fā)射散斑, ToF是發(fā)射面光源,雙目立體成像是通過(guò)雙目匹配的視差算法。激光三角測(cè)量:又稱“位移傳感器”。這種方法利用激光線掃描物體表面,通過(guò)攝像機(jī)觀察到的激光線的變形分析,獲得物體表面各點(diǎn)的深度數(shù)據(jù)。特點(diǎn):測(cè)量結(jié)果可達(dá)微米級(jí),但掃描速度和工作范圍有限。激光三角測(cè)量的高精度和動(dòng)態(tài)測(cè)速性能推動(dòng)了在線檢測(cè)的快速發(fā)展。結(jié)構(gòu)光:帶有編碼信息的結(jié)構(gòu)光通過(guò)光學(xué)投影模塊投射到物體表面,在被測(cè)物體表面形成光條圖像。圖像采集系統(tǒng)采集到光條圖像后, 通過(guò)算法處理獲得被測(cè)物體表面的三維輪廓數(shù)據(jù),從而恢復(fù)目標(biāo)物體的三維空間信息。結(jié)構(gòu)光技術(shù)是一種主動(dòng)三維測(cè)量技術(shù)。特點(diǎn):由于結(jié)構(gòu)光是主動(dòng)光,所以具有環(huán)境昏暗和夜間可用的優(yōu)點(diǎn)。不需要根據(jù)場(chǎng)景的變化而變化,降低了匹配的難度。但顯然在強(qiáng)光環(huán)境下會(huì)受到干擾,室外基本沒(méi)有。此外,因?yàn)橹鲃?dòng)結(jié)構(gòu)光被編碼,所以同時(shí)使用多個(gè)結(jié)構(gòu)光相機(jī)也是有問(wèn)題的。在實(shí)際測(cè)量中,小角度一側(cè)結(jié)構(gòu)光反射嚴(yán)重,經(jīng)常出現(xiàn)大黑洞。當(dāng)然,黑色物體和玻璃是結(jié)構(gòu)光的大缺陷, 一個(gè)吸收光線,另一個(gè)傳輸光線。飛行時(shí)間(ToF):在給定固定光速的情況下,通過(guò)傳輸和反射光信號(hào)之間的時(shí)間延遲來(lái)測(cè)量。為了精確測(cè)量時(shí)間延遲,通常使用短光脈沖。這項(xiàng)技術(shù)基本類似于3D激光傳感器的原理,只不過(guò)3D激光傳感器是逐點(diǎn)掃描,而TOF相機(jī)是同時(shí)獲取整個(gè)圖像的深度信息。特點(diǎn):與結(jié)構(gòu)光相比,ToF不需要對(duì)光紋進(jìn)行復(fù)雜的分析,只需要反射回來(lái),魯棒性大大提高,深度信息還原程度比結(jié)構(gòu)光好很多,點(diǎn)云完整性更好。主要表現(xiàn)在:深度圖質(zhì)量高于結(jié)構(gòu)光,抗強(qiáng)光干擾能力更強(qiáng),精度更高。對(duì)于玻璃, 是光學(xué)技術(shù)的死穴,只能靠其他技術(shù)來(lái)彌補(bǔ)。ToF速度很快,但精度只有毫米。ToF技術(shù)既困難又昂貴。立體視覺(jué)法:指從不同視點(diǎn)獲取兩幅或多幅圖像,以重建目標(biāo)物體的三維結(jié)構(gòu)或深度信息。目前立體視覺(jué)3D可以通過(guò)單目、雙目、多目實(shí)現(xiàn)。雙目機(jī)器視覺(jué)是指利用兩個(gè)RGB彩色攝像頭采集圖像,在后端通過(guò)雙目匹配和三角測(cè)量計(jì)算深度圖的技術(shù)方法。雙目技術(shù)利用物體本身的特征點(diǎn)。由于每次雙目匹配面對(duì)的圖像不同,需要重新提取特征點(diǎn),計(jì)算量非常大。雙目是一種被動(dòng)三維測(cè)量技術(shù)。特點(diǎn):硬件復(fù)雜度低, 并且在光線較弱或者目標(biāo)特征不明顯的情況下幾乎不可用。同時(shí),雙目攝像機(jī)的計(jì)算復(fù)雜度也很高。對(duì)硬件計(jì)算性能的要求極高。由于對(duì)計(jì)算能力要求較高,雙目攝像機(jī)很少用于嵌入式系統(tǒng)設(shè)備,在一般場(chǎng)景下表現(xiàn)不佳,比如slam導(dǎo)航等應(yīng)用。但是在工業(yè)自動(dòng)化和x86系統(tǒng)中,雙目攝像機(jī)的應(yīng)用非常廣泛,因?yàn)樵诠I(yè)自動(dòng)化中,雙目攝像機(jī)只需要解決特定場(chǎng)景中的特定問(wèn)題。2.1移動(dòng)機(jī)器人的指導(dǎo)性技術(shù)方案未定,將高精度測(cè)量中常用的3D視覺(jué)的關(guān)鍵應(yīng)用場(chǎng)景和特點(diǎn)總結(jié)如下:a .檢測(cè),尤其是高精度缺陷檢測(cè)場(chǎng)景(典型代表:半導(dǎo)體圖形化晶圓檢測(cè)) 是要求最高的技術(shù),主要使用激光三角測(cè)量技術(shù)。b .生產(chǎn)線在線檢測(cè)是最難的,需要復(fù)雜的解決方案,以適應(yīng)不同的生產(chǎn)場(chǎng)景,在振動(dòng)和環(huán)境光干擾下實(shí)現(xiàn)高速度和高精度。主要應(yīng)用技術(shù)有激光三角測(cè)量技術(shù)和結(jié)構(gòu)光技術(shù),激光三角測(cè)量技術(shù)還可以用于生產(chǎn)線上的柔性裝配領(lǐng)域。c倉(cāng)庫(kù)自動(dòng)化:包括尺寸測(cè)量、環(huán)境感知、手勢(shì)識(shí)別等功能。,主要利用結(jié)構(gòu)光技術(shù)和單目/雙目視覺(jué)技術(shù),隨機(jī)揀箱主要利用結(jié)構(gòu)光技術(shù)。這些功能也將應(yīng)用于消費(fèi)場(chǎng)景, 比如手機(jī)的人臉識(shí)別,手勢(shì)識(shí)別。d .機(jī)器人視覺(jué)引導(dǎo)是目前最有前景的場(chǎng)景。因?yàn)榄h(huán)境感知視野廣,速度快(用于實(shí)時(shí)視覺(jué)伺服),所以最終的技術(shù)路徑還沒(méi)有確定。目前使用的主要技術(shù)有結(jié)構(gòu)光、ToF和立體視覺(jué)。2.3人形機(jī)器人主要采用ToF和立體視覺(jué)Tesla采用純視覺(jué)方案,其他人形機(jī)器人廠商大多采用深度攝像頭+激光/超聲波雷達(dá)的方案。特斯拉機(jī)器人的3D傳感模塊以多視覺(jué)為主,波士頓動(dòng)力采用lidar+深度攝像頭,Ubuntu采用基于多視覺(jué)傳感器的3D視覺(jué)定位。小米機(jī)器人的mi深度視覺(jué)模塊由小米設(shè)計(jì),歐菲光研發(fā),其機(jī)器視覺(jué)深度相機(jī)模塊主要由iToF模塊、RGB模塊和可選的IMU模塊組成。特斯拉采用純視覺(jué)方案, 硬件成本低,對(duì)軟件算法要求高。特斯拉人形機(jī)器人共攜帶8個(gè)攝像頭和一個(gè)自主研發(fā)的FDS芯片,實(shí)現(xiàn)360度圖像識(shí)別。FSD系統(tǒng)可以實(shí)現(xiàn)每1.5毫秒2500次搜索的超高效率,預(yù)測(cè)各種可能的情況,并在其中畫(huà)出最安全、最舒適、最快的路徑。特斯拉自主研發(fā)了基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法,擁有一支由來(lái)自世界各地的人才組成的約1000人的數(shù)據(jù)標(biāo)注團(tuán)隊(duì),每天在“向量空間”中對(duì)視頻數(shù)據(jù)中的物體進(jìn)行標(biāo)注。在善于抓住細(xì)節(jié)的手動(dòng)標(biāo)注和更高效的自動(dòng)標(biāo)注的配合下,向量空間只需要一次就可以自動(dòng)標(biāo)注所有攝像機(jī)的多幀圖像。這為特斯拉帶來(lái)了數(shù)百億有效且多樣的原始數(shù)據(jù), 而這些數(shù)據(jù)將用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練。多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)架構(gòu)可以拼接8個(gè)攝像頭獲得的圖像,完美平衡視頻圖像的延遲和精度。通過(guò)手動(dòng)或自動(dòng)標(biāo)記環(huán)境以及運(yùn)動(dòng)和靜止的物體,系統(tǒng)將逐幀分析視頻,了解物體的深度、速度等信息,然后將這些數(shù)據(jù)交給機(jī)器人進(jìn)行學(xué)習(xí),繪制出3D鳥(niǎo)瞰圖,形成帶有空間和時(shí)間標(biāo)簽的4D“道路網(wǎng)”,呈現(xiàn)道路等信息,從而幫助車輛/機(jī)器人更準(zhǔn)確地把握行駛環(huán)境,找到最優(yōu)路徑。國(guó)內(nèi)外仿人機(jī)器人廠商大多采用激光雷達(dá)+深度視覺(jué)的方案。激光雷達(dá)方案比純視覺(jué)方案成本高,軟件算法要求比純視覺(jué)方案低。你必須選擇的視覺(jué)模塊是多視覺(jué)的, 小米的Mi是iToF+RGB,追求是ToF+結(jié)構(gòu)光,致遠(yuǎn)A1是RGBD相機(jī)。3.3維視覺(jué)行業(yè)格局:2D視覺(jué)頭廠商主導(dǎo)精密檢測(cè)測(cè)量,國(guó)內(nèi)初創(chuàng)企業(yè)深度介入移動(dòng)機(jī)器人制導(dǎo)場(chǎng)景3.1維工業(yè)視覺(jué)市場(chǎng)格局:專業(yè)化、定制化趨勢(shì)明確。消費(fèi)電子領(lǐng)域是目前3D視覺(jué)感知最大的應(yīng)用領(lǐng)域,占比近40%。2017年,蘋(píng)果分銷的X搭載了前置3D結(jié)構(gòu)光視覺(jué)傳感器,標(biāo)志著3D視覺(jué)感知技術(shù)在消費(fèi)領(lǐng)域的大規(guī)模普及。3D視覺(jué)感知技術(shù)在智能手機(jī)、移動(dòng)支付、AIoT、人臉支付、智能門(mén)鎖、3D看房等領(lǐng)域逐漸加速。代表公司:1)結(jié)構(gòu)光:蘋(píng)果(),微軟-1,英特爾,奧比中光等。2)雙目視覺(jué):Leap,ZED, DJI等。、代表應(yīng)用和產(chǎn)品:DJI創(chuàng)新無(wú)人機(jī)搭載了Pro/Pro+、2Pro/Zoom等雙目視覺(jué)系統(tǒng)。3)光飛行時(shí)間:微軟-2、PMD、聯(lián)想Phab等。代表應(yīng)用和產(chǎn)品:2020年,蘋(píng)果推出iPad Pro和12 Pro配備基于dToF技術(shù)的掃描儀;華為、魅族等廠商相繼推出搭載基于iToF技術(shù)的后置3D視覺(jué)傳感器的智能手機(jī),基于不同技術(shù)路線的產(chǎn)品日益豐富;4)激光雷達(dá):歸谷歌所有 公司配備激光雷達(dá)和多傳感器的無(wú)人駕駛汽車。在工業(yè)領(lǐng)域,根據(jù)不同的應(yīng)用場(chǎng)景定制3D視覺(jué)。機(jī)器視覺(jué)需要適應(yīng)其他自動(dòng)解決方案。在行業(yè)的垂直生產(chǎn)過(guò)程中,零件的類型(材料、形狀、尺寸、位置和外觀)、精度公差、生產(chǎn)效率和工作范圍都是不同的。 這就引出了視覺(jué)產(chǎn)品的定制需求。在現(xiàn)實(shí)世界中,即使是同行業(yè)的相同工藝,兩個(gè)工廠也會(huì)有不同的生產(chǎn)環(huán)境(光照、振動(dòng)、幾何配置等。)并且需要不同的視覺(jué)產(chǎn)品和配置。因此,3D視覺(jué)的AI模型很難標(biāo)準(zhǔn)化和通用化,針對(duì)不同自動(dòng)化生產(chǎn)領(lǐng)域的專業(yè)化定制成為3D視覺(jué)的發(fā)展趨勢(shì)。3D工業(yè)視覺(jué)的主流玩家有兩種:國(guó)外頭部廠商和原2D視覺(jué)領(lǐng)域的國(guó)內(nèi)初創(chuàng)廠商。由于定制化程度高,國(guó)內(nèi)外品牌應(yīng)用場(chǎng)景存在明顯差異:國(guó)外頭顯廠商在工業(yè)高精度、高效率測(cè)量識(shí)別領(lǐng)域具有優(yōu)勢(shì),在原2D視野內(nèi) 而國(guó)內(nèi)3D視覺(jué)廠商在機(jī)器人視覺(jué)導(dǎo)航領(lǐng)域處于領(lǐng)先地位。同樣,由于工業(yè)場(chǎng)景的高度定制化,以及對(duì)高精高效解決方案的需求,工業(yè)級(jí)3D視覺(jué)產(chǎn)品的定價(jià)更高,盈利能力更強(qiáng)。3.2借助供應(yīng)鏈優(yōu)勢(shì)和行業(yè)專有技術(shù)積累,原2D視覺(jué)廠商進(jìn)一步加深在測(cè)量識(shí)別領(lǐng)域的護(hù)城河,原2D視覺(jué)領(lǐng)域的國(guó)內(nèi)外頭部廠商,依托強(qiáng)大的供應(yīng)鏈和項(xiàng)目實(shí)施經(jīng)驗(yàn),3D技術(shù)的升級(jí)將進(jìn)一步加深其護(hù)城河。在工業(yè)領(lǐng)域,3D通常與1D和2D技術(shù)結(jié)合使用,領(lǐng)先的工業(yè)機(jī)器視覺(jué)制造商已經(jīng)將該技術(shù)從2D擴(kuò)展到3D。基于深厚的行業(yè)知識(shí)積累, 原2D視覺(jué)頭廠商的競(jìng)爭(zhēng)優(yōu)勢(shì)將進(jìn)一步加強(qiáng)。3D相機(jī)方面,得益于鏡頭和CMOS傳感器的領(lǐng)先技術(shù),Keyes和康耐視的檢測(cè)間隔可達(dá)0.6秒,Keyes和康耐視相機(jī)的檢測(cè)重復(fù)精度可達(dá)0.5微米,優(yōu)于海康0.06mm相機(jī)。Kearns算法搭載AI芯片,具有自動(dòng)特征提取算法、機(jī)器學(xué)習(xí)算法和預(yù)處理功能。康耐視Deep軟件基于AI神經(jīng)網(wǎng)絡(luò)模型運(yùn)算,他們的3D定位精度是2.5微米,而海康算法的3D定位精度是6微米..在精密檢測(cè)和測(cè)量的應(yīng)用上,原2D視覺(jué)頭廠商具有很大的優(yōu)勢(shì):機(jī)器視覺(jué)的領(lǐng)先廠商主要應(yīng)用于汽車、3C、鋰電池、半導(dǎo)體晶圓檢測(cè)等高端領(lǐng)域 芯片檢測(cè)等。,而且產(chǎn)品價(jià)格比本地產(chǎn)品高。借助工業(yè)2D視覺(jué)強(qiáng)大的技術(shù)和客戶積累,卡恩斯、海康威視、Opter等頭部廠商在這個(gè)場(chǎng)景中取得了巨大的成功。大多數(shù)國(guó)產(chǎn)品牌的3D視覺(jué)更多地專注于低端場(chǎng)景,如物流、工程機(jī)械、金屬加工、3C電子等,毛利率低,對(duì)產(chǎn)品精度要求相對(duì)較低。例如,Mecarmand和elson等公司專注于機(jī)器人引導(dǎo)的攝像機(jī);途洋科技、海康機(jī)器人產(chǎn)品主要用于視覺(jué)定位;深度視覺(jué)智能產(chǎn)品主要用于精密測(cè)量和檢測(cè);盛翔技術(shù)側(cè)重于檢測(cè)場(chǎng)景等等。一些國(guó)內(nèi)領(lǐng)先企業(yè)通過(guò)提高核心零部件能力來(lái)擴(kuò)大產(chǎn)品線, 而他們的應(yīng)用場(chǎng)景也不斷向高端領(lǐng)域滲透。代表廠商有豪普特、凌廣韻、大恒影像、Hikon機(jī)器人等。3.3國(guó)內(nèi)初創(chuàng)企業(yè)深耕機(jī)器人引導(dǎo)場(chǎng)景,優(yōu)勢(shì)明顯。國(guó)內(nèi)3D工業(yè)視覺(jué)市場(chǎng)處于發(fā)展初期,產(chǎn)業(yè)鏈不成熟,尚未形成穩(wěn)定的市場(chǎng)局面。國(guó)內(nèi)3D視覺(jué)企業(yè)大多是初創(chuàng)企業(yè)。國(guó)內(nèi)3D視覺(jué)企業(yè)主要專注于下游設(shè)備組裝和集成,憑借解決方案的性價(jià)比、深度定制和服務(wù)能力獲得客戶。但他們的主要核心部件(機(jī)器人運(yùn)動(dòng)算法、應(yīng)用進(jìn)程包、核心3D攝像頭)主要是購(gòu)買(mǎi)的。在引導(dǎo)應(yīng)用中,國(guó)內(nèi)初創(chuàng)廠商以此為家快速設(shè)計(jì)方案并落地, 占據(jù)優(yōu)勢(shì)。引導(dǎo)定位分為移動(dòng)機(jī)器人+機(jī)器視覺(jué)和機(jī)械臂+機(jī)器視覺(jué)兩條路線。大多數(shù)3D視覺(jué)制造商專注于分揀和用機(jī)械臂裝卸。代表企業(yè)有:美卡曼、圖洋科技、熵科技、邁德威視、智翔光電、愛(ài)爾生、海康機(jī)器人、遷移科技、魯本科技等。該產(chǎn)品主要用于機(jī)器人視覺(jué)定位。目前國(guó)內(nèi)以視覺(jué)為主要導(dǎo)航方式的移動(dòng)機(jī)器人很少。主要廠商有:海康機(jī)器人、智能科技、路創(chuàng)新、藍(lán)芯科技等。GGII調(diào)查數(shù)據(jù)顯示,2022年,中國(guó)3D工業(yè)相機(jī)銷量超過(guò)5萬(wàn)臺(tái),其中機(jī)器人引導(dǎo)的3D相機(jī)出貨量超過(guò)8500臺(tái)。部分優(yōu)秀企業(yè)基于自身核心技術(shù)突破,向其他應(yīng)用場(chǎng)景拓展。2022年, Mech-Eye是Meckamander推出的一款用于檢測(cè)/測(cè)量場(chǎng)景的微米級(jí)精密工業(yè)3D相機(jī),應(yīng)用于汽車零部件生產(chǎn)裝配過(guò)程中的位置、間隙、面差的檢測(cè)/測(cè)量。2023年,海康機(jī)器人發(fā)布光伏組件母線視覺(jué)檢測(cè)解決方案,可滿足串EL外部檢測(cè)、排版定位、接線盒焊后檢測(cè)等需求。同年,途洋科技推出工業(yè)相機(jī)——E1,用于無(wú)序分揀、計(jì)量檢測(cè)等多種場(chǎng)景。4.三維視覺(jué)的核心部件:努力實(shí)現(xiàn)自主可控的三維視覺(jué)成像。該方案是基于2D相機(jī)的結(jié)構(gòu)和軟件重建,這些相機(jī)大多是作為零件購(gòu)買(mǎi)的。3D攝像機(jī)由四部分組成:紅外發(fā)射器(IR LD or),紅外攝像機(jī)(IR CIS或其他光電二極管), 可視攝像頭(Vis CIS),圖像處理芯片。紅外發(fā)射器向物體表面發(fā)射紅外光,紅外傳感器采集物體的深度圖像(Z軸信息),可見(jiàn)光傳感器采集物體的平面圖像(X軸和Y軸信息),通過(guò)圖像處理芯片獲得三維位置信息。紅外相機(jī)需要專門(mén)的窄帶濾光片,結(jié)構(gòu)光方案還需要在發(fā)射端增加一個(gè)光學(xué)棱鏡和光柵,增加一個(gè)紅外相機(jī)進(jìn)行雙目立體成像。


4.1 3D光源:紅外激光發(fā)射器2D光源:競(jìng)爭(zhēng)激烈,豪普特是國(guó)內(nèi)最具競(jìng)爭(zhēng)力的光源。公司一個(gè)。機(jī)器視覺(jué)光源對(duì)照度、均勻性、穩(wěn)定性三個(gè)核心指標(biāo)的要求更高。按分類,光源可分為L(zhǎng)ED光源、鹵素?zé)簟⒏哳l熒光燈和激光光源。全球市場(chǎng)份額超過(guò)5%的公司是日本的CCS和Haupt,CCS全球市場(chǎng)份額超過(guò)10%。第二梯隊(duì)的市場(chǎng)份額在1%-5%之間,代表企業(yè)有美國(guó),Inc,中國(guó)銳視光電,中國(guó)康士坦茨,中國(guó)嘉利等。第三梯隊(duì)的市場(chǎng)份額不到1%,代表企業(yè)有中國(guó)的Wodup和中國(guó)的朗威光電。豪普光源產(chǎn)品涵蓋普通可見(jiàn)光和不可見(jiàn)光, 而不可見(jiàn)光產(chǎn)品涵蓋了波長(zhǎng)從~的紫外光和紅外光,共38個(gè)系列,近千個(gè)標(biāo)準(zhǔn)化產(chǎn)品。光源控制器包括模擬控制器和數(shù)字控制器,后者可以通過(guò)PC遠(yuǎn)程控制。目前CCS標(biāo)準(zhǔn)光源的最小尺寸和厚度為3mm,Haupt中各類光源的厚度在10mm-20mm之間..在3D相機(jī)中,光源是紅外激光發(fā)射器,發(fā)射圖像的質(zhì)量對(duì)整體識(shí)別效果至關(guān)重要,是近紅外光源的最佳方案。紅外線的主要波長(zhǎng)是100 ~ 100nm。目前的相機(jī)圖像傳感器對(duì)上述紅外光的靈敏度較差,需要更強(qiáng)的光來(lái)感知,這就要求紅外發(fā)射器的電流更大,功耗也更大。下列波長(zhǎng)太接近可見(jiàn)光, 極易受太陽(yáng)光干擾,所以一般紅外波長(zhǎng)選在~處。能提供800波段的近紅外光源有三種:紅外LED、紅外LD-EEL(邊發(fā)射激光二極管)和垂直腔面發(fā)射激光器。早期的3D傳感系統(tǒng)一般使用LED作為紅外光源。但是由于LED沒(méi)有諧振腔,光束更加發(fā)散,耦合性也不如以前,所以演變成了LED到LED的轉(zhuǎn)變。有很多廠家。全球主要供應(yīng)商包括ⅱⅵ、ams等,他們?cè)谝苿?dòng)終端方面處于研發(fā)的前沿。國(guó)內(nèi)制造商:武漢廣訊,山東太平洋,深圳國(guó)源、國(guó)星光電、華工科技、光迅科技、三安光電、贛兆光電、 華燦光電和瑞熙科技有低端設(shè)計(jì)和生產(chǎn)能力。長(zhǎng)春光機(jī)所在技術(shù)研發(fā)方面具有一定的競(jìng)爭(zhēng)力。結(jié)構(gòu)光需要圖像進(jìn)行空間識(shí)別,所以需要定制DOE衍射光學(xué)元件(蘋(píng)果,仙境光電,傅晶科技,宇光科技等。)和WLO晶圓級(jí)光學(xué)元件(AMS、仙境光電、蔡羽、水晶科技等。).紅外傳感器是距離傳感器的高端版本,主要由AMS/和意法半導(dǎo)體主導(dǎo),國(guó)內(nèi)沒(méi)有企業(yè)切入。一直致力于微型化t of傳感器的研發(fā),2016年被AMS收購(gòu)。TI在這一領(lǐng)域也有布局。4.2 3D紅外攝像機(jī)紅外攝像機(jī)主要包括:光學(xué)鏡頭、 紅外窄帶干涉濾光片和紅外CMOS傳感器。以手機(jī)攝像頭的成本構(gòu)成為參考,CIS是最有價(jià)值的部分,模組封裝占20%,光學(xué)鏡頭占19%。海外品牌壟斷工業(yè)鏡頭高端市場(chǎng),國(guó)內(nèi)廠商成立涉足高端領(lǐng)域。紅外相機(jī)對(duì)光學(xué)鏡頭的要求沒(méi)有可見(jiàn)光相機(jī)高,對(duì)光通量、畸變校正等指標(biāo)的容忍度較高,大多采用成熟的普通鏡頭。可見(jiàn)光相機(jī),使用普通鏡頭模塊,用于拍攝2D彩色圖片。制造商主要有德國(guó)施耐德、卡爾·蔡司、美國(guó)KOWA、意大利CBC光電公司等。, 基本壟斷了國(guó)內(nèi)高端市場(chǎng)。卡爾·蔡司與ASML緊密合作,利用光刻透鏡技術(shù)引領(lǐng)半導(dǎo)體制造業(yè)。施耐德等主流廠商的工業(yè)鏡頭廣泛應(yīng)用于晶圓切割、精密零件檢測(cè)、航空航天、醫(yī)學(xué)顯微鏡等諸多領(lǐng)域。一些國(guó)內(nèi)工業(yè)鏡頭企業(yè)已經(jīng)能夠提供全系列的工業(yè)鏡頭,并開(kāi)始涉足高端市場(chǎng)。例如,毛雷爾光學(xué)的產(chǎn)品可以滿足不同條件下半導(dǎo)體測(cè)試的要求。深圳鄭東光學(xué)的掃描線系列應(yīng)用于華為、比亞迪、富士康的生產(chǎn)檢測(cè)。4.3窄帶濾光片在近紅外識(shí)別系統(tǒng)中,窄帶濾光片是主要的濾光片。對(duì)于3D視覺(jué)來(lái)說(shuō), 紅外相機(jī)和RGB相機(jī)在濾色器上有很大的區(qū)別。傳統(tǒng)的RGB可見(jiàn)光相機(jī)需要使用高通紅外濾光片過(guò)濾掉不必要的低頻近紅外光,避免紅外線影響可見(jiàn)光產(chǎn)生假色或波紋,同時(shí)可以提高有效分辨率和色彩還原。但為了不受環(huán)境光干擾,紅外相機(jī)需要使用窄帶濾光片,只允許特定波段的近紅外光通過(guò)。目前近紅外窄帶濾光片主要采用干涉原理,需要幾十層光學(xué)鍍膜,技術(shù)難度和產(chǎn)品都比RGB吸收濾光片高。價(jià)格。世界窄帶濾光片主要生產(chǎn)廠家:美國(guó)水晶光電。其他制造商包括Brebold Optics()、Metilon Precision Optics() 和波長(zhǎng)技術(shù)()。4.4 CMOS圖像傳感器CMOS圖像傳感器,索尼三星銷量占全球市場(chǎng)55%,格科威全球出貨量第一。從硬件結(jié)構(gòu)上看,2D工業(yè)相機(jī)主要由圖像傳感器、驅(qū)動(dòng)器、時(shí)序發(fā)生器和傳輸接口組成。長(zhǎng)期以來(lái),智能手機(jī)保持著對(duì)CMOS的第一需求,而隨著智能駕駛技術(shù)的不斷升級(jí),汽車已經(jīng)成為增長(zhǎng)最快的需求側(cè)應(yīng)用。索尼憑借自研堆疊式CMOS傳感器等技術(shù)領(lǐng)先于全球廠商,下游覆蓋手機(jī)、汽車、智能制造、安防物流等多個(gè)應(yīng)用領(lǐng)域。三星在3C電子和汽車領(lǐng)域緊隨其后, 而國(guó)內(nèi)廠商如格科威、豪厄爾主要在手機(jī)等領(lǐng)域布局中低端產(chǎn)品。索尼和三星在全球市場(chǎng)份額長(zhǎng)期領(lǐng)先全行業(yè),2022年合計(jì)將達(dá)到全球55%。國(guó)產(chǎn)廠商格科微CMOS出貨量超過(guò)索尼。2021年出貨量22億件,連續(xù)三年全球第一。其產(chǎn)品更側(cè)重于低端領(lǐng)域,所以銷量離索尼還有很大差距。由于收購(gòu)了豪威,威爾股份銷售額位居世界前列,國(guó)內(nèi)廠商有比阿迪微電子、瑞芯微、思必克威、長(zhǎng)光陳欣等。3D圖像處理芯片技術(shù)壁壘高。目前全球少數(shù)芯片巨頭可以提供這類產(chǎn)品,包括意法半導(dǎo)體。德州儀器,英飛凌, 等等。3D圖像處理芯片需要將紅外CIS采集的位置信息和可見(jiàn)光CIS采集的物面信息處理成具有深度信息的單像素3D圖像,完成3D建模。數(shù)據(jù)處理和計(jì)算的復(fù)雜度高于半個(gè)ISP圖像處理芯片,壁壘更高。5.AI賦能機(jī)器視覺(jué),提升特定場(chǎng)景的分析能力,拓寬場(chǎng)景5.1中可視化軟件的開(kāi)發(fā)模式:軟件平臺(tái)+可視化包機(jī)器視覺(jué)軟件和新的開(kāi)發(fā)模式是軟件平臺(tái)+可視化包,針對(duì)不同的流程場(chǎng)景不斷開(kāi)發(fā)迭代流程包。機(jī)器視覺(jué)軟件的具體指標(biāo)主要包括定位算法模塊數(shù)量、算法性能、軟件靈活性和易用性。視覺(jué)軟件XG-X在算法準(zhǔn)確性和操作方面處于領(lǐng)先地位, 支持的三維精度可達(dá)2.5μm..國(guó)產(chǎn)軟件算法正在努力追趕,積累了無(wú)數(shù)垂直領(lǐng)域算法。Hikon開(kāi)發(fā)了超過(guò)170個(gè)算法工具包,Haupt和凌云光學(xué)機(jī)器視覺(jué)算法平臺(tái)已經(jīng)收錄了100+個(gè)算法工具包,支持6微米的3D精度..


5.2 3D視覺(jué)和AI技術(shù)的應(yīng)用提高了對(duì)具體場(chǎng)景的分析能力。視覺(jué)識(shí)別過(guò)程分為兩條路線:訓(xùn)練模型和識(shí)別圖像。a .訓(xùn)練模型:樣本數(shù)據(jù)包括陽(yáng)性樣本(包含待檢測(cè)目標(biāo)的樣本)和陰性樣本(不包含目標(biāo)的樣本),視覺(jué)系統(tǒng)使用算法從原始樣本中選擇和提取特征來(lái)訓(xùn)練一個(gè)分類器(模型);此外,由于樣本數(shù)據(jù)成千上萬(wàn),提取的特征翻倍,為了縮短訓(xùn)練過(guò)程,人們會(huì)人為地加入知識(shí)庫(kù)(提前告訴計(jì)算機(jī)一些規(guī)則)或者引入限制條件來(lái)縮小搜索空間。b .識(shí)別圖像:首先對(duì)圖像進(jìn)行信號(hào)變換和降噪預(yù)處理, 然后使用分類器來(lái)檢測(cè)輸入圖像的目標(biāo)。一般的檢測(cè)過(guò)程是用一個(gè)掃描子窗口在待檢測(cè)的圖像中不斷的移動(dòng)和滑動(dòng)。子窗口的每個(gè)位置都會(huì)計(jì)算該區(qū)域的特征,然后用一個(gè)訓(xùn)練好的分類器對(duì)特征進(jìn)行篩選,確定該區(qū)域是否為目標(biāo)。目前全球最大的圖像識(shí)別數(shù)據(jù)庫(kù)由斯坦福大學(xué)人工智能實(shí)驗(yàn)室提供,對(duì)于醫(yī)療等細(xì)分行業(yè)需要收集相應(yīng)的訓(xùn)練數(shù)據(jù)。為市場(chǎng)提供開(kāi)源算法框架,為初創(chuàng)企業(yè)提供視覺(jué)識(shí)別。公司提供主要算法。目前,工業(yè)機(jī)器視覺(jué)系統(tǒng)主要采用基于規(guī)則學(xué)習(xí)的思想。以缺陷檢測(cè)為例,首先, 人們需要總結(jié)缺陷的類型,提取特征來(lái)判斷各種缺陷。然后通過(guò)大量的帶特征的樣本訓(xùn)練,計(jì)算機(jī)就可以區(qū)分這些特征,判斷是否存在缺陷。然而,當(dāng)檢測(cè)場(chǎng)景變得復(fù)雜時(shí),基于規(guī)則學(xué)習(xí)的思想已經(jīng)不能很好地滿足要求。基于深度學(xué)習(xí)的機(jī)器視覺(jué)不僅可以判斷缺陷,還可以理解缺陷的共同特征,預(yù)測(cè)新的缺陷類型,從而實(shí)現(xiàn)對(duì)更復(fù)雜場(chǎng)景的更好分析。深度學(xué)習(xí)技術(shù)的應(yīng)用將對(duì)計(jì)算能力和存儲(chǔ)能力提出更高的要求。5.3結(jié)合大模型實(shí)現(xiàn)降本增效,推動(dòng)商業(yè)落地視覺(jué)大模型更大范圍的技術(shù)突破,賦能機(jī)器視覺(jué)的創(chuàng)新突破。在過(guò)去, 工業(yè)機(jī)器視覺(jué)系統(tǒng)主要針對(duì)垂直場(chǎng)景下的少量數(shù)據(jù)訓(xùn)練小模型。干模型的教導(dǎo)量是有限的,因此模型能夠處理的問(wèn)題的復(fù)雜性是有限的。在這種訓(xùn)練模式下,如果要將工業(yè)機(jī)器視覺(jué)應(yīng)用到新的場(chǎng)景中,需要更多的相關(guān)場(chǎng)景數(shù)據(jù),并對(duì)模型進(jìn)行重新訓(xùn)練,帶來(lái)了更高的應(yīng)用推廣成本,也不利于大規(guī)模商業(yè)化。視覺(jué)大模型賦能的機(jī)器視覺(jué)行業(yè)變革主要體現(xiàn)在兩個(gè)方面:a .數(shù)據(jù)成本和訓(xùn)練成本高的場(chǎng)景有望降本增效。大模型在廣泛的下游場(chǎng)景中具有優(yōu)異的能力,因此有望大大降低定制開(kāi)發(fā)產(chǎn)品的成本, 提高機(jī)器視覺(jué)產(chǎn)品毛利率,加速應(yīng)用場(chǎng)景拓展。b .機(jī)器視覺(jué)因樣本不足而難以應(yīng)用的場(chǎng)景將被拓展。得益于大模型在零樣本或少量樣本上的優(yōu)異表現(xiàn),機(jī)器視覺(jué)將在這些領(lǐng)域得到拓展,比如機(jī)器人領(lǐng)域從代碼驅(qū)動(dòng)到視覺(jué)驅(qū)動(dòng),流程工業(yè)場(chǎng)景等等。從卷積神經(jīng)網(wǎng)絡(luò)到SAM和通用視覺(jué)模型,AI幫助機(jī)器視覺(jué)提高效率。2012年Alex等人提出卷積神經(jīng)網(wǎng)絡(luò)后,業(yè)界不斷改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)算法來(lái)處理計(jì)算機(jī)視覺(jué)任務(wù),廣泛應(yīng)用于邊緣檢測(cè)()、特征提取(SIFT)、圖像分割等領(lǐng)域,解決了傳統(tǒng)2D算法錯(cuò)誤率高(超過(guò)15%)、重疊包排序困難、 分揀速度慢等。但仍存在影響計(jì)算精度的問(wèn)題,如訓(xùn)練數(shù)據(jù)過(guò)大、無(wú)法處理時(shí)間序列數(shù)據(jù)、容易過(guò)擬合等。業(yè)界逐漸提出了基于編解碼概念(-)的全卷積神經(jīng)網(wǎng)絡(luò)算法和VIT模型,從像素分割層提高算法精度。2023年4月,Meta和致遠(yuǎn)分別發(fā)布了通用圖像分割模型(SAM)和,增加了交互性和實(shí)例的自動(dòng)推理學(xué)習(xí),大大提高了監(jiān)督模型的效果。為了降低成本,業(yè)界提出了弱監(jiān)督學(xué)習(xí)算法。全卷積神經(jīng)網(wǎng)絡(luò)算法和編解碼概念都是全監(jiān)督模型,很難在訓(xùn)練階段做出像素級(jí)精確標(biāo)注的圖像并大批量獲取, 所以前期在各種工業(yè)場(chǎng)景推廣是很貴的。本文在原模型中加入簡(jiǎn)單的標(biāo)記作為監(jiān)督信息進(jìn)行計(jì)算,并將結(jié)果與標(biāo)記進(jìn)行比較,再次迭代上述步驟,直至精度收斂。弱監(jiān)督算法主要基于三種弱標(biāo)記材料:幀級(jí)、涂鴉級(jí)和圖像級(jí),這將大大降低預(yù)先訓(xùn)練SAM的成本,大模型有助于提高圖像分割的準(zhǔn)確性。2023年4月,Meta和致遠(yuǎn)分別發(fā)布了通用圖像分割模型和,兩者整體架構(gòu)采用了編解碼結(jié)構(gòu)。基于ViT架構(gòu),將不同的切分任務(wù)統(tǒng)一到一個(gè)通用的上下文學(xué)習(xí)框架中進(jìn)行訓(xùn)練,并通過(guò)提供實(shí)例自動(dòng)推理和完成切分任務(wù)。AM將提示()引入模型, 這增加了用戶的交互性。在接受了數(shù)百萬(wàn)張圖像和超過(guò)10億個(gè)掩膜的訓(xùn)練后,能夠根據(jù)交互提示返回有效的分割掩膜。SAM模型在切割任務(wù)的不同具體場(chǎng)景下表現(xiàn)出很強(qiáng)的泛化能力,在零樣本和少量樣本的基礎(chǔ)上,可以很好的完成不同的切割任務(wù);SAM模型還具有高精度自動(dòng)標(biāo)注的能力,降低了數(shù)據(jù)標(biāo)注的成本。SAM在醫(yī)學(xué)成像、視頻、數(shù)據(jù)標(biāo)注、三維重建、機(jī)器人、視頻文本定位、圖像字幕、多模態(tài)視覺(jué)和開(kāi)放詞匯的交互式分割等廣泛的圖像處理應(yīng)用中具有巨大的潛力。(本文僅供參考。不代表我們的任何投資建議。有關(guān)信息,請(qǐng)參閱原始報(bào)告。)精選報(bào)告來(lái)源:【未來(lái)智庫(kù)】。