視覺是人類強(qiáng)大的感知方式。它為人們提供了大量關(guān)于周圍環(huán)境的信息,使人們能夠有效地與周圍環(huán)境互動。據(jù)統(tǒng)計(jì),80%以上的人類從外部世界接收的信息是通過視覺獲得的,50%的大腦皮層參與視覺功能的運(yùn)行。
芯片采購網(wǎng)專注于整合國內(nèi)外授權(quán)IC代理商現(xiàn)貨資源,芯片庫存實(shí)時(shí)查詢,行業(yè)價(jià)格合理,采購方便IC芯片,國內(nèi)專業(yè)芯片采購平臺。
有許多有趣的視覺發(fā)現(xiàn),比如螳螂蝦的眼睛可以檢測到偏振光。人眼和普通相機(jī)只能感知光的強(qiáng)度信息,而不能檢測光的偏振信息。昆士蘭大學(xué)的研究人員發(fā)現(xiàn),螳螂蝦的復(fù)眼(見圖1-2)可以檢測到偏振光。根據(jù)生物醫(yī)學(xué)和光學(xué)的理論知識,生物組織的特征與偏振信息有關(guān),因此螳螂蝦的眼睛可以診斷生物組織的病變。此外,蜻蜓和其他昆蟲有復(fù)眼結(jié)構(gòu)(見圖1-3)。蜘蛛有很多眼睛。青蛙的眼睛只能看到動態(tài)場景,狗對顏色信息的分辨率很低。
圖1-2螳螂蝦的眼睛
圖1-3蜻蜓的眼睛
那么,介紹生物視覺功能后,機(jī)器視覺是什么?
機(jī)器視覺是自動處理和報(bào)告圖像是什么的過程,即用于識別圖像中的內(nèi)容,如自動目標(biāo)識別。
機(jī)器視覺一般以計(jì)算機(jī)為中心,主要由視覺傳感器、高速圖像采集系統(tǒng)、特殊圖像處理系統(tǒng)等模塊組成。
根據(jù)David A.Forsyth和Jean Ponce計(jì)算機(jī)視覺的定義是利用幾何、物理和學(xué)習(xí)理論來建立模型,從而使用統(tǒng)計(jì)方法來處理數(shù)據(jù)。它是指在徹底了解相機(jī)性能和物理成像過程的基礎(chǔ)上,通過簡單個(gè)像素值的簡單推理,將多個(gè)圖像中可能獲得的信息整合成相互關(guān)聯(lián)的整體,確定像素之間的連接,以便相互分離或推斷一些形狀信息,然后使用幾何信息或概率統(tǒng)計(jì)來識別對象。
考慮到系統(tǒng)的輸入和輸出模式,機(jī)器視覺系統(tǒng)的輸入是圖像或圖像序列,輸出是描述。此外,機(jī)器視覺由特征測量和基于這些特征的模式識別兩部分組成。
機(jī)器視覺不同于圖像處理。圖像處理的目的是使圖像處理后更好。圖像處理系統(tǒng)的輸出仍然是圖像,機(jī)器視覺系統(tǒng)的輸出是與圖像內(nèi)容相關(guān)的信息。圖像處理可分為低級圖像處理、中級圖像處理和高級圖像處理。處理內(nèi)容包括圖像增強(qiáng)、圖像編碼、圖像壓縮、圖像恢復(fù)和重構(gòu)。
發(fā)展01機(jī)器視覺
圖1-4顯示了20世紀(jì)70年代以來機(jī)器視覺發(fā)展過程中的一些主題,包括數(shù)字圖像處理和積木世界,20世紀(jì)80年代的卡爾曼濾波器正則化,90年代的圖像分割,基于統(tǒng)計(jì)的圖像處理,以及21世紀(jì)計(jì)算攝像和機(jī)器視覺的深度學(xué)習(xí)。
圖1-4機(jī)器視覺發(fā)展過程中的一些主題
1.20世紀(jì)70年代
機(jī)器視覺始于20世紀(jì)70年代早期,被視為模擬人類智能并賦予機(jī)器人智能行為的感知組成部分。當(dāng)時(shí),麻省理工大學(xué)、斯坦福大學(xué)、卡內(nèi)基等人工智能和機(jī)器人的一些早期研究人員·梅隆大學(xué)的研究人員認(rèn)為,解決視覺輸入問題應(yīng)該是解決高水平推理和規(guī)劃等更困難問題的簡單步驟。例如,1966年,麻省理工大學(xué)Marvin Minsky讓他的本科生Gerald Jay Sussman將相機(jī)連接到計(jì)算機(jī)上,讓計(jì)算機(jī)描述它所看到的。現(xiàn)在,這些看似簡單的問題并不容易解決。
20世紀(jì)60年代出現(xiàn)了數(shù)字圖像處理。與現(xiàn)有的數(shù)字圖像處理領(lǐng)域不同,機(jī)器視覺希望從圖像中恢復(fù)實(shí)物的三維結(jié)構(gòu),從而獲得完整的場景理解。場景理解的早期嘗試包括提取物體(即積木世界)的邊緣,然后從二維線的拓?fù)浣Y(jié)構(gòu)推斷其三維結(jié)構(gòu)。此外,邊緣檢測也是一個(gè)活躍的研究領(lǐng)域。
20世紀(jì)70年代,人們還研究了物體的三維建模。Barrow、Tenenbaum與Marr通過表面朝向和陰影恢復(fù)三維結(jié)構(gòu),提出了理解亮度和陰影變化的方法。當(dāng)時(shí),有一些更定量的機(jī)器視覺方法,包括基于特征的三維視覺對應(yīng)(stereo correspondence)基于亮度的算法和光流(optica lflow)與此同時(shí),關(guān)于恢復(fù)三維結(jié)構(gòu)和相機(jī)運(yùn)動的研究也開始出現(xiàn)。
另外,David Marr關(guān)于(視覺)信息處理系統(tǒng)達(dá)的三個(gè)層次:
1)計(jì)算理論:計(jì)算(任務(wù))的目的是什么?已知或可以對這個(gè)問題施加的約束是什么?
2)表達(dá)和算法:如何表達(dá)輸入、輸出和中間信息?計(jì)算預(yù)期結(jié)果的算法是什么?
3)硬件實(shí)現(xiàn):表達(dá)和算法如何反映在實(shí)際硬件上,即生物視覺系統(tǒng)或特殊硅片上?相反,硬件約束如何用于指導(dǎo)表達(dá)和算法的選擇?隨著機(jī)器視覺對芯片計(jì)算能力需求的不斷增加,這個(gè)問題再次出現(xiàn)JRC代理次變得很重要。
2.20世紀(jì)80年代
20世紀(jì)80年代,圖像金字塔和規(guī)模空間開始廣泛應(yīng)用于從粗到精的對應(yīng)點(diǎn)搜索。20世紀(jì)80年代末,圖像金字塔開始被一些應(yīng)用中小波變換所取代。
從X到形狀的方法出現(xiàn)在三維視覺重建中,包括從陰影到形狀,從光度三維視覺到形狀,從紋理到形狀,從聚焦到形狀。在此期間,探索更準(zhǔn)確的邊緣和輪廓檢測方法是一個(gè)活躍的研究領(lǐng)域,包括引入動態(tài)進(jìn)化輪廓跟蹤器,如Snake模型。如果將三維視覺、光流、X到形狀和邊緣檢測算法作為變分優(yōu)化問題進(jìn)行處理,則可以使用相同的數(shù)學(xué)框架進(jìn)行統(tǒng)一描述,并可以使用正則方法來增加魯棒。此外,20世紀(jì)90年代卡爾曼濾波器和三維距離數(shù)據(jù)(range data)在過去的十年里,處理仍然是一個(gè)非常活躍的研究領(lǐng)域。
3.20世紀(jì)90年代
視覺發(fā)展如下:
1)在識別中使用投影不變量的研究呈爆炸性增長,可以有效地用于從運(yùn)動到結(jié)構(gòu)的問題。許多最初的研究都是針對投影重建的,它不需要相機(jī)校準(zhǔn)的結(jié)果。與此同時(shí),一些人提出了有效解決近似正交投影問題的因素分解方法,后來擴(kuò)展到透視投影。該領(lǐng)域開始采用全局優(yōu)化方法,后來被認(rèn)為與攝影測量中常用的光束平差法有關(guān)。
2)使用顏色和亮度進(jìn)行精細(xì)測量,并將其與精確的輻射傳輸和形成彩色圖像的物理模型相結(jié)合。這項(xiàng)工作始于20世紀(jì)80年代,形成了一個(gè)名為基于物理的視覺(physics-based visio)子領(lǐng)域。
3)光流方法不斷改進(jìn)。
4)在密集三維視覺對應(yīng)算法方面也取得了很大進(jìn)展。最大的突破可能是使用圖片切割(graph cut)全局優(yōu)化算法。
5)能產(chǎn)生完整三維表面的多視角立體視覺算法。
6)跟蹤算法也得到了很多改進(jìn),包括使用活動輪廓方法的輪廓跟蹤(如蛇形、粒子濾波和水平集)和基于亮度的跟蹤。
7)統(tǒng)計(jì)學(xué)習(xí)方法開始流行,如人臉識別的主要成分分析。
3.21世紀(jì)
在21世紀(jì),計(jì)算機(jī)視覺和計(jì)算機(jī)圖形的交叉越來越明顯,特別是在基于圖像的建模和繪制的交叉領(lǐng)域。此外,計(jì)算攝像發(fā)揮著越來越重要的作用,包括光場獲取和繪制以及通過多曝光實(shí)現(xiàn)的高動態(tài)范圍成像。目標(biāo)識別中基于特征的方法(結(jié)合學(xué)習(xí)方法)越來越突出,開發(fā)了更高效、更復(fù)雜的全球優(yōu)化問題。
最后一個(gè)趨勢是復(fù)雜機(jī)器學(xué)習(xí)方法在計(jì)算機(jī)視覺中的應(yīng)用,特別是近年來,基于深度學(xué)習(xí)的機(jī)器學(xué)習(xí)方法在圖像和視頻中的應(yīng)用。
02機(jī)器視覺與其他領(lǐng)域的關(guān)系
機(jī)器視覺是一門交叉學(xué)科,它與許多領(lǐng)域有關(guān),特別是機(jī)器視覺和計(jì)算機(jī)視覺之間的關(guān)系,有些學(xué)者認(rèn)為兩者是一樣的,有些人認(rèn)為兩者是不同的,圖1-5顯示了計(jì)算機(jī)視覺、圖像處理、人工智能、機(jī)器人控制、信號處理、成像等。在相關(guān)學(xué)科中,人工智能、機(jī)器人控制等概念都有明確的定義。成像是表示或重構(gòu)客觀物體形狀及相關(guān)信息的學(xué)科。
圖1-5機(jī)器視覺與其他領(lǐng)域的關(guān)系
圖像處理主要基于現(xiàn)有圖像生成新圖像,可通過噪聲抑制、模糊、邊緣增強(qiáng)等處理實(shí)現(xiàn)。模式識別的主要任務(wù)是對模式進(jìn)行分類。機(jī)器視覺的核心問題是從一個(gè)或多個(gè)圖像中生成符號描述。計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)是一個(gè)相互關(guān)聯(lián)和相反的過程。計(jì)算機(jī)圖形學(xué)的目的是呈現(xiàn)一些真實(shí)或非真實(shí)的場景,即通過虛擬建模處理場景,然后使用計(jì)算機(jī)呈現(xiàn);計(jì)算機(jī)視覺是通過收集圖像來獲取真實(shí)場景的信息。
- 聯(lián)發(fā)科看WiFi 7 供應(yīng)鏈商機(jī)大
- 挖墻腳?Google公布十大跳槽Android理由
- ADI攜手Gridspertise提高電網(wǎng)數(shù)字化 支持DSO加快能源轉(zhuǎn)型
- 單芯片銷量超過1000萬 美仁芯片"可靠性"再次獲得市場認(rèn)可
- 瑞薩電子收購Reality AI 為終端帶來先進(jìn)的信號處理和智能化
- 聯(lián)發(fā)科天暨再次犧牲了多項(xiàng)游戲技術(shù)大招,旗艦機(jī)玩家:沖!
- 尼得科Control Techniques新驅(qū)動產(chǎn)品COMMANDER S”全球上市
- 美光發(fā)布年度可持續(xù)發(fā)展報(bào)告:注重可持續(xù)進(jìn)展,堅(jiān)定履行賦予未來,豐富全人類生活的承諾
- Nexperia先進(jìn)的電熱模型可以覆蓋整個(gè)MOSFET工作溫度范圍
- Arm SystemReady 創(chuàng)下新里程 鞏固數(shù)據(jù)中心的創(chuàng)新基礎(chǔ)
- 貿(mào)澤電子推出電源管理資源及解決方案
- PCB你知道設(shè)計(jì)中一些特殊設(shè)備的布局要求嗎?