一文詳解計(jì)算機(jī)視覺與深度學(xué)習(xí)的應(yīng)用
全球汽車快訊 據(jù)外媒報道,當(dāng)人們看風(fēng)景或看圖像時,他(她)們能夠理解看到的內(nèi)容——風(fēng)景或照片內(nèi)的目標(biāo)。
若該行為正在進(jìn)行中,那么會發(fā)生什么呢?而一臺計(jì)算機(jī)則僅能處理用于描述各像素顏色值的數(shù)字?jǐn)?shù)據(jù)。
對于某個人而言,從凌亂的桌面上識別出一塊披薩,可謂毫不費(fèi)力。但直到如今,計(jì)算機(jī)卻無法執(zhí)行這類任務(wù)。
計(jì)算機(jī)視覺(簡稱:CV)可幫助一臺計(jì)算機(jī)從視覺輸入中選出重要的信息,然后基于該信息進(jìn)行精準(zhǔn)的預(yù)測并提出建議。
計(jì)算機(jī)視覺的工作原理是?
在計(jì)算機(jī)視覺誕生之前,為創(chuàng)建一個程序來識別特殊的圖像,某人需要耗費(fèi)數(shù)小時的時間,來手動完成這類繁瑣的工作。
首先,需要核對一個相似圖像的數(shù)據(jù)庫。然后,不得不人工分析、測量這類圖像,當(dāng)研究人員或許能識別存疑的目標(biāo)時,標(biāo)注相關(guān)的數(shù)據(jù)(如:顏色、測量值及形狀)。當(dāng)時,或許只有軟件能被用于預(yù)測工作。
而計(jì)算機(jī)視覺則采用深度學(xué)習(xí)這類機(jī)器學(xué)習(xí)方法,自動完成上述的所有流程。
深度學(xué)習(xí)采用了多層神經(jīng)元網(wǎng)絡(luò),其含有數(shù)百個潛在的層級。若遇到圖像,則通常采用一個卷積神經(jīng)元網(wǎng)絡(luò)(convolutional neural network,CNN)。
詳細(xì)解釋深度學(xué)習(xí)和神經(jīng)元網(wǎng)絡(luò)的工作原理已遠(yuǎn)超本文的內(nèi)容范疇。從本質(zhì)上講,就是向神經(jīng)元網(wǎng)絡(luò)送入大量的數(shù)據(jù)。然后,神經(jīng)元網(wǎng)絡(luò)會反復(fù)分析數(shù)據(jù),直到能做出精準(zhǔn)的預(yù)測為止。
以用于某個計(jì)算機(jī)視覺的卷積神經(jīng)元網(wǎng)絡(luò)為例,神經(jīng)元網(wǎng)絡(luò)將通過多個步驟來取得數(shù)據(jù)。首先,神經(jīng)元網(wǎng)絡(luò)將圖像拆解為多個部分(單個像素或預(yù)先標(biāo)注過的像素組)。
然后,對不同部分的圖像(如:硬邊緣或特定目標(biāo))進(jìn)行預(yù)測。神經(jīng)元網(wǎng)絡(luò)還會反復(fù)檢查其預(yù)測結(jié)果的準(zhǔn)確性,每次都會對算法進(jìn)行微調(diào),直至其變得極為精準(zhǔn)。
如今,計(jì)算機(jī)的功能變得極為強(qiáng)大,相較于人腦,前者對圖像的分析速度更快。當(dāng)其學(xué)會識別特定模式后,情況就更是如此了。為此,深度學(xué)習(xí)算法或?qū)⑦h(yuǎn)超人類的能力,這一點(diǎn)不難看出。
計(jì)算機(jī)視覺的類型有哪些呢?
計(jì)算機(jī)視覺涉及對圖像的分析與理解、對圖像相關(guān)預(yù)測或決策的輸出。為實(shí)現(xiàn)這類目標(biāo),計(jì)算機(jī)視覺有各類不同的任務(wù),如下:
圖像分類:識別圖像的類型。例如,分辨是人臉、景色還是目標(biāo)。這類任務(wù)常被用于迅速識別圖像并予以分類。該技術(shù)的一項(xiàng)用途是自動識別并屏蔽社交媒體上的“不健康”內(nèi)容。
目標(biāo)識別:類似于圖像分類,目標(biāo)識別可識別某個場景內(nèi)的特定目標(biāo)——如:從凌亂的桌面上識別出一塊披薩。
邊緣檢測:計(jì)算機(jī)視覺技術(shù)的常見用法,通常是目標(biāo)檢測的第一步,該技術(shù)可識別圖像內(nèi)的硬邊緣。
目標(biāo)標(biāo)識:這指的是對某個目標(biāo)物或圖像中的個別例子進(jìn)行識別,例如:標(biāo)注某個特定的人、指紋或車輛。
目標(biāo)檢測:目標(biāo)檢測指的是識別某張圖片內(nèi)的特定特征進(jìn)行標(biāo)識,例如:X光片中的骨折。
目標(biāo)分割:指的是識別圖像中的哪個像素屬于存疑的目標(biāo)。
目標(biāo)追蹤:在一段視頻序列中,在識別某個目標(biāo)后,可輕松在整段視頻中追溯到該目標(biāo)。
圖像復(fù)原:在精準(zhǔn)標(biāo)識圖像中的目標(biāo)物與背景后,可移除圖像中的模糊、噪點(diǎn)及其他圖像偽影。
計(jì)算機(jī)視覺的應(yīng)用示例
人工智能技術(shù)已被用于多個行業(yè),并產(chǎn)生了驚人的影響。計(jì)算機(jī)視覺技術(shù)也同樣如此。以下是計(jì)算機(jī)視覺在當(dāng)下的幾個應(yīng)用示例。
面部識別
面部識別是當(dāng)今計(jì)算機(jī)視覺的主要應(yīng)用方式之一。當(dāng)對已知面部圖像數(shù)據(jù)庫進(jìn)行照片比對時,計(jì)算機(jī)視覺算法可精準(zhǔn)地識別個人。
社交媒體分析圖像并自動為經(jīng)過一輪圖像篩選后的用戶貼標(biāo)
筆記本電腦、電話和安全設(shè)備可對人們的身份加以識別,并給予合規(guī)人員使用權(quán)限。
執(zhí)法人員在閉路電池系統(tǒng)內(nèi)使用面部識別來確定嫌疑人的身份。
醫(yī)藥
目前,計(jì)算機(jī)視覺被用于醫(yī)療保健行業(yè),旨在為患者提供更快捷、更精準(zhǔn)的診斷,其診斷結(jié)果甚至遠(yuǎn)勝于醫(yī)學(xué)專家。
該技術(shù)的諸多應(yīng)用還涉及:對X光、計(jì)算機(jī)斷層掃描或核磁共振影像進(jìn)行分析并用于篩查神經(jīng)系統(tǒng)病癥、腫瘤、骨裂或骨折等特定疾病。
自動駕駛汽車
自動駕駛汽車需要對車輛周邊環(huán)境進(jìn)行了解,以便確保駕駛安全性。這意味著需要識別道路、車道、交通信號燈、其他車輛、行人等。
上述所有任務(wù)均能利用計(jì)算機(jī)視覺系統(tǒng)進(jìn)行實(shí)時探查,從而規(guī)避碰撞事故并確保駕駛安全性。
計(jì)算機(jī)視覺充滿挑戰(zhàn)性
當(dāng)前計(jì)算機(jī)視覺的應(yīng)用已開始向我們涉及的各行各業(yè)滲透。從能夠探查故障設(shè)備或破損設(shè)備到精準(zhǔn)地診斷出癌癥,計(jì)算機(jī)視覺有能力提升各系統(tǒng)的能力并挽救生命。
但是,該技術(shù)也絕非沒有挑戰(zhàn)。計(jì)算機(jī)視覺仍遠(yuǎn)不及人眼視覺。我們?nèi)祟愡M(jìn)化了數(shù)千年,從而使我們能夠識別并了解幾乎實(shí)時發(fā)生在我們身邊的所有事情。然而,我們?nèi)圆磺宄四X是如何執(zhí)行這類任務(wù)的。
深度學(xué)習(xí)是在正確道路/方向上邁出的一大步,但仍需要海量的工作量來創(chuàng)建一個系統(tǒng),以確保該系統(tǒng)能執(zhí)行人類輕松搞定的任務(wù),例如:識別道路上的某輛汽車。然而,研發(fā)一臺可理解視覺世界所有復(fù)雜性的計(jì)算機(jī)卻完全是另外一碼事了。
在人工智能應(yīng)用和人類生物學(xué)方面還需要進(jìn)行更多的研究,我們希望能在不久的將來看到計(jì)算機(jī)視覺技術(shù)的可應(yīng)用領(lǐng)域呈現(xiàn)爆發(fā)式增長。(本文為編譯作品,所用英文原文和圖片選自makeuseof)
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【限時免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市