訂閱
糾錯
加入自媒體

一文詳解計(jì)算機(jī)視覺與深度學(xué)習(xí)的應(yīng)用

全球汽車快訊 據(jù)外媒報道,當(dāng)人們看風(fēng)景或看圖像時,他(她)們能夠理解看到的內(nèi)容——風(fēng)景或照片內(nèi)的目標(biāo)。

若該行為正在進(jìn)行中,那么會發(fā)生什么呢?而一臺計(jì)算機(jī)則僅能處理用于描述各像素顏色值的數(shù)字?jǐn)?shù)據(jù)。

對于某個人而言,從凌亂的桌面上識別出一塊披薩,可謂毫不費(fèi)力。但直到如今,計(jì)算機(jī)卻無法執(zhí)行這類任務(wù)。

計(jì)算機(jī)視覺(簡稱:CV)可幫助一臺計(jì)算機(jī)從視覺輸入中選出重要的信息,然后基于該信息進(jìn)行精準(zhǔn)的預(yù)測并提出建議。

計(jì)算機(jī)視覺的工作原理是?

在計(jì)算機(jī)視覺誕生之前,為創(chuàng)建一個程序來識別特殊的圖像,某人需要耗費(fèi)數(shù)小時的時間,來手動完成這類繁瑣的工作。

首先,需要核對一個相似圖像的數(shù)據(jù)庫。然后,不得不人工分析、測量這類圖像,當(dāng)研究人員或許能識別存疑的目標(biāo)時,標(biāo)注相關(guān)的數(shù)據(jù)(如:顏色、測量值及形狀)。當(dāng)時,或許只有軟件能被用于預(yù)測工作。

而計(jì)算機(jī)視覺則采用深度學(xué)習(xí)這類機(jī)器學(xué)習(xí)方法,自動完成上述的所有流程。

深度學(xué)習(xí)采用了多層神經(jīng)元網(wǎng)絡(luò),其含有數(shù)百個潛在的層級。若遇到圖像,則通常采用一個卷積神經(jīng)元網(wǎng)絡(luò)(convolutional neural network,CNN)。

詳細(xì)解釋深度學(xué)習(xí)和神經(jīng)元網(wǎng)絡(luò)的工作原理已遠(yuǎn)超本文的內(nèi)容范疇。從本質(zhì)上講,就是向神經(jīng)元網(wǎng)絡(luò)送入大量的數(shù)據(jù)。然后,神經(jīng)元網(wǎng)絡(luò)會反復(fù)分析數(shù)據(jù),直到能做出精準(zhǔn)的預(yù)測為止。

以用于某個計(jì)算機(jī)視覺的卷積神經(jīng)元網(wǎng)絡(luò)為例,神經(jīng)元網(wǎng)絡(luò)將通過多個步驟來取得數(shù)據(jù)。首先,神經(jīng)元網(wǎng)絡(luò)將圖像拆解為多個部分(單個像素或預(yù)先標(biāo)注過的像素組)。

然后,對不同部分的圖像(如:硬邊緣或特定目標(biāo))進(jìn)行預(yù)測。神經(jīng)元網(wǎng)絡(luò)還會反復(fù)檢查其預(yù)測結(jié)果的準(zhǔn)確性,每次都會對算法進(jìn)行微調(diào),直至其變得極為精準(zhǔn)。

如今,計(jì)算機(jī)的功能變得極為強(qiáng)大,相較于人腦,前者對圖像的分析速度更快。當(dāng)其學(xué)會識別特定模式后,情況就更是如此了。為此,深度學(xué)習(xí)算法或?qū)⑦h(yuǎn)超人類的能力,這一點(diǎn)不難看出。

計(jì)算機(jī)視覺的類型有哪些呢?

計(jì)算機(jī)視覺涉及對圖像的分析與理解、對圖像相關(guān)預(yù)測或決策的輸出。為實(shí)現(xiàn)這類目標(biāo),計(jì)算機(jī)視覺有各類不同的任務(wù),如下:

圖像分類:識別圖像的類型。例如,分辨是人臉、景色還是目標(biāo)。這類任務(wù)常被用于迅速識別圖像并予以分類。該技術(shù)的一項(xiàng)用途是自動識別并屏蔽社交媒體上的“不健康”內(nèi)容。

目標(biāo)識別:類似于圖像分類,目標(biāo)識別可識別某個場景內(nèi)的特定目標(biāo)——如:從凌亂的桌面上識別出一塊披薩。

邊緣檢測:計(jì)算機(jī)視覺技術(shù)的常見用法,通常是目標(biāo)檢測的第一步,該技術(shù)可識別圖像內(nèi)的硬邊緣。

目標(biāo)標(biāo)識:這指的是對某個目標(biāo)物或圖像中的個別例子進(jìn)行識別,例如:標(biāo)注某個特定的人、指紋或車輛。

目標(biāo)檢測:目標(biāo)檢測指的是識別某張圖片內(nèi)的特定特征進(jìn)行標(biāo)識,例如:X光片中的骨折。

目標(biāo)分割:指的是識別圖像中的哪個像素屬于存疑的目標(biāo)。

目標(biāo)追蹤:在一段視頻序列中,在識別某個目標(biāo)后,可輕松在整段視頻中追溯到該目標(biāo)。

圖像復(fù)原:在精準(zhǔn)標(biāo)識圖像中的目標(biāo)物與背景后,可移除圖像中的模糊、噪點(diǎn)及其他圖像偽影。

計(jì)算機(jī)視覺的應(yīng)用示例

人工智能技術(shù)已被用于多個行業(yè),并產(chǎn)生了驚人的影響。計(jì)算機(jī)視覺技術(shù)也同樣如此。以下是計(jì)算機(jī)視覺在當(dāng)下的幾個應(yīng)用示例。

面部識別

面部識別是當(dāng)今計(jì)算機(jī)視覺的主要應(yīng)用方式之一。當(dāng)對已知面部圖像數(shù)據(jù)庫進(jìn)行照片比對時,計(jì)算機(jī)視覺算法可精準(zhǔn)地識別個人。

社交媒體分析圖像并自動為經(jīng)過一輪圖像篩選后的用戶貼標(biāo)

筆記本電腦、電話和安全設(shè)備可對人們的身份加以識別,并給予合規(guī)人員使用權(quán)限。

執(zhí)法人員在閉路電池系統(tǒng)內(nèi)使用面部識別來確定嫌疑人的身份。

醫(yī)藥

目前,計(jì)算機(jī)視覺被用于醫(yī)療保健行業(yè),旨在為患者提供更快捷、更精準(zhǔn)的診斷,其診斷結(jié)果甚至遠(yuǎn)勝于醫(yī)學(xué)專家。

該技術(shù)的諸多應(yīng)用還涉及:對X光、計(jì)算機(jī)斷層掃描或核磁共振影像進(jìn)行分析并用于篩查神經(jīng)系統(tǒng)病癥、腫瘤、骨裂或骨折等特定疾病。

自動駕駛汽車

自動駕駛汽車需要對車輛周邊環(huán)境進(jìn)行了解,以便確保駕駛安全性。這意味著需要識別道路、車道、交通信號燈、其他車輛、行人等。

上述所有任務(wù)均能利用計(jì)算機(jī)視覺系統(tǒng)進(jìn)行實(shí)時探查,從而規(guī)避碰撞事故并確保駕駛安全性。

計(jì)算機(jī)視覺充滿挑戰(zhàn)性

當(dāng)前計(jì)算機(jī)視覺的應(yīng)用已開始向我們涉及的各行各業(yè)滲透。從能夠探查故障設(shè)備或破損設(shè)備到精準(zhǔn)地診斷出癌癥,計(jì)算機(jī)視覺有能力提升各系統(tǒng)的能力并挽救生命。

但是,該技術(shù)也絕非沒有挑戰(zhàn)。計(jì)算機(jī)視覺仍遠(yuǎn)不及人眼視覺。我們?nèi)祟愡M(jìn)化了數(shù)千年,從而使我們能夠識別并了解幾乎實(shí)時發(fā)生在我們身邊的所有事情。然而,我們?nèi)圆磺宄四X是如何執(zhí)行這類任務(wù)的。

深度學(xué)習(xí)是在正確道路/方向上邁出的一大步,但仍需要海量的工作量來創(chuàng)建一個系統(tǒng),以確保該系統(tǒng)能執(zhí)行人類輕松搞定的任務(wù),例如:識別道路上的某輛汽車。然而,研發(fā)一臺可理解視覺世界所有復(fù)雜性的計(jì)算機(jī)卻完全是另外一碼事了。

人工智能應(yīng)用和人類生物學(xué)方面還需要進(jìn)行更多的研究,我們希望能在不久的將來看到計(jì)算機(jī)視覺技術(shù)的可應(yīng)用領(lǐng)域呈現(xiàn)爆發(fā)式增長。(本文為編譯作品,所用英文原文和圖片選自makeuseof)

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號