使用Google的Tesseract和OpenCV構(gòu)建光學(xué)字符識(shí)別(OCR)系統(tǒng)
總覽
光學(xué)字符識(shí)別(OCR)是計(jì)算機(jī)視覺(jué)領(lǐng)域中廣泛使用的系統(tǒng),了解如何為各種任務(wù)構(gòu)建自己的OCR,我們將利用OpenCV庫(kù)和Tesseract來(lái)構(gòu)建OCR系統(tǒng)。
介紹你還記得考試期間我們必須填寫正確答案的日子嗎?或者你還記得在開(kāi)始第一份工作之前進(jìn)行的能力測(cè)驗(yàn)?zāi)?我可以回憶起奧林匹克競(jìng)賽和多項(xiàng)選擇測(cè)試,大學(xué)和組織會(huì)使用光學(xué)字符識(shí)別(OCR)系統(tǒng)對(duì)答卷進(jìn)行大量評(píng)分。老實(shí)說(shuō),OCR在廣泛的行業(yè)和功能中都有應(yīng)用,因此從掃描文檔(包括銀行對(duì)帳單,收據(jù),手寫文檔,優(yōu)惠券等)到閱讀自動(dòng)駕駛汽車的路牌,都在OCR的范疇內(nèi)。OCR系統(tǒng)在幾十年前建造起來(lái)是非常昂貴和繁瑣的,但隨著計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)領(lǐng)域的進(jìn)步意味著我們現(xiàn)在可以建立自己的OCR系統(tǒng)了!
但是,建立OCR系統(tǒng)并不是一件容易的事,對(duì)于初學(xué)者來(lái)說(shuō),面臨著諸如圖像中的字體不同,對(duì)比度差,圖像中有多個(gè)對(duì)象等問(wèn)題。因此,在本文中,我們將探討OCR任務(wù)的一些非常著名且有效的方法,以及如何自己實(shí)施。如果你不熟悉目標(biāo)檢測(cè)和計(jì)算機(jī)視覺(jué),建議你先閱讀以下資源:基本目標(biāo)檢測(cè)算法的介紹https://www.a(chǎn)nalyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1計(jì)算機(jī)視覺(jué)課程https://courses.a(chǎn)nalyticsvidhya.com/courses/computer-vision-using-deep-learning-version2目錄什么是光學(xué)字符識(shí)別(OCR)現(xiàn)實(shí)世界中流行的OCR應(yīng)用使用Tesseract OCR進(jìn)行文本識(shí)別文本檢測(cè)的不同方法什么是光學(xué)字符識(shí)別(OCR)首先,讓我們了解一下什么是OCR。OCR,或稱光學(xué)字符識(shí)別是一種識(shí)別圖像內(nèi)文本并將其轉(zhuǎn)換為電子形式的過(guò)程。這些圖像可以是手寫文字,文件,收據(jù),名片等印刷文字,甚至是自然場(chǎng)景照片。OCR有兩個(gè)部分,第一部分是文本檢測(cè),確定圖像中的文本部分,文本在圖像中的定位對(duì)于OCR的第二部分文本識(shí)別非常重要,其中文本是從圖像中提取出來(lái)的。結(jié)合使用這些技術(shù)可以從任何圖像中提取文本。
沒(méi)有什么是完美的,OCR也不例外。但是,隨著深度學(xué)習(xí)的到來(lái),對(duì)這一問(wèn)題有可能得到更好、更普遍的解決方案。在我們深入研究如何構(gòu)建自己的OCR之前,讓我們先看看OCR的一些流行應(yīng)用程序,F(xiàn)實(shí)世界中流行的OCR應(yīng)用OCR在各行各業(yè)有著廣泛的應(yīng)用(主要是為了減少人工操作)。它已經(jīng)融入到我們的日常生活中,以至于我們幾乎沒(méi)有注意到它!但它肯定會(huì)努力帶來(lái)更好的用戶體驗(yàn)。
OCR常用于在手寫識(shí)別任務(wù)中提取信息。該領(lǐng)域正在進(jìn)行許多工作,也取得了一些非常重大的進(jìn)步。Microsoft提出了一個(gè)很棒的數(shù)學(xué)應(yīng)用程序,該應(yīng)用程序以手寫的數(shù)學(xué)方程式作為輸入,生成解決方案,并逐步解釋其工作原理。OCR越來(lái)越多地被各個(gè)行業(yè)用于數(shù)字化,以減少人工工作量。這使得從業(yè)務(wù)文檔,收據(jù),發(fā)票,護(hù)照等中提取和存儲(chǔ)信息非常容易且高效,此外,當(dāng)你為KYC(Know Your Customer,了解客戶)上傳文檔時(shí),OCR用于從這些文檔中提取信息并存儲(chǔ)它們以供將來(lái)參考。OCR還用于書籍掃描,它將原始圖像轉(zhuǎn)換為數(shù)字文本格式。許多大型項(xiàng)目,例如Gutenberg項(xiàng)目,Million Book Project和Google Books,都使用OCR掃描和數(shù)字化書籍并將作品存儲(chǔ)為檔案。銀行業(yè)也越來(lái)越多地使用OCR來(lái)歸檔與客戶相關(guān)的文書工作,例如入職資料,以輕松創(chuàng)建客戶資料庫(kù),這顯著減少了上線時(shí)間,從而改善了用戶體驗(yàn)。此外,銀行使用OCR從支票中提取諸如帳號(hào),金額,支票號(hào)碼之類的信息,以加快處理速度。
說(shuō)到OCR的應(yīng)用,就必須提及它們?cè)谧詣?dòng)駕駛汽車中的使用。自動(dòng)駕駛汽車在很大程度上依賴OCR來(lái)閱讀路標(biāo)和交通標(biāo)志,對(duì)這些標(biāo)志的有效理解可以使自動(dòng)駕駛汽車對(duì)行人和其他在道路上行駛的車輛保持安全。還有很多OCR應(yīng)用,例如車牌識(shí)別,將掃描的文檔轉(zhuǎn)換為可編輯的Word文檔等等。使用OCR進(jìn)行數(shù)字化顯然具有廣泛的優(yōu)勢(shì),例如易于存儲(chǔ)和處理文本,更不用說(shuō)可以應(yīng)用到此數(shù)據(jù)的大量分析了!OCR絕對(duì)是計(jì)算機(jī)視覺(jué)最重要的領(lǐng)域之一。現(xiàn)在,讓我們看看最著名的和廣泛使用的文本識(shí)別技術(shù)之一——Tesseract。使用Tesseract OCR進(jìn)行文本識(shí)別Tesseract:https://tesseract-ocr.github.io/tessdoc/Documentation.htmlTesseract是一個(gè)開(kāi)源的OCR引擎,最初是由HP(Hewlett-Packard)作為專有軟件開(kāi)發(fā)的,但后來(lái)在2005年被開(kāi)源,從那時(shí)起,谷歌就采用了這個(gè)項(xiàng)目并贊助它的開(kāi)發(fā)。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒(méi)有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無(wú)人駕駛車,還未迎來(lái)“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰(shuí)是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬(wàn)億獨(dú)角獸,AI人才之爭(zhēng)開(kāi)啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市