使用Google的Tesseract和OpenCV構(gòu)建光學(xué)字符識(shí)別(OCR)系統(tǒng)
截至今天,Tesseract可以檢測(cè)100多種語(yǔ)言,甚至可以處理從右到左的文本,例如阿拉伯語(yǔ)或希伯來(lái)語(yǔ)!難怪Google會(huì)將其用于移動(dòng)設(shè)備,視頻和Gmail的圖像垃圾郵件檢測(cè)算法中的文本檢測(cè)。從版本4開(kāi)始,Google對(duì)該OCR引擎進(jìn)行了重大改進(jìn)。Tesseract 4.0添加了新的OCR引擎,該引擎使用基于LSTM(長(zhǎng)期短期記憶,https://www.a(chǎn)nalyticsvidhya.com/blog/2017/12/fundamentals-of-deep-learning-introduction-to-lstm/) 的神經(jīng)網(wǎng)絡(luò)系統(tǒng),這是解決序列預(yù)測(cè)問(wèn)題的最有效解決方案之一。盡管它以前使用模式匹配的OCR引擎仍可作為舊代碼使用。將Tesseract下載(https://tesseract-ocr.github.io/tessdoc/Home.html) 到系統(tǒng)后,可以使用以下命令從命令行輕松運(yùn)行它(https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html):tesseract <test_image> <o(jì)utput_file_name> -l <language(s)> --oem <mode> --psm <mode>
你可以更改Tesseract配置以獲得最適合你的圖像的結(jié)果:語(yǔ)言(-l) : 使用Tesseract可以檢測(cè)一種或多種語(yǔ)言O(shè)CR引擎模式(-oem): 如你所知,Tesseract 4具有LSTM和Legacy OCR引擎。根據(jù)它們的組合,有4種有效的操作模式
頁(yè)面分割(–psm) : 可以根據(jù)圖像中的文本進(jìn)行調(diào)整以獲得更好的結(jié)果
Pyteseract但是,除了命令行方法之外,你還可以使用Pytesseract(https://github.com/madmaze/pytesseract) :Tesseract的Python包裝器。使用此功能,你可以通過(guò)編寫(xiě)簡(jiǎn)單的Python腳本使用Tesseract OCR輕松實(shí)現(xiàn)自己的文本識(shí)別器。你可以使用pip install pytesseract命令下載Pytesseract 。Pytesseract的主要功能是image_to_text(),它將圖像和命令行選項(xiàng)作為其參數(shù):
Tesseract面臨的挑戰(zhàn)是什么?Tesseract并不完美,這不是什么秘密。當(dāng)圖像有很多噪聲或者語(yǔ)言的字體是Tesseract OCR沒(méi)有經(jīng)過(guò)訓(xùn)練的字體時(shí),它的性能很差。其他條件(如文本的亮度或傾斜度)也會(huì)影響Tesseract的性能。然而,它是文本識(shí)別的一個(gè)很好的起點(diǎn),具有低努力和高產(chǎn)出的特點(diǎn)。文本檢測(cè)的不同方法Tesseract假定輸入文本圖像是干凈的。不幸的是,許多輸入圖像將包含過(guò)多的對(duì)象,而不僅僅是干凈的預(yù)處理文本,因此,必須具有一個(gè)良好的文本檢測(cè)系統(tǒng),該系統(tǒng)可以檢測(cè)隨后可以輕松提取的文本。文本檢測(cè)有幾種方法:使用OpenCV的傳統(tǒng)方式使用當(dāng)代深度學(xué)習(xí)模型建立自己的自定義模型使用OpenCV進(jìn)行文本檢測(cè)使用OpenCV進(jìn)行文本檢測(cè)是經(jīng)典的處理方式。你可以應(yīng)用各種操作(https://www.a(chǎn)nalyticsvidhya.com/blog/2019/03/opencv-functions-computer-vision-python/) ,如圖像調(diào)整大小,模糊,閾值化,形態(tài)學(xué)操作等,以清理圖像。
在這里,我們有按灰度,模糊度和閾值順序排列的圖像。完成此操作后,可以使用OpenCV輪廓檢測(cè)來(lái)檢測(cè)輪廓以提取數(shù)據(jù)塊:最后,你可以在預(yù)測(cè)文本的輪廓上應(yīng)用文本識(shí)別:
上面圖像中的結(jié)果是通過(guò)最少的預(yù)處理和輪廓檢測(cè)以及隨后使用Pytesseract進(jìn)行文本識(shí)別實(shí)現(xiàn)的,顯然,輪廓并不是每次都檢測(cè)到文本。但是,使用OpenCV進(jìn)行文本檢測(cè)仍然是一項(xiàng)繁瑣的任務(wù),需要使用大量參數(shù)。同樣,它在泛化方面的表現(xiàn)也不好,更好的方法是使用EAST文本檢測(cè)模型。當(dāng)代深度學(xué)習(xí)模型– EASTEAST是一種高效、準(zhǔn)確的場(chǎng)景文本檢測(cè)器,是一種從自然場(chǎng)景圖像中檢測(cè)文本的深度學(xué)習(xí)模型,它非?焖俸蜏(zhǔn)確,因?yàn)樗軌蛞?3.2fps的速度檢測(cè)720p圖像,f值為0.7820。該模型由一個(gè)完全卷積網(wǎng)絡(luò)和一個(gè)非最大抑制階段組成,用于預(yù)測(cè)單詞或文本行。但是,該模型不包括其他先前模型所涉及的可以?xún)?yōu)化模型的中間步驟,例如候選建議,文本區(qū)域形成和單詞劃分。你可以看一下作者在論文中提供的以下圖像,將EAST模型與其他先前模型進(jìn)行了比較:
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 【一周車(chē)話】沒(méi)有方向盤(pán)和踏板的車(chē),你敢坐嗎?
- 2 特斯拉發(fā)布無(wú)人駕駛車(chē),還未迎來(lái)“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰(shuí)是盈利最強(qiáng)企業(yè)?
- 8 比蘋(píng)果偉大100倍!真正改寫(xiě)人類(lèi)歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類(lèi)何去何從?
- 10 Open AI融資后成萬(wàn)億獨(dú)角獸,AI人才之爭(zhēng)開(kāi)啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市