掃描儀的作用只是將紙質(zhì)的文件變成電子圖像文件,OCR文字識別是指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,然后用字符識別方法將形狀翻譯成計算機文字的過程。
類似于我們用數(shù)碼相機將一紙文件拍成數(shù)碼照片。然后,用文字識別軟件將這個不能編輯的圖像文件中的文字逐一識別成可在電腦中編輯的文字。文字識別軟件叫OCR(光學(xué)字符識別)軟件。
文字識別軟件的核心技術(shù)是什么
OCR文字識別軟件是將你上傳的圖片轉(zhuǎn)換成WORD、圖片轉(zhuǎn)換成文字等可編輯文字,一鍵轉(zhuǎn)換,OCR識別在線超快!支持JPG、PNG、GIF、BMP、DOC等圖片格式。
識別的簡單原理。“識別”是筆輸入和ocr輸入的核心技術(shù)。中國漢字常用的就有幾千,筆輸入的漢字圖形和掃描文本中分檢出的漢字圖像,由計算機將其圖形、圖像轉(zhuǎn)變成漢字的標(biāo)準(zhǔn)代碼,稱為計算機“認(rèn)字”,這就是識別技術(shù)。識別技術(shù)就是特征比較技術(shù),通過和“識別特征庫”的比較,找到特征最相似的字,提取該文字的標(biāo)準(zhǔn)代碼,即為識別結(jié)果。比較是人們認(rèn)識事物的一種基本方法,漢字識別也是通過比較找出漢字之間的相同、相似、相異,把握其量和質(zhì)的關(guān)系,時間與空間的關(guān)系等。對于大字符集的漢字一般采用多級分類,多特征、全方位動態(tài)匹配求相似集,以保證分類率高、適應(yīng)性強、穩(wěn)定性好;細(xì)分類重點在于對相似集求異匹配、加權(quán)處理、結(jié)構(gòu)判別,定量、定性分析,以及前后聯(lián)接詞的關(guān)系,最后判別。實質(zhì)上是比較科學(xué)或認(rèn)知科學(xué)在人工智能方面的應(yīng)用,其關(guān)鍵技術(shù)是識別特征庫。計算機有了這樣的一個特征庫,才能完成認(rèn)字的功能。