期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
【摘 要】論文通過對文字識別技術,特別是中文手寫識別技術的分析和文字識別技術的應用研究,及檔案工作的回顧分析,探索并提出文字識別技術在檔案工作中的應用場景,為數字化時代的檔案工作提供思路。
【關鍵詞】文字識別;檔案管理;應用場景
1 引言
數據采集是所有工作的起點,并決定了解決效果的上限。利用文字識別技術,目前大量的文檔采集從專有設備轉向了普通手機,數據采集者也從專業辦公人員轉向普通用戶。
2 文字識別技術現狀分析
計算機文字識別,又名光學字符識別、OCR識別,是利用光學技術和電子信息技術把印在或寫在紙上的文字提取出來,并轉換成一種計算機能夠接受、人又可以理解的形式。OCR技術是實現文字高速輸入的一項核心技術。
2.1 文字識別技術的發展
2.1.1 西文識別技術的發展
在OCR技術中,印刷體文字識別是開展最早、技術上最為成熟的一個。早在20世紀20年代末期德國科學家最早取得了光學字符識別的專利。西方國家為了將大量報章雜志、文件材料和票據表格等紙質材料輸入計算機進行信息處理,從20世紀50年代就開始了西文文字識別技術的研究。隨著信息技術的飛速發展與研究人員的不斷探索和完善,西文文字識別技術現已逐漸滲透于各行各業。
2.1.2 中文識別技術的發展
第一,中文印刷體識別技術的發展。
與印刷體西文文字識別相比,漢字的印刷體識別技術的研究是在字母和數字的印刷體識別基礎上發展起來的,發源于20世紀60年代。60年代中期,BIM公司的工作人員發表了首篇關于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法,識別了一千個印刷體漢字。從70年代以來,日本研究人員在漢字識別方面做了許多探索和發明,其中比較著名的系統有70年代東芝綜合研究所研制的可以識別兩千個獨立印刷體漢字的識別系統;80年代早期,日本武藏野電氣研究所研制的可以識別兩千三百個連續漢字的識別系統,代表了當時漢文OCR識別的最高水平。此外,日本的松下、富士等公司也有其研制的印刷體漢字識別系統。這些系統在方法上,大都采用基于K-L數字轉換的計算方法,使用了大量專用設備,甚至有的相當于大型機,價格不菲,所以并沒有得到普及和推廣。
印刷體的中文識別自20世紀80年代中期規模發展以來,清華大學、中科院、沈陽自動化研究所等一眾單位分別研制并開發出了可以量產的印刷體中文OCR識別系統。尤其是由清華電子工程系研制的清華文字識別產品和由漢王開發的尚書文字識別產品,它們占據著OCR技術的領先地位,并擁有最多的OCR客戶,代表著印刷體中文OCR技術的未來發展趨勢。目前,印刷體中文識別技術已經從簡單的文字識別逐漸發展到了表格的自動識別、自動輸入的研究階段,圖片文字混合、各種語言混合下的內容提取、語義理解,各種卡片、票據的識別和歷史文獻的識別等都逐漸開展起來。多種相關的識別系統如雨后春筍般應運而生,如紫光文通推出的名片識別系統和慧視屏幕文字圖像識別系統等。這些新的識別系統的出現,標志著印刷體中文識別技術的應用領域得到了擴展。
第二,中文手寫識別技術的發展。
中文手寫識別由于信息的獲取形式不同,可以劃分為非在線中文手寫識別和在線中文手寫識別兩種。在線中文手寫識別所處理的手寫體漢字是書寫者通過物理設備在線輸入獲取的文字信號,筆畫的順序通過計時器采樣實時輸入計算機中。非在線中文手寫識別所處理的手寫漢字是通過掃描設備或手機攝像頭等圖片抓取設備采集到的手寫漢字圖片。
近年來,百度OCR技術在檢測、識別和端到端三個核心技術領域多次取得并保持了世界第一的排名,具備較明顯的領先優勢。騰訊集團的數平精準推薦團隊研發了一種適用于各個角度漢字的點對點提取方法,能夠有效解決文字尺度不一、形態萬千和檢測器對標準過于敏感等問題,大幅提高了測試步驟的準確度。
推薦閱讀:房地產檔案管理論文怎么發表
如果您現在遇到期刊選擇、論文內容改善、論文投稿周期長、難錄用、多次退修、多次被拒等問題,可以告訴學術顧問,解答疑問同時給出解決方案 。