David.Ko

          Follow my heart!
          posts - 100, comments - 11, trackbacks - 0, articles - 0
             :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理

          模式識別的原理是什么

          Posted on 2007-07-11 10:52 David.Ko 閱讀(1510) 評論(0)  編輯  收藏 所屬分類: AI

          模式識別,就是通過計算機用數(shù)學(xué)技術(shù)方法來研究模式的自動處理和判讀。我們把環(huán)境與客體統(tǒng)稱為“模式”。隨著計算機技術(shù)的發(fā)展,人類有可能研究復(fù)雜的信息處理過程。信息處理過程的一個重要形式是生命體對環(huán)境及客體的識別。對人類來說,特別重要的是對光學(xué)信息(通過視覺器官來獲得)和聲學(xué)信息(通過聽覺器官來獲得)的識別。這是模式識別的兩個重要方面。市場上可見到的代表性產(chǎn)品有OCR(Optical Character Recognition),語音識別系統(tǒng)。

          計算機識別的顯著特點是速度快,準(zhǔn)確性高,效率高。完全可以取代人工錄入。

          識別過程與人類的學(xué)習(xí)過程相似。以“漢字識別”為例:首先將漢字圖象進行處理,抽取主要表達特征并將特征與漢字的代碼存在計算機中。就象老師教我們這個字叫什么如何寫記在大腦中。這一過程叫做“訓(xùn)練”。識別過程就是將輸入的漢字圖象經(jīng)處理后與計算機中的所有字進行比較,找出最相近的字就是識別結(jié)果。這一過程叫做“匹配”。

          OCR還有一個重要組成部分是對具體對象的“版面分析”或稱“分割”。屬于圖象處理范疇。比如在一篇文章中將每個獨立的漢字切分出來;名片識別中要將每個字段切出來。切分的難度不亞于識別。

          以下給出OCR的常用概念與技術(shù)指標(biāo):

          識別率:正確識別的字符占所有測試字符的比例。是大量字符測試后的統(tǒng)計結(jié)果。
          拒識率:無法識別(沒有給出識別結(jié)果)的字符占所有測試字符的比例。
          誤識率:將甲識別成乙等識別錯誤的字符占所有測試字符的比例。
          識別速度:基于某種速度計算機的識別一個字符的時間或一秒鐘能識別字符的個數(shù)。
          掃描分辨率:指掃描儀光學(xué)源的物理分辨率。分辨率越高獲得的圖象越清晰。

                 那么人的模式識別是什么呢?看來主要的還是要依靠原先的認(rèn)知結(jié)構(gòu)。在專家記憶中有5到10萬個組快,且都按照層次網(wǎng)絡(luò)結(jié)構(gòu)進行連接,而且易于提取。那么在認(rèn)識或者學(xué)習(xí)新東西的時候,很容易對“模式”進行識別了。

          主站蜘蛛池模板: 贵溪市| 静海县| 乌拉特中旗| 霞浦县| 固阳县| 天气| 尚志市| 民县| 彰化市| 偏关县| 镇沅| 孟连| 红桥区| 大兴区| 山丹县| 峨边| 雷山县| 泸西县| 汉寿县| 安陆市| 霍林郭勒市| 突泉县| 抚宁县| 宜都市| 绥棱县| 科尔| 郴州市| 津南区| 大足县| 轮台县| 泉州市| 连州市| 和静县| 长子县| 辉南县| 虎林市| 泗水县| 福建省| 唐河县| 大余县| 通城县|