posts - 30,  comments - 3,  trackbacks - 0
          <2012年3月>
          26272829123
          45678910
          11121314151617
          18192021222324
          25262728293031
          1234567

          常用鏈接

          留言簿

          隨筆檔案

          搜索

          •  

          最新評論

          閱讀排行榜

          評論排行榜

          用途:對我來說,學(xué)習(xí)HMM是為了對以后的詞性或概念標(biāo)注打下理論基礎(chǔ)
          符號說明:
          S:表示狀態(tài)集合。S=[S1,S2,S3....]。其中Si表示第i個狀態(tài)(第i種狀態(tài))
          Q:表示系統(tǒng)實際的狀態(tài)序列,Q=[q1,q2,....,qT]。q1表示t=1時,系統(tǒng)所處的狀態(tài),如:q1=S3表示t=1時刻,系統(tǒng)狀態(tài)為S3

          1.離散馬爾可夫過程
          (1)定義:一個系統(tǒng),在任一時刻t,可能處于N個不同狀態(tài)S1,S2...SN中的某一個。系統(tǒng)變化服從某種統(tǒng)計規(guī)律。如果系統(tǒng)狀態(tài)序列滿足下列無后效的條件,則稱(qt,t1)為離散的馬爾可夫過程。
                                                  P[qt+1=Sj|qt=Si,qt-1=Sk,...]=P[qt+1=Sj|qt=Si]
              可見系統(tǒng)將來的狀態(tài)僅與現(xiàn)在所處狀態(tài)有關(guān),與過去無關(guān),這種情況稱之為“無后效”。
              如果進一步有P[qt+1=Sj|qt=Si]與時刻t無關(guān),則稱相應(yīng)的馬爾可夫過程是齊決的或是時齊的,引入記號:
                                                  aij=P[qt+1=Sj|qt=Si],1≤i,j≤N
              注:這里有人也稱aij為SiSj的發(fā)射概率,也稱轉(zhuǎn)移概率。

          (2)初始概率分布:         
          πi=P[q1=Si],   1≤i,j≤N 
              k步轉(zhuǎn)移概率:
                  aij(k)=P[qt+k=Sj|qt=Si]
          當(dāng)k=1時,aij(k)=aij(1)=aij

          (3)切普曼—柯爾莫哥洛夫公式(Chapman-Kolmogorol)
                      

          2.隱馬爾可夫模型
              當(dāng)狀態(tài)本身是不可觀察,從而得到隱馬爾可夫模型(HMM)。值得一提的是,隱馬爾可夫模型(HMM)包含了雙重隨機過程:一是系統(tǒng)狀態(tài)變化的過程,即前面所述的馬爾可夫過程,另一個是由狀態(tài)決定觀察的隨機過程。
          舉例:碗、球模型
              假設(shè)N只碗,每個碗中放著數(shù)量與比例均不同的各種色彩的球,不同的彩色球為M。先隨機選一個碗,再從碗中隨機拿一個球,報告球的顏色得到一個觀察O1,然后將球放回到碗中,繼續(xù)這個過程,得到一系列觀察O=O1O2O3...OT
              在這個模型中,碗(狀態(tài))是不可觀察的,只有球的顏色是可觀察的。這里引入M,指不同觀察值的數(shù)目 。所有不同觀察值記為V={V1,V2,....VM}。
              對于第一種隨機過程(選碗),時齊馬爾可夫過程的轉(zhuǎn)移概率矩陣:A={aij},初始分布:π=(πi)
              對于第二種隨機過程,有多項分布B={bj(k)},其中
                      bj(k)=P[時刻t時觀察值為Vk|qt=Sj]
              給定一組N,M,A,B和π后,一個HMM即確定了,為緊縮起見,今后將用λ=(A,B,π)表示一個HMM。

          3.HMM中三個基本問題
          問題1:
              給定一個觀察序列O=O1O2...OT和一個模型λ=(A,B,π),如何有效計算P(O|λ),即給定模型λ的條件下,觀察序列O的概率。
              問題1是一個計算概率的問題,也可以看成一個評估給定的模型能否很好地擬合給定的觀察的問題。

          解法:
          (1)前向算法:
              定義αt(i)=P(O1O2....Ot,qt=Si|λ)
              
          αt可用遞推算法完成計算:
              ①初始化:α1(i)= πibi(O1)
              ②遞推:
              ③終止:

          (2)后向算法:
              定義βt(i)=P(Ot+1,Ot+2,...,OT|qt=Si,λ)
          βt可用遞推算法計算:
              ①初始化:βT(i)=1
              ②遞推:
              ③終止:


          問題2:
              給定一個觀察序列O=O1O2...OT和一個模型
          λ=(A,B,π),如何選擇一個相應(yīng)狀態(tài)Q=q1q2...qT使得在某種意義下,它能最好地說明觀察序列O
          兩個準(zhǔn)則:
          準(zhǔn)則1:對每個時刻t,逐個選取狀態(tài)qt使
              
          γt(i)=P(qt=Si|O,λ)=max
          其中:

          求出
          γt(i)后,問題2便迎刃而解。

          準(zhǔn)則2(應(yīng)用最為廣泛):綜合選取一個狀態(tài)序列Q=q1q2....qT使P(Q|O,λ)=max
              對于P(Q|O,λ)=P(Q,O|λ)/P(O|λ)
              而分母P(O|λ)與Q無關(guān),因此等價于P(Q,O|λ)=max。
              對于全局最優(yōu)問題,使用動態(tài)規(guī)劃方法,這就是Viterbi算法。
              定義
                      
              基于HMM特性,
                      
              因為我們同樣關(guān)心q1q2...qT的序列,因此引入
                      

              整個遞推算法(Viterbi算法)描述如下:
              ①初始化
                  δ1(i)=πibi(O1)
                  φ1(i)=0
              ②遞推
                   
                   
              ③終止
                  
              ④回溯最佳路徑
                  qt*=φt+1(qt+1*)

              將其應(yīng)用到詞性自動標(biāo)注中。在自動標(biāo)注中,每個詞是可觀察的,一個詞串W=w1w2....wT即相當(dāng)這里的一個觀察序列O=O1O2...OT。不可觀察的狀態(tài)相當(dāng)于詞性或概念標(biāo)記,即狀態(tài)序列Q=q1q2....qT相當(dāng)于上一節(jié)中的一個標(biāo)記序列。
              可以看出準(zhǔn)則1相當(dāng)于詞級評價,準(zhǔn)則2相當(dāng)于句子級評價。


          問題3.
              如何修正模型參數(shù)
          λ=(A,B,π)使P(O| λ)=max。
              問題3是最困難的,至少也沒有很好的解法。可參考的方法有基于均值修正的迭代方法等。

          參考文獻(xiàn):
          [1] 吳立德: 大規(guī)模中文文本處理[M]. 復(fù)旦大學(xué)出版社,1993.
          posted on 2012-03-07 13:56 Seraphi 閱讀(1324) 評論(0)  編輯  收藏

          只有注冊用戶登錄后才能發(fā)表評論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 舞钢市| 枣庄市| 文昌市| 舞阳县| 海南省| 崇仁县| 山阳县| 临武县| 桃园市| 英山县| 图片| 兴山县| 体育| 固阳县| 依安县| 冷水江市| 镇康县| 渭源县| 马边| 金华市| 南靖县| 山东省| 民权县| 漳平市| 苏尼特左旗| 桂林市| 桓台县| 榆社县| 朔州市| 乳源| 盐池县| 卢氏县| 甘泉县| 江西省| 上思县| 彰化市| 突泉县| 丰县| 荥阳市| 米脂县| 保定市|