搜狗拼音輸入法研究
輸入法是基于詞庫(kù)的,詞庫(kù)中除了詞條信息意外還有詞頻(也是最重要的了),詞頻表達(dá)用戶使用詞條概率,所以以概率解決問(wèn)題較多。不管是包含多少種詞庫(kù),詞頻信息必不可少,盡管有時(shí)還要對(duì)詞頻進(jìn)行加權(quán)處理,如用戶詞庫(kù)的詞頻肯定不會(huì)像系統(tǒng)詞庫(kù)的詞頻那么高,將二者進(jìn)行排序時(shí)不能直接利用現(xiàn)有詞頻,要加權(quán)處理。尤其在智能組詞那塊,要形成短語(yǔ),短句,就要找到頻率最大的組句路徑,會(huì)有計(jì)算公式。
將用戶需求進(jìn)行分解:盡量覆蓋用戶的詞匯當(dāng)然是好,但是隨之會(huì)產(chǎn)生問(wèn)題,詞庫(kù)的臃腫化和計(jì)算的代價(jià)加大,就要剔除掉不必要的詞條信息了,可我們?cè)趺粗滥男┎攀怯脩粜枰哪兀ㄟ^(guò)獲取用戶輸入環(huán)境找到符合用戶需求的最小詞匯,才是王道。這樣詞庫(kù)構(gòu)成基本分為系統(tǒng)共有詞庫(kù)+輔助詞庫(kù),布局合理,其中后者是動(dòng)態(tài)加載和更新的,很智能化。
個(gè)性化:提高用戶體驗(yàn)離不開(kāi)個(gè)性化,適合大家的有可能適合自己,適合自己的不一定適合大家,個(gè)體之間存在差異,捕捉用戶的使用習(xí)慣,找到個(gè)性部分很重要,用戶詞庫(kù),個(gè)性詞等技術(shù)基本解決部分問(wèn)題。引用原文的話:“記錄用戶輸入的字詞,學(xué)習(xí)某個(gè)用戶適用的詞匯;通過(guò)一段時(shí)間地不斷學(xué)習(xí),將詞庫(kù)逐漸收斂到某個(gè)用戶輸入的最佳狀態(tài),從而形成用戶詞庫(kù)。通過(guò)動(dòng)態(tài)調(diào)頻,使其逐漸適應(yīng)該用戶,當(dāng)用戶是唯一時(shí),很好地提升效率”,很到位。
策略問(wèn)題:如搜狗輸入法有很多用戶,利用用戶的信息,反過(guò)來(lái)又回饋給用戶,這樣反復(fù)過(guò)程,最終要達(dá)到一個(gè)收斂平衡的狀態(tài)。
資源的重要性:搜狗寶貴的東西是語(yǔ)料庫(kù),各種想法實(shí)施的先決條件。
詳細(xì)的PPT在:http://d.onto.ac.cn/wipt/sogou.zip(教育網(wǎng)服務(wù)器)
(by 韓艷景)
posted on 2009-05-11 08:42 wipt 閱讀(1871) 評(píng)論(2) 編輯 收藏