對搜索引擎同義詞支持的實(shí)驗(yàn), 分析模擬


          今天偶爾看到一個同義詞庫, 想到這個有什么用途哪? 肯定是用來判斷2句話, 2篇文章的相似性的.

          它對搜索引擎,對論文抄襲鑒定系統(tǒng)肯定有用, 于是去搜索引擎試了試, 結(jié)果大失所望失望, 貌似google,bing,baidu對同義詞沒有做處理, 感覺是很簡單的東西, 竟然沒有做相關(guān)處理.

          而且不僅僅是沒有做同義詞處理, 相關(guān)度方面也很差, 真是很奇怪的事情.


          我們隨便找一句話: (從google的桌面工具文檔里)

          A: "我們十分關(guān)注您的安全并為此推出了一項功能",

          對應(yīng)樣本為:

          B: "我們非常關(guān)注您的安全并為此推出了一項功能"


          我們搜索一下, 可以發(fā)現(xiàn) A 可以匹配的很好, 如果改成B, 發(fā)現(xiàn)和A匹配的第一項不見了, 按照正常猜想即使改了一個詞 相關(guān)度應(yīng)該還是很高, 不知道為什么會這樣.




          替換其中一個同義詞: (發(fā)現(xiàn)原來的網(wǎng)頁不在前面了, 翻了幾頁也沒有找到)





          我們暫且不考慮 "大勝美國隊" 和 "大敗美國隊"的語義分析, 但是上面的結(jié)果肯定不盡人意, 因?yàn)槟憧赡苄枰紤]所有同義詞, 否則可能就錯過你想要的結(jié)果.



          下面我們做一個簡單的分析和模擬來實(shí)現(xiàn)同義詞的相關(guān)邏輯, 假設(shè)的流程如下:
          •     首先我們要有同義詞對應(yīng)表(多對多,可以有權(quán)重)
          •     收錄網(wǎng)頁時把相應(yīng)同義詞映射到同一個詞, 當(dāng)然可以映射多個
          •     在搜索時先預(yù)處理用戶輸入的內(nèi)容
          •     根據(jù)匹配算法計算


          1. 同義詞表結(jié)構(gòu)如下

          一百分 -->滿分, 0.8
          十分 --> 滿分, 0.8

          十分 --> 非常, 0.95
          特別 --> 非常, 0.9
          格外 --> 非常, 0.9

          關(guān)心 --> 關(guān)注, 0.95
          注意 --> 關(guān)注, 0.85

          ......

          所有同義詞映射到同一個詞語, 并賦予一個權(quán)重. 當(dāng)然還有多義詞的問題, 會出現(xiàn)多個映射.

          當(dāng)然同義詞的整理也是個巨大的工作量, 網(wǎng)上也有一些詞庫.


          2. 根據(jù)同義詞庫的映射

              原內(nèi)容: 我們十分關(guān)注您的安全并為此推出了一項功能
              映射后: 我們 滿分*0.8|非常*0.95|(十分) 關(guān)注您的安全并為此推出了一項功能

              "|"表示有多個選擇, "()"表示為原內(nèi)容.

          3. 對輸入內(nèi)容的分析映射

              用戶輸入: 我們非常關(guān)心您的安全并為此推出了一項功能    
              分析映射: 我們非常 關(guān)注*0.95|(關(guān)心) 您的安全并為此推出了一項功能

          4. 匹配查找
             
             匹配查找就是搜索引擎核心的邏輯了, 當(dāng)然在遇到 "滿分*0.8|非常*0.95|(十分)" 需要增加同義詞判斷邏輯, 根據(jù)2個權(quán)重可以得出一個同義詞的匹配度, 然后繼續(xù)分析即可.



          以上只是一個非常簡單的分析模擬, 和實(shí)際的搜索引擎邏輯差別非常大, 僅供參考.

          posted on 2010-08-16 09:26 Scud(飛云小俠) 閱讀(2633) 評論(1)  編輯  收藏 所屬分類: Java理論原則

          評論

          # re: 對搜索引擎同義詞支持的實(shí)驗(yàn), 分析模擬 2010-08-16 10:02 bbmonkey62笨笨猴

          目前所有的搜索引擎都只是按關(guān)鍵詞查找內(nèi)容,最多也只是做了一些很簡單的處理,比如搜索:武大,可能會把武漢大學(xué)也搜索出來,但像你這篇文章中提到的,現(xiàn)在還沒有搜索引擎能做到。
          以后的搜索引擎可能會在智能程度提高,但難度也是非常大的。  回復(fù)  更多評論   

          <2010年8月>
          25262728293031
          1234567
          891011121314
          15161718192021
          22232425262728
          2930311234

          導(dǎo)航

          統(tǒng)計

          公告

          文章發(fā)布許可
          創(chuàng)造共用協(xié)議:署名,非商業(yè),保持一致

          我的郵件
          cnscud # gmail


          常用鏈接

          留言簿(15)

          隨筆分類(113)

          隨筆檔案(103)

          相冊

          友情鏈接

          技術(shù)網(wǎng)站

          搜索

          積分與排名

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 织金县| 葵青区| 江门市| 曲麻莱县| 扶沟县| 清镇市| 台北市| 阿勒泰市| 平乡县| 都兰县| 荣昌县| 平和县| 黄石市| 鄂伦春自治旗| 武强县| 福海县| 恩施市| 北宁市| 元谋县| 庆云县| 瑞丽市| 荥阳市| 香格里拉县| 昭平县| 台湾省| 合江县| 安义县| 拉萨市| 原平市| 吉安市| 开远市| 东乡族自治县| 武穴市| 渝中区| 大埔区| 怀安县| 扶风县| 饶平县| 长顺县| 黄冈市| 大石桥市|