對搜索引擎同義詞支持的實驗, 分析模擬


          今天偶爾看到一個同義詞庫, 想到這個有什么用途哪? 肯定是用來判斷2句話, 2篇文章的相似性的.

          它對搜索引擎,對論文抄襲鑒定系統肯定有用, 于是去搜索引擎試了試, 結果大失所望失望, 貌似google,bing,baidu對同義詞沒有做處理, 感覺是很簡單的東西, 竟然沒有做相關處理.

          而且不僅僅是沒有做同義詞處理, 相關度方面也很差, 真是很奇怪的事情.


          我們隨便找一句話: (從google的桌面工具文檔里)

          A: "我們十分關注您的安全并為此推出了一項功能",

          對應樣本為:

          B: "我們非常關注您的安全并為此推出了一項功能"


          我們搜索一下, 可以發現 A 可以匹配的很好, 如果改成B, 發現和A匹配的第一項不見了, 按照正常猜想即使改了一個詞 相關度應該還是很高, 不知道為什么會這樣.




          替換其中一個同義詞: (發現原來的網頁不在前面了, 翻了幾頁也沒有找到)





          我們暫且不考慮 "大勝美國隊" 和 "大敗美國隊"的語義分析, 但是上面的結果肯定不盡人意, 因為你可能需要考慮所有同義詞, 否則可能就錯過你想要的結果.



          下面我們做一個簡單的分析和模擬來實現同義詞的相關邏輯, 假設的流程如下:
          •     首先我們要有同義詞對應表(多對多,可以有權重)
          •     收錄網頁時把相應同義詞映射到同一個詞, 當然可以映射多個
          •     在搜索時先預處理用戶輸入的內容
          •     根據匹配算法計算


          1. 同義詞表結構如下

          一百分 -->滿分, 0.8
          十分 --> 滿分, 0.8

          十分 --> 非常, 0.95
          特別 --> 非常, 0.9
          格外 --> 非常, 0.9

          關心 --> 關注, 0.95
          注意 --> 關注, 0.85

          ......

          所有同義詞映射到同一個詞語, 并賦予一個權重. 當然還有多義詞的問題, 會出現多個映射.

          當然同義詞的整理也是個巨大的工作量, 網上也有一些詞庫.


          2. 根據同義詞庫的映射

              原內容: 我們十分關注您的安全并為此推出了一項功能
              映射后: 我們 滿分*0.8|非常*0.95|(十分) 關注您的安全并為此推出了一項功能

              "|"表示有多個選擇, "()"表示為原內容.

          3. 對輸入內容的分析映射

              用戶輸入: 我們非常關心您的安全并為此推出了一項功能    
              分析映射: 我們非常 關注*0.95|(關心) 您的安全并為此推出了一項功能

          4. 匹配查找
             
             匹配查找就是搜索引擎核心的邏輯了, 當然在遇到 "滿分*0.8|非常*0.95|(十分)" 需要增加同義詞判斷邏輯, 根據2個權重可以得出一個同義詞的匹配度, 然后繼續分析即可.



          以上只是一個非常簡單的分析模擬, 和實際的搜索引擎邏輯差別非常大, 僅供參考.

          posted on 2010-08-16 09:26 Scud(飛云小俠) 閱讀(2633) 評論(1)  編輯  收藏 所屬分類: Java理論原則

          評論

          # re: 對搜索引擎同義詞支持的實驗, 分析模擬 2010-08-16 10:02 bbmonkey62笨笨猴

          目前所有的搜索引擎都只是按關鍵詞查找內容,最多也只是做了一些很簡單的處理,比如搜索:武大,可能會把武漢大學也搜索出來,但像你這篇文章中提到的,現在還沒有搜索引擎能做到。
          以后的搜索引擎可能會在智能程度提高,但難度也是非常大的。  回復  更多評論   

          <2010年8月>
          25262728293031
          1234567
          891011121314
          15161718192021
          22232425262728
          2930311234

          導航

          統計

          公告

          文章發布許可
          創造共用協議:署名,非商業,保持一致

          我的郵件
          cnscud # gmail


          常用鏈接

          留言簿(15)

          隨筆分類(113)

          隨筆檔案(103)

          相冊

          友情鏈接

          技術網站

          搜索

          積分與排名

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 福清市| 长宁区| 咸丰县| 肥城市| 湘阴县| 聂荣县| 厦门市| 南和县| 罗城| 中西区| 青冈县| 秀山| 上林县| 安达市| 镇雄县| 广昌县| 大港区| 眉山市| 长宁区| 柯坪县| 广德县| 英吉沙县| 虹口区| 原平市| 涡阳县| 泸溪县| 梁河县| 房山区| 多伦县| 封丘县| 汉川市| 新宁县| 宣恩县| 大新县| 邵阳市| 营口市| 庆阳市| 元谋县| 随州市| 蛟河市| 天峻县|