對(duì)搜索引擎同義詞支持的實(shí)驗(yàn), 分析模擬


          今天偶爾看到一個(gè)同義詞庫(kù), 想到這個(gè)有什么用途哪? 肯定是用來(lái)判斷2句話, 2篇文章的相似性的.

          它對(duì)搜索引擎,對(duì)論文抄襲鑒定系統(tǒng)肯定有用, 于是去搜索引擎試了試, 結(jié)果大失所望失望, 貌似google,bing,baidu對(duì)同義詞沒(méi)有做處理, 感覺(jué)是很簡(jiǎn)單的東西, 竟然沒(méi)有做相關(guān)處理.

          而且不僅僅是沒(méi)有做同義詞處理, 相關(guān)度方面也很差, 真是很奇怪的事情.


          我們隨便找一句話: (從google的桌面工具文檔里)

          A: "我們十分關(guān)注您的安全并為此推出了一項(xiàng)功能",

          對(duì)應(yīng)樣本為:

          B: "我們非常關(guān)注您的安全并為此推出了一項(xiàng)功能"


          我們搜索一下, 可以發(fā)現(xiàn) A 可以匹配的很好, 如果改成B, 發(fā)現(xiàn)和A匹配的第一項(xiàng)不見(jiàn)了, 按照正常猜想即使改了一個(gè)詞 相關(guān)度應(yīng)該還是很高, 不知道為什么會(huì)這樣.




          替換其中一個(gè)同義詞: (發(fā)現(xiàn)原來(lái)的網(wǎng)頁(yè)不在前面了, 翻了幾頁(yè)也沒(méi)有找到)





          我們暫且不考慮 "大勝美國(guó)隊(duì)" 和 "大敗美國(guó)隊(duì)"的語(yǔ)義分析, 但是上面的結(jié)果肯定不盡人意, 因?yàn)槟憧赡苄枰紤]所有同義詞, 否則可能就錯(cuò)過(guò)你想要的結(jié)果.



          下面我們做一個(gè)簡(jiǎn)單的分析和模擬來(lái)實(shí)現(xiàn)同義詞的相關(guān)邏輯, 假設(shè)的流程如下:
          •     首先我們要有同義詞對(duì)應(yīng)表(多對(duì)多,可以有權(quán)重)
          •     收錄網(wǎng)頁(yè)時(shí)把相應(yīng)同義詞映射到同一個(gè)詞, 當(dāng)然可以映射多個(gè)
          •     在搜索時(shí)先預(yù)處理用戶輸入的內(nèi)容
          •     根據(jù)匹配算法計(jì)算


          1. 同義詞表結(jié)構(gòu)如下

          一百分 -->滿分, 0.8
          十分 --> 滿分, 0.8

          十分 --> 非常, 0.95
          特別 --> 非常, 0.9
          格外 --> 非常, 0.9

          關(guān)心 --> 關(guān)注, 0.95
          注意 --> 關(guān)注, 0.85

          ......

          所有同義詞映射到同一個(gè)詞語(yǔ), 并賦予一個(gè)權(quán)重. 當(dāng)然還有多義詞的問(wèn)題, 會(huì)出現(xiàn)多個(gè)映射.

          當(dāng)然同義詞的整理也是個(gè)巨大的工作量, 網(wǎng)上也有一些詞庫(kù).


          2. 根據(jù)同義詞庫(kù)的映射

              原內(nèi)容: 我們十分關(guān)注您的安全并為此推出了一項(xiàng)功能
              映射后: 我們 滿分*0.8|非常*0.95|(十分) 關(guān)注您的安全并為此推出了一項(xiàng)功能

              "|"表示有多個(gè)選擇, "()"表示為原內(nèi)容.

          3. 對(duì)輸入內(nèi)容的分析映射

              用戶輸入: 我們非常關(guān)心您的安全并為此推出了一項(xiàng)功能    
              分析映射: 我們非常 關(guān)注*0.95|(關(guān)心) 您的安全并為此推出了一項(xiàng)功能

          4. 匹配查找
             
             匹配查找就是搜索引擎核心的邏輯了, 當(dāng)然在遇到 "滿分*0.8|非常*0.95|(十分)" 需要增加同義詞判斷邏輯, 根據(jù)2個(gè)權(quán)重可以得出一個(gè)同義詞的匹配度, 然后繼續(xù)分析即可.



          以上只是一個(gè)非常簡(jiǎn)單的分析模擬, 和實(shí)際的搜索引擎邏輯差別非常大, 僅供參考.

          posted on 2010-08-16 09:26 Scud(飛云小俠) 閱讀(2637) 評(píng)論(1)  編輯  收藏 所屬分類: Java理論原則

          評(píng)論

          # re: 對(duì)搜索引擎同義詞支持的實(shí)驗(yàn), 分析模擬 2010-08-16 10:02 bbmonkey62笨笨猴

          目前所有的搜索引擎都只是按關(guān)鍵詞查找內(nèi)容,最多也只是做了一些很簡(jiǎn)單的處理,比如搜索:武大,可能會(huì)把武漢大學(xué)也搜索出來(lái),但像你這篇文章中提到的,現(xiàn)在還沒(méi)有搜索引擎能做到。
          以后的搜索引擎可能會(huì)在智能程度提高,但難度也是非常大的。  回復(fù)  更多評(píng)論   

          <2010年8月>
          25262728293031
          1234567
          891011121314
          15161718192021
          22232425262728
          2930311234

          導(dǎo)航

          統(tǒng)計(jì)

          公告

          文章發(fā)布許可
          創(chuàng)造共用協(xié)議:署名,非商業(yè),保持一致

          我的郵件
          cnscud # gmail


          常用鏈接

          留言簿(15)

          隨筆分類(113)

          隨筆檔案(103)

          相冊(cè)

          友情鏈接

          技術(shù)網(wǎng)站

          搜索

          積分與排名

          最新評(píng)論

          閱讀排行榜

          評(píng)論排行榜

          主站蜘蛛池模板: 高要市| 沙河市| 白城市| 临朐县| 东丰县| 揭西县| 建湖县| 武陟县| 泽州县| 麦盖提县| 兰西县| 永定县| 绍兴市| 安福县| 丹棱县| 郧西县| 恩施市| 芦溪县| 全椒县| 达拉特旗| 阿拉尔市| 关岭| 秀山| 蓝田县| 蓝山县| 武清区| 岚皋县| 禹城市| 水富县| 泰兴市| 巧家县| 新河县| 宁陵县| 永仁县| 科技| 收藏| 昆山市| 安远县| 罗田县| 微博| 大厂|