隨筆-28  評論-51  文章-10  trackbacks-0

          一直搞不清搜索引擎的查全率和查準率是什么意思,只知道這兩個是衡量一個搜索引擎性能的. 今個 看一篇 南大的學士論文的時候, 又碰到這個問題. 所以決定把他搞清楚, 上百度搜了一下, 所獲很多.

          查全率[召回率]與精度[查準率] 之辨析:

          召回率(recall rate)和精度(precision)定義:

          從一個大規模數據集合中檢索文檔的時,可把文檔分成四組   

          -系統檢索到的相關文檔(A)

          - 系統檢索到的不相關文檔(B)

          相關但是系統沒有檢索到的文檔(C)

          相關但是被系統檢索到的文檔(D)


          相關

          不相關

          檢索到

          A

          B

          未檢索到

          C

          D

          直觀的說,一個好的檢索系統檢索到的相關文檔越多越好,不相關文檔越少越好.

          召回率和精度是衡量信息檢索系統性能最重要的參數.

          召回率R:用檢索到相關文檔數作為分子,所有相關文檔總數作為分母,即 R=A/(A+C)

          精度P 用檢索到相關文檔數作為分子,所有檢索到的文檔總數作為分母.即  P=A/(A+B).

          下面舉例說明召回率和精度之間的關系:

          一個數據庫有500個文檔, 其中有50個文檔符合定義的問題.系統檢索到75個文檔,但是只有45個符合定義的問題.

          召回率      R=45/50=90%

          精度      P=45/75=60%

          本例中, 系統檢索是比較有效的,召回率為90%. 但是結果有很大的噪音, 有近一半的檢索結果是不相關. 研究表明: 在不犧牲精度的情況下,獲得一個高召回率是很困難的.召回率越高,精度下降的很快,而且這種趨勢不是線性的.




          posted on 2008-05-07 14:35 fullfocus 閱讀(2379) 評論(4)  編輯  收藏 所屬分類: 聚類算法研究

          評論:
          # re: 召回率與精度 2008-05-07 15:19 | 優書齋
          優書齋,計算機書籍品讀,翻譯和下載討論群,qq群 23133419
          目前正在翻譯《java袖珍指南》,歡迎大家都加入,只要你有熱情,我們隨時歡迎。
          翻譯計劃:
          http://ushuzhai.cn/viewthread.php?tid=33
          qq群 23133419  回復  更多評論
            
          # re: 召回率與精度 2009-07-30 10:57 | uu
          D部分的說明是錯誤的。很明顯嘛。  回復  更多評論
            
          # re: 召回率與精度 2009-07-30 10:59 | fullfocus
          @uu
          為什么啊?  回復  更多評論
            
          # re: 召回率與精度 2011-04-20 12:44 | mojoliu
          恩 我也覺得D是有問題的  回復  更多評論
            
          主站蜘蛛池模板: 克拉玛依市| 武陟县| 济宁市| 合水县| 鄱阳县| 高台县| 连江县| 江油市| 兴化市| 遂平县| 肇庆市| 讷河市| 苍南县| 灵石县| 尼玛县| 云阳县| 伊春市| 松滋市| 葫芦岛市| 安图县| 马公市| 乌兰察布市| 中方县| 锡林郭勒盟| 通州区| 潞西市| 临城县| 蒲江县| 精河县| 泗洪县| 长岛县| 固阳县| 福安市| 两当县| 托克逊县| 张家口市| 长兴县| 齐齐哈尔市| 壤塘县| 团风县| 镇平县|