隨筆-28  評論-51  文章-10  trackbacks-0

          一直搞不清搜索引擎的查全率和查準率是什么意思,只知道這兩個是衡量一個搜索引擎性能的. 今個 看一篇 南大的學士論文的時候, 又碰到這個問題. 所以決定把他搞清楚, 上百度搜了一下, 所獲很多.

          查全率[召回率]與精度[查準率] 之辨析:

          召回率(recall rate)和精度(precision)定義:

          從一個大規模數據集合中檢索文檔的時,可把文檔分成四組   

          -系統檢索到的相關文檔(A)

          - 系統檢索到的不相關文檔(B)

          相關但是系統沒有檢索到的文檔(C)

          相關但是被系統檢索到的文檔(D)


          相關

          不相關

          檢索到

          A

          B

          未檢索到

          C

          D

          直觀的說,一個好的檢索系統檢索到的相關文檔越多越好,不相關文檔越少越好.

          召回率和精度是衡量信息檢索系統性能最重要的參數.

          召回率R:用檢索到相關文檔數作為分子,所有相關文檔總數作為分母,即 R=A/(A+C)

          精度P 用檢索到相關文檔數作為分子,所有檢索到的文檔總數作為分母.即  P=A/(A+B).

          下面舉例說明召回率和精度之間的關系:

          一個數據庫有500個文檔, 其中有50個文檔符合定義的問題.系統檢索到75個文檔,但是只有45個符合定義的問題.

          召回率      R=45/50=90%

          精度      P=45/75=60%

          本例中, 系統檢索是比較有效的,召回率為90%. 但是結果有很大的噪音, 有近一半的檢索結果是不相關. 研究表明: 在不犧牲精度的情況下,獲得一個高召回率是很困難的.召回率越高,精度下降的很快,而且這種趨勢不是線性的.




          posted on 2008-05-07 14:35 fullfocus 閱讀(2378) 評論(4)  編輯  收藏 所屬分類: 聚類算法研究

          評論:
          # re: 召回率與精度 2008-05-07 15:19 | 優書齋
          優書齋,計算機書籍品讀,翻譯和下載討論群,qq群 23133419
          目前正在翻譯《java袖珍指南》,歡迎大家都加入,只要你有熱情,我們隨時歡迎。
          翻譯計劃:
          http://ushuzhai.cn/viewthread.php?tid=33
          qq群 23133419  回復  更多評論
            
          # re: 召回率與精度 2009-07-30 10:57 | uu
          D部分的說明是錯誤的。很明顯嘛。  回復  更多評論
            
          # re: 召回率與精度 2009-07-30 10:59 | fullfocus
          @uu
          為什么啊?  回復  更多評論
            
          # re: 召回率與精度 2011-04-20 12:44 | mojoliu
          恩 我也覺得D是有問題的  回復  更多評論
            
          主站蜘蛛池模板: 元朗区| 上思县| 太白县| 定陶县| 甘泉县| 蒙城县| 扬中市| 鄢陵县| 晋宁县| 焦作市| 龙川县| 清流县| 石城县| 五家渠市| 夏河县| 澄城县| 泉州市| 永和县| 平顺县| 通州区| 湘阴县| 富蕴县| 长垣县| 华阴市| 吉林省| 南充市| 育儿| 铜鼓县| 龙川县| 革吉县| 邮箱| 家居| 溧水县| 慈利县| 嵊州市| 平遥县| 沧源| 东乡族自治县| 印江| 广州市| 原平市|