自由,平等,開源,分享

            BlogJava :: 首頁 :: 聯系 :: 聚合  :: 管理
            2 Posts :: 61 Stories :: 3 Comments :: 0 Trackbacks

            召回率(Recall Rate)(查全率):是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系統的查全率。
            精度(Precision)(查準率):是檢索出的相關文檔數與檢索出的文檔總數的比率,衡量的是檢索系統的查準率。

            對于一個檢索系統來講,召回率和精度不可能兩全其美:召回率高時,精度低,精度高時,召回率低。
            所以常常用 11 種召回率下 11 種精度的平均值來衡量一個檢索系統的精度。
            對于搜索引擎系統來講,因為沒有一個搜索引擎系統能夠搜集到所有的 Web 網頁,所以召回率很難計算。
            目前的搜索引擎系統都非常關心精度。

            影響一個搜索引擎系統的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制。

            從一個大規模數據集合中檢索文檔的時,可把文檔分成四組:

              ※ 系統檢索到的相關文檔(A)
              ※ 系統檢索到的不相關文檔(B)
              ※ 相關但是系統沒有檢索到的文檔(C)
              ※ 相關但是被系統檢索到的文檔(D)

          相關 不相關
          檢索到 A B
          未檢索到 C D

            直觀的說,一個好的檢索系統檢索到的相關文檔越多越好,不相關文檔越少越好。

            召回率 R:用檢索到相關文檔數作為分子,所有相關文檔總數作為分母,即 R=A/(A+C)
            精度 P:用檢索到相關文檔數作為分子,所有檢索到的文檔總數作為分母,即 P=A/(A+B)

            舉例:一個數據庫有 500 個文檔,其中有 50 個文檔符合定義的問題;系統檢索到 75 個文檔,但其中只有 45 個文檔符合定義。

              召回率:R=45/50=90%。
              精度:P=45/75=60%。

            上例中:系統檢索是比較有效的,召回率為 90%;但是結果有很大的噪音,有近一半的檢索結果是不相關。

            研究表明:在不犧牲精度的情況下,獲得一個高召回率是很困難的;召回率越高,精度下降的很快,而且這種趨勢不是線性的。

          posted on 2008-05-08 09:22 龍震 閱讀(1554) 評論(0)  編輯  收藏 所屬分類: 概念,術語,基礎,理解
          主站蜘蛛池模板: 松阳县| 阿巴嘎旗| 东安县| 清河县| 若尔盖县| 胶南市| 新乐市| 图木舒克市| 花莲市| 灵璧县| 博罗县| 蓬溪县| 益阳市| 雷州市| 高要市| 淮阳县| 浠水县| 辽中县| 宣城市| 满城县| 江城| 重庆市| 七台河市| 河东区| 大渡口区| 临安市| 贵港市| 友谊县| 千阳县| 上高县| 固原市| 新巴尔虎左旗| 睢宁县| 永登县| 静海县| 长春市| 鹤峰县| 长葛市| 洛宁县| 林州市| 威远县|