當(dāng)文本信息庫的容量很大時,如果要快速有效的獲取文本,那么就需要使用特定的索引技術(shù),一種簡單而且常用的文本索引結(jié)構(gòu)是倒排文件。如果搜索過程是以簡單的單詞匹配實(shí)施的,那么基于倒排文件的索引結(jié)構(gòu)就能滿足這回總需求。這種基于單詞匹配的查詢方式在目前的信息獲取系統(tǒng)中用得比較普遍。
一個典型的倒排文件由如下幾部分組成:
(1)一個包含信息庫中的文本中所有不同單詞(也叫作詞匯表)的向量;
(2)對于詞匯表中的每個單詞,有一種包含這個單詞的所有文檔(用文檔號來標(biāo)識)組成的列表。每個列表中的文檔根據(jù)文檔號的大小升序排列。查詢執(zhí)行的時間與訪問索引所需要的時間密切相關(guān)。
一個典型的倒排文件由如下幾部分組成:
(1)一個包含信息庫中的文本中所有不同單詞(也叫作詞匯表)的向量;
(2)對于詞匯表中的每個單詞,有一種包含這個單詞的所有文檔(用文檔號來標(biāo)識)組成的列表。每個列表中的文檔根據(jù)文檔號的大小升序排列。查詢執(zhí)行的時間與訪問索引所需要的時間密切相關(guān)。