當(dāng)文本信息庫(kù)的容量很大時(shí),如果要快速有效的獲取文本,那么就需要使用特定的索引技術(shù),一種簡(jiǎn)單而且常用的文本索引結(jié)構(gòu)是倒排文件。如果搜索過(guò)程是以簡(jiǎn)單的單詞匹配實(shí)施的,那么基于倒排文件的索引結(jié)構(gòu)就能滿足這回總需求。這種基于單詞匹配的查詢方式在目前的信息獲取系統(tǒng)中用得比較普遍。
  
    一個(gè)典型的倒排文件由如下幾部分組成:

(1)一個(gè)包含信息庫(kù)中的文本中所有不同單詞(也叫作詞匯表)的向量;

(2)對(duì)于詞匯表中的每個(gè)單詞,有一種包含這個(gè)單詞的所有文檔(用文檔號(hào)來(lái)標(biāo)識(shí))組成的列表。每個(gè)列表中的文檔根據(jù)文檔號(hào)的大小升序排列。查詢執(zhí)行的時(shí)間與訪問(wèn)索引所需要的時(shí)間密切相關(guān)。