當文本信息庫的容量很大時,如果要快速有效的獲取文本,那么就需要使用特定的索引技術,一種簡單而且常用的文本索引結構是倒排文件。如果搜索過程是以簡單的單詞匹配實施的,那么基于倒排文件的索引結構就能滿足這回總需求。這種基于單詞匹配的查詢方式在目前的信息獲取系統中用得比較普遍。
  
    一個典型的倒排文件由如下幾部分組成:

(1)一個包含信息庫中的文本中所有不同單詞(也叫作詞匯表)的向量;

(2)對于詞匯表中的每個單詞,有一種包含這個單詞的所有文檔(用文檔號來標識)組成的列表。每個列表中的文檔根據文檔號的大小升序排列。查詢執行的時間與訪問索引所需要的時間密切相關。