月亮的太陽

小乖的BLOG

posts - 114, comments - 41, trackbacks - 0, articles - 27

BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理

Java容器分析--Map

Posted on 2005-12-27 11:45 月亮的太陽閱讀(324) 評論(0) 編輯收藏所屬分類: 編程

標準的Java類庫中包含了幾種類型的Map，它們都擁有同樣的基本接口Map，但是行為特性各不相同，主要表現在效率、鍵值對的保存、元素呈現次序、對象的保存周期和判定鍵是否等價的策略等方面。

1.Map的功能方法

Map(interface): 維護label和value的關聯性，使得可以通過label查找value。

HashMap: Map基于散列表的實現，取代了Hashtable。插入和查詢label/value的開銷是固定的，并且可以通過構造器設置容量和負載因子，以調整容器的性能。

LinkedHashMap: 在HashMap的基礎上做了一些改進，在迭代遍歷它時，取得label/value的順序是其插入的次序，或者是最近最少使用(LRU)的次序，速度上比HashMap要慢一點，但在迭代訪問時速度會更快，主要原因是它使用了鏈表維護內部次序。

TreeMap: 查看label或label/value時，元素會被排序，其次序由Comparable或Comparator決定，因此查詢所得到的結果是經過排序的。另外，它是唯一帶有subMap()方法的Map具體類，即返回一個子樹。它也是SortedMap接口的唯一實現，subMap()方法也是從該接口繼承的。

WeakHashMap: Weak Key映射，允許釋放映射所指向的對象。當映射之外沒有引用指向某個label時，此label可以被垃圾收集器回收。

IdentityHashMap: 使用==代替equals()對label進行比較的散列映射。

2.hashCode()

當使用標準庫中的類Integer作為HashMap的label時，程序能夠正常運行，但是使用自己創建的類作為HashMap的label時，通常犯一個錯誤。

在HashMap中通過label查找value時，實際上是計算label對象地址的散列碼來確定value的。一般情況下，我們是使用基類Object的方法hashCode()來生成散列碼，它默認是使用對象的地址來計算的，因此由第一個對象new Apple(5)和第二個對象new Apple(5)生成的散列碼是不同的，不能完成正確的查找。通常，我們可以編寫自己的hashCode()方法來覆蓋基類的原始方法，但與此同時，我們必須同時實現equals()方法來判斷當前的label是否與表中存在的label相同。正確的equals()方法滿足五個條件：

(1) 自反性。對于任意的x，x.equals(x)一定返回true。

(2) 對稱性。對于任意的x和y，如果y.equals(x)返回true，則x.equals(y)也返回true。

(3) 傳遞性。對于任意的x、y、z，如果有x.equals(y)返回true，y.equals(z)返回true，則x.equals(z)一定返回true。

(4) 一致性。對于任意的x和y，如果對象中用于等價比較的信息沒有改變，那么無論調用x.equals(y)多少次，返回的結果應該保持一致，要么一直是true，要么一直是false。

(5) 對任何不是null的x，x.equals(null)一定返回false。

equals()比較的是對象的地址，如果要使用自己的類作為HashMap的label，必須同時重載hashCode()和equals()方法。

使用散列的目的：想要使用一個對象來查找另一個對象。使用TreeSet或TreeMap也能實現此目的。另外，還可以自己實現一個Map，此時，必須提供Map.entrySet()方法來生成Map.Entry對象的Set。

使用散列的價值：速度，散列使得查詢可以快速進行。散列將label保存載數組中方便快速查詢，因為存儲一組元素最快的數據結構是數組，用它來表示label的信息(后面有信息的描述)，而不是label本身。通過label對象計算得到一個數字，作為數組的下標，這個數字就是散列碼(即前面所述的信息)。該散列碼具體是通過定義在基類Object中，可能由程序員自定義的類覆蓋的hashCode()方法，即散列函數生成。為了解決數組容量帶來的限制，可以使不同的label生成相同的下標，保存在一個鏈表list中，每一個鏈表就是數組的一個元素。查詢label時就可以通過對list中的信息進行查找，當散列函數比較好，數組的每個位置中的list長度較短，則可以快速查找到數組元素list中的某個位置，提高了整體速度。

散列表中的slot通常稱為bucket，為了使散列分步均勻，bucket的值一般取質數。但事實證明，質數實際上并不是散列bucket的理想容量，近來Java散列實現都使用2的冪，具體如何驗證以后再續。

3.HashMap的性能因子

容量(capacity): 散列表中bucket的數量。

初始化容量(initial capacity): 創建散列表時bucket的數量。可以在構造方法中指定HashMap和HashSet的初始化容量。

尺寸(size): 散列表中記錄的數量。(數組的元素個數，非list中元素總和)

負載因子(load factor): 尺寸/容量。負載因子為0，表示空的散列表，0.5表示半滿的散列表。輕負載的散列表具有沖突少，適宜插入與查詢的特點，但是使用迭代器遍歷會比較慢。較高的負載會減少所需空間大小。當負載達到指定值時，容器會自動成倍地增加容量，并將原有的對象重新分配，存入新的bucket中，這個過程稱為“重散列”。

4.重寫hashCode()的關鍵

(1) 對同一個對象調用hashCode()都應該生成同樣的值。

(2) hashCode()方法不要依賴于對象中易變的數據，當數據發生變化時，hashCode()就會生成一個不同的散列碼，即產生了一個不同的label。

(3) hashCode()不應依賴于具有唯一性的對象信息，例如對象地址。

(4) 散列碼應該更關心速度，而不是唯一性，因為散列碼不必是唯一的。

(5) 好的hashCode()應該產生分步均勻的散列碼。在Effective Java(Addison-Wesley 2001)中，Joshua Bloch給hashCode()給出了設計指導，可以參考。

編寫正確高效的hashCode()和equals()可以參考Apache的Jakarta Commons項目中的工具。

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 查看、修改ORACLE最大進程數 AutoItX 1.4/2.63實現sendkeys和許多強大功能的COM組件(作者: Jonathan Bennett) tomcat5.5.20連接池DBCP、C3P0配置(含官方配置) showModalDialog和showModelessDialog使用心得對一個指定的文件夾中的文件進行按日期，大小，名稱來排序 JDOM入門:使用JDOM解析XML 如何使用Axis傳送附件李維日志：它終于發生了! 記住這重要的一天 Eclipse+MyEclipse+WebLogic8.1配置使用Ajax的挑戰

月亮的太陽

Java容器分析--Map

日歷

公告

常用鏈接

留言簿(6)

隨筆分類(109)

隨筆檔案(114)

文章分類(27)

文章檔案(27)

相冊

收藏夾(13)

精品BLOG

最新隨筆

搜索

最新評論

閱讀排行榜

評論排行榜