首頁新隨筆新文章聯系聚合

posts - 4,comments - 30,trackbacks - 0

2025年7月

>

日

一

二

三

四

五

六

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

常用鏈接

留言簿(6)

我參與的團隊

架構師之家(0/0)

隨筆分類

笨笨在日本(1)

隨筆檔案

2007年9月 (2)

文章分類

文章檔案

收藏夾

good

搜索

閱讀排行榜

評論排行榜

HashMap和Hashtable 之原代碼詳解 (轉載)

Hashtable從JDK1.0就已經有了, 所以讓我們先來看看它是怎么工作, 然后有淺入深, 來研究HashMap的原理, 以及兩者的不同點.

Hashtable有幾個主要的字段, 如下,

/**
* The hash table data.
*/
private transient Entry[] table;

/**
* The total number of entries in the hash table.
*/
private transient int count;

/**
* The table is rehashed when its size exceeds this threshold. (The
* value of this field is (int)(capacity * loadFactor).)
*
* @serial
*/
private int threshold;

其中最重要的就是那個table數組了. 它就是整個hashtable的基本數據結構! 在來看一下這個字段
private transient Entry[] table;

可以看到, hashtable的基本數據結構就是, 一個包涵Entry類的二維數組. 而這個Entry類是hashtable的內在類, 它其實是一個單向鏈, 讓我們詳細分析一下.

private static class Entry<K,V> implements Map.Entry<K,V> {
int hash;
K key;
V value;
Entry<K,V> next;
...
...

看到這里有沒有想到學校里教的數據結構原理這門課呢? Entry類就是定義了一個很簡單的單向鏈結構, 它里面包括key, value和下個Entry類的對象next.
在這里我在強調一下, hashtable的數據結構就是一個包涵單向鏈的二維數組.

接下來讓我們來看看hashtable的構造器是長的什么樣的.

最長用的

public Hashtable() {
this(11, 0.75f);
}

這個構造器調用了另外一個構造器

public Hashtable(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal Capacity: "+
initialCapacity);
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal Load: "+loadFactor);

if (initialCapacity==0)
initialCapacity = 1;
this.loadFactor = loadFactor;
table = new Entry[initialCapacity];
threshold = (int)(initialCapacity * loadFactor);
}

細讀代碼后, 我們發現這個構造器構造了table字段和threshold. Table前面已經詳細講了, 那么這個threshold又是什么東東呢?
其實這個threshold對hashtalbe的性能影響是很大的! 因為table是個數組, 如果在hashtable中保存的實體大于一定的數量后, 對數據的讀寫就會有很慢, 那是因為, 很多數據都保存在entry類的單向鏈中, 每次讀寫都要比對鏈中所有的數據, 鏈越長讀寫就越慢.
所以當數據容量大于threshold的時候, hashtable就會做rehash(), rehash把table的容量擴大一倍, 再把從前在table里的數據統統搬回新的table. 這樣的一個過程, 開銷是多么的大呀.
threshold = (int)(initialCapacity * loadFactor);
Hashtable類提供了構造涵數, 用戶可以自定, intitialCapacity和loadFactor. 對于那些大概知道容量的hashtable, 用戶應該自定intitialCapacity. 這樣的話, 就可以省去一大筆rehash的開銷.

現在讓我們來看hashtable的put和get操作

public synchronized V get(Object key) {
Entry tab[] = table;
int hash = key.hashCode();
int index = (hash & 0x7FFFFFFF) % tab.length;
for (Entry<K,V> e = tab[index] ; e != null ; e = e.next) {
if ((e.hash == hash) && e.key.equals(key)) {
return e.value;
}
}
return null;
}

先來看get方法, get可謂是hashtable中的最基本方法了, 它是通過key來拿到hashtable中的value.
int hash = key.hashCode();
int index = (hash & 0x7FFFFFFF) % tab.length;
從key拿到hashCode, 從hashCode再計算出在table中的index, 也就是在數組中的第幾個列.
至于為什么要與 0x7FFFFFFF, 那是hashtable 提供的hash算法, hashMap提供了不同的算法, 用戶如果要定義自己的算法也是可以的. 如果要知道不同的具體算法, 就google or 百度一下吧.

好了, 現在我們有了index, 就可以到table數組里的entry單向鏈去找value啦.

for (Entry<K,V> e = tab[index] ; e != null ; e = e.next) {
if ((e.hash == hash) && e.key.equals(key)) {
return e.value;
}
}

for語句就是簡單的檢索entry的單鏈, if語句檢查key是否相同. 這里就遇到了java學習中的一個重大知識點. hasCode()和equal()的關系.
大家都學過如果hasCode()的值相同的話, equal不一定相同, 而如果equal相同的話, hasCode一定要相同. 但那是為什么呢? 其實答案就在上面的代碼中!
Hashtable 的數據結構是一個包涵單向鏈的二維數組. 從hasCode我們得到hash和index, 并得以確定這個key在table數組中的第幾個列, 然而這顯然是不夠的, 因為, entry類是一個單向列, 它可以是一個, 也可能是很多個key組成, 那么要從一系列有著相同hasCode的entry中找到, 我們所要的key的話, 就要用equals了. 只有兩個key是相等的, 那才是我們要找的. 找到key之后, 只要簡單的把value返回就好了. 如果對entry類還有疑問的話, 請參考前面的解釋.

public synchronized V put(K key, V value) {
// Make sure the value is not null
if (value == null) {
throw new NullPointerException();
}

// Makes sure the key is not already in the hashtable.
Entry tab[] = table;
int hash = key.hashCode();
int index = (hash & 0x7FFFFFFF) % tab.length;
for (Entry<K,V> e = tab[index] ; e != null ; e = e.next) {
if ((e.hash == hash) && e.key.equals(key)) {
V old = e.value;
e.value = value;
return old;
}
}

modCount++;
if (count >= threshold) {
// Rehash the table if the threshold is exceeded
rehash();

tab = table;
index = (hash & 0x7FFFFFFF) % tab.length;
}

// Creates the new entry.
Entry<K,V> e = tab[index];
tab[index] = new Entry<K,V>(hash, key, value, e);
count++;
return null;
}

接下來再來看看put方法, 理解了get, put就很容易弄明白了.
首先, 要放入hashtable的value不能是null, 否則就報錯.
其次, 然后要確保key不能已經在hashtable里面, 有的話, 就返回value.
再次, 檢查是否容量已經太大, 如果太大話就rehash, 這會是一個很浪費資源的方法, 請參考前文.

最后, 也是最重要的, 我們要把key-value保存到hashtable中去.

Entry<K,V> e = tab[index];
tab[index] = new Entry<K,V>(hash, key, value, e);

1.拿到當前在table數組中的entry對象.
2.根據傳入的key和value建一個新的entry并賦予給當前的table的index中
protected Entry(int hash, K key, V value, Entry<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}
這是entry類的構造函數. 簡單的說, 就是在單鏈的最前端加了個新的entry對象. 從這里也可以看出, 對于那些后寫入的object, 反而可以以比較快的速度讀出, 那是因為后寫入的object, 總是在鏈的前端.

看完了hashtable, 我們在來看看hashMap
hashMap可以算作是hashtable的升級版本, 最早從1.2開始有的.
整體上hashMap對hashtable類優化了代碼. 比如說, 消除了hardcoding, 增加了code reuse等等.
但是, 兩者之間最主要的不同有兩點.
1.hashMap的讀寫是unsynchronized, 在多線程的環境中要注意使用
而hashtable是synchronized
這兩者的不同是通過在讀寫方法上加synchronized關鍵字來實現的.

hashMap
public V put(K key, V value)
public V get(Object key)

hashtable
public synchronized V get(Object key)
public synchronized V put(K key, V value)

可能有人問, 能synchronized, 能線程安全好啊. 為什么不要呢?
這里其實還是一個效率的問題. 對于線程安全的方法, 系統要進行加鎖, 減鎖操作. 性能會有很大的影響. 由于很多程序是在單線程或者說是線程安全的情況下工作的, 所以用synchronized就顯得多余了.

3.第二個不同是hashMap可以放空值, 而hashtable就會報錯.
hashMap
public V put(K key, V value) {
if (key == null)
return putForNullKey(value);

hashtable
public synchronized V put(K key, V value) {
// Make sure the value is not null
if (value == null) {
throw new NullPointerException();
}

posted on 2007-08-30 10:55 蠻哥♂楓閱讀(1330) 評論(0) 編輯收藏所屬分類: Java

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 【轉】js日期時間函數 java面試精品全集[ejb 部分] java面試精品全集[ejb 部分] java面試精品全集[ jdbc jdo xml部分] java面試精品全集[jsp與servlet部分] java面試精品全集[線程部分] java面試精品全集[java部分4] java面試精品全集[java部分3] java面試精品全集[java部分2] java面試精品全集[java部分]