详解Java HashMap

2023-10-16 18:05 由 KRDecad3 发表于 #后端开发

HashMap介绍

HashMap是Map接口的实现类，基于哈希表来存储键值对。

HashMap可以存储null的key和value，可以允许多个value为null，但是只能允许一个key为null。
JDK1.8之前的HashMap底层数据结构采用数组+链表实现，JDK1.8之后采用数组+链表/红黑树实现。数组是HashMap的主体，采用拉链法（链表）解决哈希冲突，当链表长度大于等于阈值（默认为8）时，链表会转换为红黑树（链表转红黑树之前会判断，数组长度小于64时会优先扩容数组）；当红黑树节点小于等于6时，红黑树会退化为链表。
HashMap的默认大小是16，之后每次扩容，容量变成原来的2倍。
另外，HashMap不是线程安全的，在多线程环境下，推荐使用ConcurrentHashMap或HashTable（渐被淘汰）。

常用方法

Map<Integer, String> map = new HashMap<>();
//存入键值对
map.put(1, "Java");
map.put(2, "Python");
map.put(3, "C++");
map.put(4, "Rust");
map.put(5, "Go");
//通过key获取value
System.out.println(map.get(1));
//查找hashmap中是否有对应的key，没有则存入默认的value
System.out.println(map.getOrDefault(10, "code"));
//根据key删除元素
map.remove(10);
//查询是否有该key
System.out.println(map.containsKey(10));

HashMap源码分析

下面代码只对JDK1.8之后的HashMap进行分析。

类属性

public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable {
	// 序列号
    private static final long serialVersionUID = 362498820763181265L;
	// 默认容量大小16
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
	// 最大容量
    static final int MAXIMUM_CAPACITY = 1 << 30;
	// 默认负载因子0.75
    static final float DEFAULT_LOAD_FACTOR = 0.75f;
	// 链表转红黑树的阈值
    static final int TREEIFY_THRESHOLD = 8;
	// 红黑树转链表的阈值
    static final int UNTREEIFY_THRESHOLD = 6;
	// 转成红黑树时数组的最小容量
    static final int MIN_TREEIFY_CAPACITY = 64;
	// 数组
    transient Node<K,V>[] table;
	// 存放具体元素的集合
    transient Set<Map.Entry<K,V>> entrySet;
	// 存放元素的个数，不等于数组长度
    transient int size;
	// 记录HashMap增删元素导致结构改动的次数
    transient int modCount;
	// 扩容的阈值 = 当前容量 * 负载因子
    int threshold;
	//负载因子
    final float loadFactor;

负载因子loadFactor：负载因子 = 数组存放的元素 / 数组大小，负载因子越接近1，则数组存放的元素越密集，发生哈希碰撞的概率就越大，负载因子越接近0，数组中存放的元素就越分散，发生哈希碰撞的概率也就越小。HashMap默认0.75，可以保证时间和空间上的平衡。

threshold扩容阈值：threshold = capability * loadFactor，当size>threshold时就会触发数组的扩容。

构造方法

HashMap有4个构造方法。

//默认构造方法
public HashMap() {
	this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}

//指定初始化容量和负载因子
public HashMap(int initialCapacity, float loadFactor) {
	if (initialCapacity < 0)
		throw new IllegalArgumentException("Illegal initial capacity: " +
										   initialCapacity);
	if (initialCapacity > MAXIMUM_CAPACITY)
		initialCapacity = MAXIMUM_CAPACITY;
	if (loadFactor <= 0 || Float.isNaN(loadFactor))
		throw new IllegalArgumentException("Illegal load factor: " +
										   loadFactor);
	this.loadFactor = loadFactor;
	this.threshold = tableSizeFor(initialCapacity);
}

//指定初始化容量
public HashMap(int initialCapacity) {
	this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
//传入一个map
public HashMap(Map<? extends K, ? extends V> m) {
	this.loadFactor = DEFAULT_LOAD_FACTOR;
	putMapEntries(m, false);
}

put

HashMap的put方法实际调用了putVal方法来插入键值对：

public V put(K key, V value) {
	return putVal(hash(key), key, value, false, true);
}

对于putVal方法，参数的意思分别是：
hash：调用hash方法计算哈希值；
key：传入key；
value：传入value；
onlyIfAbsent：如果为true，当键相同时不修改已存在的值；
evict：如果为false则数组处于创建模式。

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
			   boolean evict) {
	//tab表示数组，p表示当前插入的节点
	Node<K,V>[] tab; Node<K,V> p; int n, i;
	//如果数组为空则调用resize()创建一个数组
	if ((tab = table) == null || (n = tab.length) == 0)
		n = (tab = resize()).length;
	//判断插入位置是否哈希冲突，如果不冲突则直接创建新节点插入
	if ((p = tab[i = (n - 1) & hash]) == null)
		tab[i] = newNode(hash, key, value, null);
	else {
		//处理冲突
		Node<K,V> e; K k;
		//判断table[i]中的元素是否与插入的key一样，如果一样就先用变量e保存这个节点，待后续用新值替换旧值。
		if (p.hash == hash &&
			((k = p.key) == key || (key != null && key.equals(k))))
			e = p;
		//判断插入的是红黑树还是链表，是红黑树则调用putTreeVal插入到红黑树中
		else if (p instanceof TreeNode)
			e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
		else {
			//如果是链表，则遍历链表到尾部插入新节点
			for (int binCount = 0; ; ++binCount) {
				//到达链表尾部，创建新节点插入
				if ((e = p.next) == null) {
					p.next = newNode(hash, key, value, null);
					//如果链表长度达到红黑树化阈值，则转为红黑树
					if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
						treeifyBin(tab, hash);
					break;
				}
				//判断链表中的节点key与插入的key是否相等，相等则退出遍历
				if (e.hash == hash &&
					((k = e.key) == key || (key != null && key.equals(k))))
					break;
				p = e;
			}
		}
		//处理待插入key已存在的节点，用新值替换旧值，并返回旧值。
		if (e != null) { // existing mapping for key
			V oldValue = e.value;
			if (!onlyIfAbsent || oldValue == null)
				e.value = value;
			afterNodeAccess(e);
			return oldValue;
		}
	}
	//结构修改计数
	++modCount;
	//元素个数大于阈值则扩容
	if (++size > threshold)
		resize();
	afterNodeInsertion(evict);
	return null;
}

resize

resize()方法用来初始化hashmap和扩容，当前存放元素数量达到threshold时就会触发扩容，按照2的幂进行扩容。

final Node<K,V>[] resize() {
	//保存旧哈希表
	Node<K,V>[] oldTab = table;
	int oldCap = (oldTab == null) ? 0 : oldTab.length;
	int oldThr = threshold;
	int newCap, newThr = 0;
	if (oldCap > 0) {
		if (oldCap >= MAXIMUM_CAPACITY) {
			threshold = Integer.MAX_VALUE;
			return oldTab;
		}
		//计算新哈希表容量，旧容量左移一位，相当于*2
		//如果旧容量>=默认初始容量则新阈值*2
		else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
				 oldCap >= DEFAULT_INITIAL_CAPACITY)
			newThr = oldThr << 1; // double threshold
	}
	else if (oldThr > 0) // initial capacity was placed in threshold
		newCap = oldThr;
	else {               // zero initial threshold signifies using defaults
		newCap = DEFAULT_INITIAL_CAPACITY;
		newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
	}
	//更新阈值
	if (newThr == 0) {
		float ft = (float)newCap * loadFactor;
		newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
				  (int)ft : Integer.MAX_VALUE);
	}
	threshold = newThr;
	@SuppressWarnings({"rawtypes","unchecked"})
	Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
	table = newTab;
	if (oldTab != null) {
	//将旧哈希表的元素移到新哈希表中
		for (int j = 0; j < oldCap; ++j) {
			Node<K,V> e;
			if ((e = oldTab[j]) != null) {
				oldTab[j] = null;
				if (e.next == null)
					//只有一个节点直接计算新位置放入
					newTab[e.hash & (newCap - 1)] = e;
				else if (e instanceof TreeNode)
					//如果是红黑树则对其拆分成两个子树再映射
					((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
				else { // preserve order
					//如果是多个链表的节点，则将原链表拆分从两个链表
					Node<K,V> loHead = null, loTail = null;
					Node<K,V> hiHead = null, hiTail = null;
					Node<K,V> next;
					do {
						next = e.next;
						if ((e.hash & oldCap) == 0) {
							if (loTail == null)
								loHead = e;
							else
								//尾插法插入节点
								loTail.next = e;
							loTail = e;
						}
						else {
							if (hiTail == null)
								hiHead = e;
							else
								hiTail.next = e;
							hiTail = e;
						}
					} while ((e = next) != null);
					//链表1存于原索引位置
					if (loTail != null) {
						loTail.next = null;
						newTab[j] = loHead;
					}
					//链表2存于[原索引+旧容量]位置
					if (hiTail != null) {
						hiTail.next = null;
						newTab[j + oldCap] = hiHead;
					}
				}
			}
		}
	}
	return newTab;
}

get

get方法在hashmap中查找键所对应的值，实际调用的是getNode方法。

public V get(Object key) {
	Node<K,V> e;
	return (e = getNode(key)) == null ? null : e.value;
}

final Node<K,V> getNode(Object key) {
	Node<K,V>[] tab; Node<K,V> first, e; int n, hash; K k;
	//fisrt获取数组这个桶位置下的第一个节点
	if ((tab = table) != null && (n = tab.length) > 0 &&
		(first = tab[(n - 1) & (hash = hash(key))]) != null) {
		//如果key相等则直接返回该节点
		if (first.hash == hash && // always check first node
			((k = first.key) == key || (key != null && key.equals(k))))
			return first;
		//当前桶中不只一个节点
		if ((e = first.next) != null) {
			if (first instanceof TreeNode)
				//返回树节点
				return ((TreeNode<K,V>)first).getTreeNode(hash, key);
			do {
				//查找链表节点
				if (e.hash == hash &&
					((k = e.key) == key || (key != null && key.equals(k))))
					return e;
			} while ((e = e.next) != null);
		}
	}
	return null;
}

HashMap遍历方式

HashMap的遍历，大体上可分为4类，而每种类型下又有不同的实现方式，总共的遍历方式可分为7种：

迭代器遍历：
- 使用迭代器对EntrySet遍历；
- 使用迭代器对KeySet遍历；
foreach遍历：
- 使用foreach对EntrySet遍历；
- 使用foreach对KeySet遍历；
lambda表达式遍历；
streams API遍历：
- Streams API单线程方式遍历；
- Streams API多线程方式遍历。

下面列举出几种遍历方式，首先创建并初始化一个HashMap：

public class HashMapTest {
    public static void main(String[] args) {
        Map<Integer, String> map = new HashMap<>();
        map.put(1, "Java");
        map.put(2, "Python");
        map.put(3, "C++");
        map.put(4, "Rust");
        map.put(5, "Go");

        System.out.println("1. 迭代器遍历EntrySet");
        traverseByIterator1(map);
        System.out.println("2. 迭代器遍历KeySet");
        traverseByIterator2(map);
        System.out.println("3. foreach遍历EntrySet");
        traverseByForeach1(map);
        System.out.println("4. foreach遍历KeySet");
        traverseByForeach2(map);
        System.out.println("5. lambda表达式遍历");
        traverseByLambda(map);
        System.out.println("6. streams API单线程");
        traverseByStreams1(map);
        System.out.println("7. streams API多线程");
        traverseByStreams2(map);
    }
}

迭代器

EntrySet

public static void traverseByIterator1(Map map) {
	Iterator<Map.Entry<Integer, String>> iterator = map.entrySet().iterator();
	while (iterator.hasNext()) {
		Map.Entry<Integer, String> entry = iterator.next();
		System.out.println(entry.getKey() + " : " + entry.getValue());
	}
}

输出：

1. 迭代器遍历EntrySet
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

KeySet

public static void traverseByIterator2(Map map) {
	Iterator<Integer> iterator = map.keySet().iterator();
	while (iterator.hasNext()) {
		Integer key = iterator.next();
		System.out.println(key + " : " + map.get(key));
	}
}

输出：

2. 迭代器遍历KeySet
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

foreach

对于foreach遍历，内部也是通过创建迭代器来遍历

EntrySet

public static void traverseByForeach1(Map<Integer, String> map) {
	for (Map.Entry<Integer, String> entry : map.entrySet()) {
		System.out.println(entry.getKey() + " : " + entry.getValue());
	}
}

输出：

3. foreach遍历EntrySet
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

KeySet

public static void traverseByForeach2(Map<Integer, String> map) {
	for (Integer key : map.keySet()) {
		System.out.println(key + " : " + map.get(key));
	}
}

输出：

4. foreach遍历KeySet
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

lambda表达式

public static void traverseByLambda(Map map) {
	map.forEach((key, value) -> {
		System.out.println(key + " : " + value);
	});
}

输出：

5. lambda表达式遍历
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

streams API

单线程

public static void traverseByStreams1(Map<Integer, String> map) {
	map.entrySet().stream().forEach((entry) -> {
		System.out.println(entry.getKey() + " : " + entry.getValue());
	});
}

输出：

6. streams API单线程
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

多线程

public static void traverseByStreams2(Map<Integer, String> map) {
	map.entrySet().parallelStream().forEach((entry) -> {
		System.out.println(entry.getKey() + " : " + entry.getValue());
	});
}

输出：

7. streams API多线程
1 : Java
2 : Python
3 : C++
4 : Rust
5 : Go

遍历时删除元素

在上述几种遍历方式中，有些可以在遍历过程中安全删除元素，有些则会抛出ConcurrentModificationException异常，这是因为遍历过程中会比较modCount != expectedModCount，不相等就会抛出异常，具体分析请往下看。

迭代器：

Iterator<Map.Entry<Integer, String>> iterator = map.entrySet().iterator();
while (iterator.hasNext()) {
	Map.Entry<Integer, String> entry = iterator.next();
	if (entry.getKey() == 1) {
		iterator.remove();
	}
}

通过迭代器遍历，并使用迭代器的remove()方法可以正常删除元素。
成功的原因是，调用iterator.remove()方法最后会对expectedModCount值进行更新，这样就保证了迭代器调用next()获取下一个元素时，检查modCount == expectedModCount。

foreach：

for (Map.Entry<Integer, String> entry : map.entrySet()) {
	if (entry.getKey() == 2) {
		map.remove(entry.getKey());
	}
}

在foreach遍历的过程中调用Map的remove()方法会抛出ConcurrentModificationException异常。
通过查看源码得知，抛出异常的原因是删除元素之后，进行下一个元素的遍历时，比较变量modCount与expectedModCount不相等：

HashMap中的变量modCount记录了HashMap的修改次数，HashIterator中的变量expectedModCount在遍历前会初始化与modCount相等，当删除一个元素时，++modCount，之后迭代器通过next()获取下一个元素时，检查modCount != expectedModCount，就会抛出异常。
此外，这种检查到错误就抛出异常并停止程序后续执行的机制被称为fail-fast机制。

lambda：

map.forEach((key, value) -> {
	if (key == 1) {
		map.remove(key);
	}
});

使用lambda表达式遍历时删除也会抛出ConcurrentModificationException。

可以通过removeIf()对key进行判断后删除。

map.keySet().removeIf(key -> key == 1);
map.forEach((key, value) -> {
	System.out.println(key + value);
});

sterams:

map.entrySet().stream().forEach((entry) -> {
	if (entry.getKey() == 1) {
		map.remove(entry.getKey());
	}
});

使用stream遍历删除同样抛出ConcurrentModificationException。
可以使用filter()过滤掉不需要的数据再遍历，但是这种方式不会真正删除hashmap中的元素。

map.entrySet().stream().filter(e -> 1 != e.getKey()).forEach((entry) -> {
	if (entry.getKey() == 1) {
		System.out.println(entry.getKey());
	}
});

HashMap线程安全问题

HashMap线程不安全体现在：

JDK1.7中，多线程扩容时，调用了transfer方法，会导致链表成环，造成死循环、数据丢失。
JDK1.8中，多线程put操作，调用putVal方法，会导致数据覆盖。

原因

JDK1.7：

扩容时，调用transfer方法将原哈希表的元素转移到新哈希表，采用头插法插入节点到链表中，链表的顺序会反转，在多线程操作下就会形成环形链表。

void transfer(Entry[] newTable, boolean rehash) {
	int newCapacity = newTable.length;
	for (Entry<K,V> e : table) {
		while(null != e) {
			Entry<K,V> next = e.next;
			if (rehash) {
				e.hash = null == e.key ? 0 : hash(e.key);
			}
			int i = indexFor(e.hash, newCapacity);
			e.next = newTable[i];
			newTable[i] = e;
			e = next;
		}
	}
}

扩容造成死循环

扩容造成数据丢失

JDK1.8：

多线程情况下数据覆盖
在JDK1.8中，链表插入节点改成尾插法，因此不会出现链表成环的情况，但是在多线程环境下也会出现数据覆盖问题。
在putVal方法中，会判断如果没有哈希碰撞则直接插入元素。

if ((p = tab[i = (n - 1) & hash]) == null)
	tab[i] = newNode(hash, key, value, null);

如果线程A和线程B同时put操作，恰好两个线程插入的key的hash一样，并且数组该位置为空，线程A和线程B都会进入这行代码。当线程A执行完if判断还未插入数据时被挂起，线程B正常执行并插入数据，之后线程A获得时间片，继续执行插入数据的操作，就会直接覆盖掉之前线程B的数据。

此外，putVal方法末尾在判断是否需要扩容时的代码：

if (++size > threshold)

因为++size不是原子性操作，如果存在两个线程A和B同时put，线程A从主内存获取size值并+1，但此时A时间片耗尽并挂起，更新后的size值并未同步到主内存，线程B也从主内存读取size值并+1，完成put操作并将更新后的size写回主内存，后续线程A再次获取CPU并继续执行，完成put操作后也将size写回主内存。这样，线程A和B都插入了一个元素，但是size只增加了1。