19、集合(03)

一、Map接口(下)

1、HashMap类的底层实现

HashMap源码分析

哈希也叫哈希表,是一种非常重要的数据结构,应用场景极其丰富,许多缓存技术(比如:Redis)的核心其实就是在内存中维护一张大的哈希表,而HashMap的实现原理也常常出现在各类的面试题中,重要性可见一斑。

  在讨论哈希表之前,我们先回顾一下数组和链表来实现对数据的存储的优缺点:

数组:占用空间连续。 寻址容易,查询速度快。但是,增加和删除效率非常低。

链表:占用空间不连续。 寻址困难,查询速度慢。但是,增加和删除效率非常高。

从上分析我们知道,数组优势是查询效率高,链表的优势是增删效率高。那么有没有一种数据结构能结合“数组+链表”的双方优点呢?答案就是“哈希表”。 

哈希表的本质就是“数组+链表”,这是一种非常重要的数据结构。在哈希表中进行添加、删除和查找等操作,性能十分之高,不考虑哈希冲突的情况下,仅需一次定位即可完成。

我们知道,数据结构的物理存储结构只有两种:顺序存储结构链式存储结构。而在上面我们提到过,在数组中根据下标查找某个元素,一次定位就可以达到,哈希表利用了这种特性,哈希表的主干就是数组。

我们打开HashMap源码,发现有如下两个核心内容:

其中的,Node[] table 就是HashMap的核心数组结构,我们也称之为“位桶数组”。我们再继续看Node是什么,源码如下:

一个Node对象存储了:

  1. key:键对象       
  2. hash:键对象的hash值        
  3. value:值对象
  4. next:下一个节点

显然就是一个单向链表结构,我们使用图形表示一个Entry的典型示意:

                                                              Entry对象存储结构图

然后,我们画出Node[]数组的结构(这也是HashMap的结构):

                                                              Entry数组存储结构图

由图可知,哈希表就是数组+链表,底层还是数组但是这个数组存储的每个元素就是一个单链表。

哈希表的存储原理分析

哈希表存储原理图

散列函数

散列函数(也就是hashCode()方法),通过散列函数获得key对象的哈希码,实际上就是建立起key值与int值映射关系的函数。这就好比每个人都有一个身份证号一样,无论是男是女,出生在何处,都可以通过身份证号来分辨,这就是把人的信息映射成一串数字的典型做法。散列函数和此类似,不过是把任意的Java对象,映射成一个int数值(散列均匀,尽量不重复),供哈希表使用。

另外,通过hashCode()方法获得的结果是一个很大的整数,我们的哈希表不可能提供那么大的存储空间,所以我们还需要对获得的哈希码值做处理。现实开发中,最常见的做法就是“取余法”,把获得的“哈希码值%哈希表长度”,这样得到的结果就肯定在哈希表索引的合法取值范围了。

散列碰撞

通过hashCode()方法,获得了一个散列均匀的哈希码值,但是不同的key对象获得哈希码值可能相同;另外,通过对不同的“哈希码值%哈希表长度”得到的索引值也可能相同,那就意味着在哈希表的某个索引位置需要存储多条数据,这就是所谓的散列碰撞问题。

目前比较通用的解决散列碰撞的方法,就是使用“数组+链表”组合的方式。当出现散列碰撞时,在该位置的数据就通过单链表的方式链接起来,这样一来数组中的每个元素维护的就是一个单链表啦。

2、LinkedHashMap类详解

LinkedHashMap类概述

LinkedHashMap是 HashMap 集合的子集合,它的底层采用“哈希表+链表”结构,能够保证元素存与取的顺序完全一致。

LinkedHashMap 类和HashMap用法几乎一模一样。当然,LinkedHashMap 集合中的 key 不能重复,我们需要通过重写 hashCode() 与 equals()方法来保证键的唯一。另外,key的取值可以为null,并且如果key发生了重复,则做覆盖操作。

LinkedHashMap的演示

【例】LinkedHashMap使用案例

public class Test05 {
    public static void main(String[] args) {
        // 创建一个LinkedHashMap对象
        LinkedHashMap<String, Integer> map = new LinkedHashMap<>();
        // 添加键值对
        map.put("aa", 11);
        map.put("bb", 22);
        map.put("cc", 33);
        map.put("aa", 44);
        map.put(null, 55);
        // 获得key的Set集合
        Set<String> set = map.keySet();
        // 通过迭代器遍历set集合
        Iterator<String> iterator = set.iterator();
        while (iterator.hasNext()) {
            // 获取key值
            Object key = iterator.next();
            // 输出键值对
            System.out.println(key + ":" + map.get(key));
        }
    }
}

3、Hashtable类详解

Hashtable类概述

Hashtable类和HashMap用法几乎一模一样,它的底层依旧采用哈希表接口,查询速度快,在很多情况下它们可以互用。

只不过Hashtable类继承于Dictionary类并实现了Map接口,HashMap类只是Map接口的实现类。另外Hashtable的方法添加了synchronized关键字确保线程同步检查,效率较低

在Hashtable类中,put(K key, V value)方法就增加了synchronized同步标记。

相比较于HashMap类,Hashtable类中还包含了许多传统的方法,显然这些方法都不属于集合框架,在Hashtable类中常见的传统方法如下所示:

方法名

说明

public synchronized Enumeration<K> keys()

遍历所有的key,keys()方法类似于keySet()方法

public synchronized Enumeration<V> elements()

遍历所有的value,elements()方法类似于values()方法

通过Hashtable的keys()和elements()方法,返回的结果是Enumeration类型,此处Enumeration类的功能类似于Iterator类,都可以实现迭代器的效果,常见的方法如下:

方法名

说明

boolean hasMoreElements();

判断集合中是否有下一个元素可以迭代,如果有,则返回 true。

E nextElement();

返回迭代的下一个元素,并把指针向后移动一位。

Hashtable类演示

【例】Hashtable类传统方法演示

public class Test {
	public static void main(String[] args) {
		// 创建Hashtable对象
		Hashtable<String, String> ht = new Hashtable<String, String>();
		// 添加键值对
		ht.put("cn", "China");
		ht.put("jp", "Japan");
		ht.put("us", "America");
		// 遍历所有的key,keys()方法类似于keySet()方法
		Enumeration<String> keys = ht.keys();
		while(keys.hasMoreElements()) {
			String key = keys.nextElement();
			System.out.println(key + "-->" + ht.get(key));
		}
		// 遍历所有的value,elements()方法类似于values()方法
		Enumeration<String> elements = ht.elements();
		while(elements.hasMoreElements()) {
			String element = elements.nextElement();
			System.out.println("value: " + element);
		}
	}
}

【新手建议】HashMap与HashTable的区别?

  1. HashMap:线程不安全,效率高,允许key或value为null。

      2、 Hashtable:线程安全,效率低,不允许key或value为null。

4、二叉树和红黑二叉树

二叉树的定义

二叉树是树形结构的一个重要类型。 许多实际问题抽象出来的数据结构往往是二叉树的形式,即使是一般的树也能简单地转换为二叉树,而且二叉树的存储结构及其算法都较为简单,因此二叉树显得特别重要。

二叉树(BinaryTree)由一个结点及两棵互不相交的、分别称作这个根的左子树和右子树的二叉树组成。下图中展现了五种不同基本形态的二叉树。

(a) 为空树。

(b) 为仅有一个结点的二叉树。

(c) 是仅有左子树而右子树为空的二叉树。

(d) 是仅有右子树而左子树为空的二叉树。

(e) 是左、右子树均非空的二叉树。

排序二叉树特性如下:

(1) 左子树上所有节点的值均小于它的根节点的值。

(2) 右子树上所有节点的值均大于它的根节点的值。

比如:我们要将数据【14, 12, 23, 4, 16, 13, 8, 3】存储到排序二叉树中,如下图所示:

                                                                 排序二叉树示意图

排序二叉树本身实现了排序功能,可以快速检索。但如果插入的节点集本身就是有序的,要么是由小到大排列,要么是由大到小排列,那么最后得到的排序二叉树将变成普通的链表,其检索效率就会很差。 比如上面的数据【14, 12, 23, 4, 16, 13, 8, 3】,我们先进行排序变成:【3, 4, 8, 12, 13, 14, 16, 23】,然后存储到排序二叉树中,显然就变成了链表,如下图所示:

平衡二叉树(AVL)

为了避免出现上述一边倒的存储,科学家提出了“平衡二叉树”。

在平衡二叉树中任何节点的两个子树的高度最大差别为1,所以它也被称为高度平衡树。 增加和删除节点可能需要通过一次或多次树旋转来重新平衡这个树。

节点的平衡因子是它的左子树的高度减去它的右子树的高度(有时相反)。带有平衡因子1、0或 -1的节点被认为是平衡的。带有平衡因子-2或2的节点被认为是不平衡的,并需要重新平衡这个树。

比如,我们存储排好序的数据【3, 4, 8, 12, 13, 14, 16, 23】,增加节点如果出现不平衡,则通过节点的左旋或右旋,重新平衡树结构,最终平衡二叉树如下图所示:

平衡二叉树追求绝对平衡,实现起来比较麻烦,每次插入新节点需要做的旋转操作次数不能预知。

红黑二叉树

红黑二叉树(简称:红黑树),它首先是一棵二叉树,同时也是一棵自平衡的排序二叉树。

红黑树在原有的排序二叉树增加了如下几个要求:

1. 每个节点要么是红色,要么是黑色。

2. 根节点永远是黑色的。

3. 所有的叶节点都是空节点(即null),并且是黑色的。

4. 每个红色节点的两个子节点都是黑色 (从每个叶子到根的路径上不会有两个连续的红色节点) 。

5. 从任一节点到其子树中每个叶子节点的路径都包含相同数量的黑色节点。

这些约束强化了红黑树的关键性质:从根到叶子的最长的可能路径不多于最短的可能路径的两倍长。这样就让树大致上是平衡的。

红黑树是一个更高效的检索二叉树,JDK 提供的集合类 TreeMap、TreeSet 本身就是一个红黑树的实现。

红黑树的基本操作:插入、删除、左旋、右旋、着色。每插入或者删除一个节点,可能会导致树不在符合红黑树的特征,需要进行修复,进行 “左旋右旋着色” 操作,使树继续保持红黑树的特性。

5、TreeMap类使用详解

TreeMap源码分析

TreeMap是一个排序的key-value集合,它是通过红黑二叉树(Red-Black tree)来实现的。我们打开TreeMap的源码,发现里面有一行核心代码:

在源码中,成员变量root用来存储整个树的根节点,我们再继续跟踪Entry(它是TreeMap的内部类)的代码:

可以看到里面存储了本身数据、左节点、右节点、父节点以及节点颜色,从这里我们就能确定TreeMap底层采用的就是红黑二叉树来实现。

TreeMap基于红黑树实现,TreeMap中支持2种排序方式,方式一:根据其键的自然顺序进行排序(也就是使用Comparable接口来排序),方式二:根据创建映射时提供的Comparator接口进行排序,具体取决于其使用的构造方法,常用的构造方法如下:

方法名

说明

public TreeMap()

创建一个空TreeMap,keys按照自然排序

public TreeMap(Comparator<? super K> comparator)

创建一个空TreeMap,按照指定的comparator排序

TreeMap和HashMap用法大致相同,不同点是TreeMap可以用来排序,HashMap和TreeMap比较:

1、HashMap是key无序的(key可以为null),而TreeMap是key有序的(key不能为null)。

2、HashMap效率略高于TreeMap,在需要排序的Map时才选用TreeMap。

二、Set接口

1、Set接口介绍

Set接口继承自Collection接口,在Set接口中没有新增方法,方法和Collection保持完全一致。我们在前面通过Collection学习的方法,在Set中仍然适用。因此,学习Set的使用将没有任何难度。

Set容器特点:无序、不可重复允许null。无序指Set中的元素没有索引,我们只能遍历查找;不可重复指不允许加入重复的元素。HashSet可以添加null值,TreeSet不能添加null值。

Set 集合有多个子类,这里我们介绍其中的 HashSet、LinkedHashSet 、TreeSet这三个集合。

2、HashSet类详解

HashSet是采用哈希算法实现,底层实际是用HashMap实现的(HashSet本质就是一个简化版的HashMap),因此,查询效率和增删效率都比较高。 

我们打开HashSet的源码,发现里面有一行核心代码:

我们发现里面有个map属性,这就是HashSet的核心秘密。我们再看add()方法,发现增加一个元素说白了就是在map中增加一个键值对,键对象就是这个元素,值对象是名为PRESENT的Object对象。说白了,就是“往set中加入元素,本质就是把这个元素作为key加入到了内部的map中”。

由于map中key都是不可重复的,因此,HashSet天然具有“不可重复”的特性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值