⭐️ 本文已收录到 AndroidFamily,技术和职场问题,请关注公众号 [彭旭锐] 和 [BaguTree Pro] 知识星球提问。
学习数据结构与算法的关键在于掌握问题背后的算法思维框架,你的思考越抽象,它能覆盖的问题域就越广,理解难度也更复杂。在实际的业务开发中,往往不需要我们手写数据结构,而是直接使用标准库的数据结构 / 容器类。
本文是 Java & Android 集合框架系列的第 1 篇文章,完整文章目录请移步到文章末尾~
前言
大家好,我是小彭。
在前面的文章里,我们学习了很多数据结构与算法思想。在实际的业务开发中,往往不需要我们手写数据结构,而是直接使用标准库的数据结构 / 容器类。
在后续的文章里,我们将以 Java 语言为例,分析从 ArrayList 到 LinkedHashMap 等一系列标准库容器类,最后再有一篇总结回顾,请关注。
思维导图:
- 说一下 ArrayList 和 LinkedList 的区别?
- 1、数据结构: 在数据结构上,ArrayList 和 LinkedList 都是 “线性表”,都继承于 Java 的
List
接口。另外 LinkedList 还实现了 Java 的Deque
接口,是基于链表的栈或队列,与之对应的是ArrayDeque
基于数组的栈或队列; - 2、线程安全: ArrayList 和 LinkedList 都不考虑线程同步,不保证线程安全;
- 3、底层实现: 在底层实现上,ArrayList 是基于动态数组的,而 LinkedList 是基于双向链表的。事实上,它们很多特性的区别都是因为底层实现不同引起的。比如说:
+ **在遍历速度上:** 数组是一块连续内存空间,基于局部性原理能够更好地命中 CPU 缓存行,而链表是离散的内存空间对缓存行不友好;
+ **在访问速度上:** 数组是一块连续内存空间,支持 O(1) 时间复杂度随机访问,而链表需要 O(n) 时间复杂度查找元素;
+ **在添加和删除操作上:** 如果是在数组的末尾操作只需要 O(1) 时间复杂度,但在数组中间操作需要搬运元素,所以需要 O(n)时间复杂度,而链表的删除操作本身只是修改引用指向,只需要 O(1) 时间复杂度(如果考虑查询被删除节点的时间,复杂度分析上依然是 O(n),在工程分析上还是比数组快);
+ **额外内存消耗上:** ArrayList 在数组的尾部增加了闲置位置,而 LinkedList 在节点上增加了前驱和后继指针。
- ArrayList 源码分析
这一节,我们来分析 ArrayList 中主要流程的源码。
2.1 ArrayList 的属性
ArrayList 的属性很好理解,底层是一个 Object 数组,我要举手提问:
- 🙋🏻♀️疑问 1: 为什么 elementData 字段不声明
private
关键字? - 🙋🏻♀️疑问 2: 为什么 elementData 字段声明
transient
关键字? - 🙋🏻♀️疑问 3: 为什么elementData 字段不声明为泛型类型
E
? - 🙋🏻♀️疑问 4: 为什么 ArrayList 的最大容量是
Integer.MAX_VALUE
,Long.MAX_VALUE
不行吗? - 🙋🏻♀️疑问 5: 为什么 ArrayList 的最大容量是
MAX_VALUE - 8
,一定会减8
吗?
这些问题我们在分析源码的过程中回答。疑问这么多,ArrayList 瞬间不香了。
1 | java复制代码public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serializable { |
2.2 ArrayList 的构造方法
ArrayList 有三个构造函数:
- 1、带初始容量的构造方法: 如果初始容量大于 0,则创建指定长度的数组。如果初始容量是 0,则指向第 1 个全局空数组 ;
EMPTY_ELEMENTDATA
; - 2、无参构造方法: 指向第 2 个全局空数组
DEFAULTCAPACITY_EMPTY_ELEMENTDATA
; - 3、带集合的构造方法: 将集合转为数组,如果数组为空,则指向第 1 个全局空数组
EMPTY_ELEMENTDATA
;
可以看到,除了指定大于 0 的初始容量外,ArrayList 在构造时不会创建数组,而是指向全局空数组,这是懒初始化的策略。
构造器的源码不难,但小朋友总有太多的问号,举手提问 🙋🏻♀️:
- 🙋🏻♀️疑问 6:既然都是容量为 0 ,为什么 ArrayList 要区分出 2 个空数组?
这个问题直接回答吧:ArrayList 认为无参构造函数应该使用默认行为,在首次添加数据时会创建长度为 10(DEFAULT_CAPACITY)
的默认初始数组;而显示设置初始容量为 0 是开发者的显式意图,所以不使用默认初始数组,在首次添加数据时只会创建长度为 1 (size + 1)
的数组(可以结合后文源码理解下)。
- 🙋🏻♀️疑问 7: 在带集合的构造方法中,为什么会存在集合转化后的数组类型不是 Object[].class 的情况?
1 | java复制代码// 带初始容量的构造方法 |
2.3 ArrayList 的添加与扩容方法
ArrayList 可以在数组末尾或数组中间添加元素:
- 如果是在数组末尾添加,均摊时间只需要 O(1) 时间复杂度;
- 如果在数组中间添加,由于需要搬运数据,所以需要 O(n) 时间复杂度。
添加前会先检查数据容量,不足会先扩容:
- 在使用无参构造器初始化时,首次添加元素时会直接扩容到 10 的容量;
- 在其他情况,会直接扩容到旧容量的 1.5 倍,而不是扩容到最小容量要求。
不管是扩容到 10 还是扩容到 1.5 倍,都是为了防止频繁扩容,避免每次 add 添加数据都要扩容一次。
现在,我们可以回到一些小朋友的疑问:
- 🙋🏻♀️疑问 4:为什么 ArrayList 的最大容量是
Integer.MAX_VALUE
,Long.MAX_VALUE
不行吗?
本质上看,应该说是数组长度的限制,而不是 ArrayList 长度的限制。在 《对象的内存分为哪几个部分?》 这篇文章里,我们讨论过对象的内存布局。数组对象的长度是记录在对象头中的 “数组长度” 字段中,这个字段是 4 字节,正好就是 Integer 也是 4 个字节,所以限制为 Integer.MAX_VALUE
,而不能使用 Long.MAX_VALUE
。
不对啊,Java Integer 是有符号整数,所以 Integer.MAX_VALUE
只有 31 位有效位,还少了 1 位呢。没错,是少了一位。如果要榨干这 1 位容量,当然可以用 long 类型并且限制到 32 位能够表示的最大正整数上,并且在源码中到处加上数组越界判断,想想就不稳定的。相比之下,限制数组长度为 int 类型且最大长度为 Integer.MAX_VALUE
,如果有超过 Integer.MAX_VALUE
存储容量的需求,那就创建两个数组呀:)你觉得哪种更好。
Java 对象内存布局
- 🙋🏻♀️疑问 5:为什么 ArrayList 的最大容量是
MAX_VALUE - 8
,一定会减8
吗?
依然与对象的内存布局有关。在 Java 虚拟机垃圾回收算法中,需要计算对象的内存大小,计算结果是存储在 jint
类型变量(Java int 类型在 JNI 中的映射)中的。如果数组的长度是 MAX_VALUE
,那么加上对象头之后就整型溢出了,所以 ArrayList 会预先减掉对象头可能占用的 8 个字节。对象头的具体大小取决于虚拟机实现,减 8 是相对保守的。
其实,ArrayList 的最大容量也不一定会减 8,如果最小容量要求是超过 MAX_ARRAY_SIZE
的,那么还是会扩容到 MAX_VALUE
。这有点摆烂的意思,会不会溢出运行时再说。
数组长度溢出
1 | java复制代码OutOfMemoryError: Requested array size exceeds VM limit |
- 🙋🏻♀️疑问 8:不应该是 elementData.length - minCapacity > 0 吗? 这是考虑到整型溢出的情况,minCapacity 溢出就变成负数了。
1 | java复制代码// 在数组末尾添加元素 |
除了扩容之外,ArrayList 还支持缩容,将底层数组的容量缩小到实际元素的数量:
1 | java复制代码// 缩容 |
另外,因为扩容涉及到数据搬运操作,所以如果能事先知道数据的容量,最好在创建 ArrayList 时就显式指定数据量大小。
2.4 ArrayList 的迭代器
Java 的 foreach 是语法糖,本质上也是采用 iterator 的方式。ArrayList 提供了 2 个迭代器:
- iterator():Iterator(): 单向迭代器
- ListIterator listIterator(): 双向迭代器
在迭代器遍历数组的过程中,有可能出现多个线程并发修改数组的情况,造成数据不一致甚至数组越界,所以 Java 很多容器类的迭代器中都有 fail-fast 机制。
如果在迭代的过程中发现 expectedModCount 变化,说明数据被修改,此时就会提前抛出 ConcurrentModificationException
异常(当然也不一定是被其他线程修改)。
1 | java复制代码private class Itr implements Iterator<E> { |
- 🙋🏻♀️疑问 1:为什么 elementData 字段不声明
private
关键字?
在注释中的解释是:“non-private to simplify nested class access”。但我们知道在 Java 中,内部类是可以访问外部类的 private 变量的,所以这就说不通的。我的理解是:因为内部类在编译后会生成独立的 Class 文件,如果外部类的 elementData 字段是 private 类型,那么编译器就需要在 ArrayList 中插入 getter / setter,并通过方法调用,而 non-private 字段就可以直接访问字段。
2.5 ArrayList 的序列化过程
- 🙋🏻♀️疑问 2:为什么 elementData 字段声明
transient
关键字?
ArrayList 重写了 JDK 序列化的逻辑,只把 elementData 数组中有效元素的部分序列化,而不会序列化整个数组。
1 | java复制代码// 序列化和反序列化只考虑有效元素 |
2.6 ArrayList 的 clone() 过程
ArrayList 中的 elementData 数组是引用类型,因此在 clone() 中需要实现深拷贝,否则原对象与克隆对象会相互影响:
1 | typescript复制代码public Object clone() { |
2.7 为什么阿里巴巴要求谨慎使用 subList API?
在 《阿里巴巴 Java 开发手册》中,有关于 ArrayList#subList
API 的规定。为什么阿里巴巴要做这样的限制呢?
- 【强制】ArrayList 的 subList 结果不可强转成 ArrayList,否则会抛出 ClassCastException 异常;
- 【强制】在 subList 场景中,高度注意对原集合元素的增加或删除,均会导致子列表的遍历、增加、删除产生 ConcurrentModificationException 异常。
这是因为 subList API 只是提供通过起始索引 fromIndex 和终止索引 toIndex 包装了一个原 ArrayList 的 “视图窗口” ,并不是真的截取并创建了一个新的 ArrayList,所以强制类型转换就会抛出 ClassCastException 异常。
此时,在 ArrayList 或 SubList 上做修改,要注意相互之间的影响:
- 在 ArrayList 或 SubList 上修改元素,都会同步更新到对方(因为底层都是 ArrayList 本身);
- 在 SubList 上增加或删除元素,会影响到 ArrayList;
- 在 ArrayList 上增加或删除元素,会导致 SubList 抛出 ConcurrentModificationException 异常。
ArrayList.java
1 | java复制代码public List<E> subList(int fromIndex, int toIndex) { |
2.8 ArrayList 如何实现线程安全?
有 4 种方式:
- 方法 1 - 使用 Vector 容器: Vector 是线程安全版本的数组容器,它会在所有方法上增加 synchronized 关键字;
- 方法 2 - 使用 Collections.synchronizedList 包装类: 原理也是在所有方法上增加 synchronized 关键字;
- 方法 3 - 使用 CopyOnWriteArrayList 容器: 基于加锁的 “读写分离” 和 “写时复制” 实现的动态数组,适合于读多写少,数据量不大的场景。
- 方法 4 - 使用 ArrayBlockingQueue 容器: 基于加锁的阻塞队列,适合于带阻塞操作的生产者消费者模型。
提示: 关于 CopyOnWriteArrayList 的更多内容,去看看专栏文章 《CopyOnWriteArrayList 是如何保证线程安全的?》
- Arrays#ArrayList:世界上的另一个我
事实上,在 Java 环境中有两个 ArrayList,这或许是一个隐藏的彩蛋(坑):
- ArrayList: 一般认为的 ArrayList,是一个顶级类;
- Arrays#ArrayList: Arrays 的静态内部类,和上面这个 ArrayList 没有任何关系。
其实,Arrays#ArrayList 的定位就是在数组和和 List 直接切换而已。Arrays 提供了数组转 List 的 API,而 Arrays#ArrayList 也提供了 List 转数组的 API(这些 API 第一个 ArrayList 中也都有…)
回过头看剩下的 2 个问题:
- 🙋🏻♀️疑问 3:为什么 elementData 字段不声明为泛型类型
E
?
泛型擦除后等于 Object[] elementData,没有区别。
- 🙋🏻♀️疑问 7:在带集合的构造方法中,为什么会存在集合转化后的数组类型不是 Object[].class 的情况?
这是因为有些 List 集合的底层数组不是 Object[] 类型,有可能是 String[] 类型。而在 ArrayList#toArray() 方法中,返回值的类型是 Object[] 类型,有类型错误风险。
例如:在这段代码中,ArrayList 接收一个由 String 数组转化的 List,最后在 ArrayList#toArray() 返回的 Object 数组中添加一个 Object 对象,就出现异常了:
示例代码
1 | java复制代码// 假设没有特殊处理 |
源码摘要:
Arrays.java
1 | java复制代码public static <T> List<T> asList(T... a) { |
ArrayList.java
1 | java复制代码public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serializable |
- ArrayList 这么好用,可以完全替代数组吗?
大多数场景可以,但不能完全替代。
ArrayList 是基于 Object 数组封装的动态数组,我们不需要关心底层数组的数据搬运和扩容等逻辑,因此在大多数业务开发场景中,除非是为了最求极致的性能,否则直接使用 ArrayList 代替数组是更好的选择。
那么,ArrayList 有哪些地方上比数组差呢?
- 举例 1 - ArrayList 等容器类不支持 int 等基本数据类型,所以必然存在装箱拆箱操作;
- 举例 2 - ArrayList 默认的扩容逻辑是会扩大到原容量的 1.5 倍,在大数据量的场景中,这样的扩容逻辑是否多余,需要打上问题;
- 举例 3 - ArrayList 的灵活性不够。ArrayList 不允许底层数据有空洞,所有的有效数据都会 “压缩” 到底层数组的首部。因此,当需要基于数组二次开发容器时,ArrayList 并不是一个好选择。
+ 例如,使用 ArrayList 开发栈的结构或许合适,可以在数组的尾部操作数据。但使用 ArrayList 开发队列就不合适,因为在数组的首部入队或出队需要搬运数据;
+ 而数组没有这些约束,我们可以将数组设计为 “环形数组”,就可以避免入队和出队时搬运数据。例如 Java 的 `ArrayBlockingQueue` 和 [ArrayDeque](https://dev.newban.cn/7162819765361672199) 就是基于数组的队列。
- 总结
- 1、ArrayList 是基于数组封装的动态数组,封装了操作数组时的搬运和扩容等逻辑;
- 2、在构造 ArrayList 时,除了指定大于 0 的初始容量外,ArrayList 在构造时不会创建数组,而是指向全局空数组,这是懒初始化的策略;
- 3、在添加数据时会先检查数据容量,不足会先扩容。首次添加默认会扩容到 10 容量,后续会扩容到旧容量的 1.5 倍,这是为了避免反复扩容;
- 4、因为扩容涉及到数据搬运操作,所以如果能事先知道数据的容量,最好在创建 ArrayList 时就显式指定数据量大小;
- 5、ArrayList 重写了序列化过程,只处理数组中有效的元素;
- 6、ArrayList 的 subList API 只是提供视图窗口,并不是创建新列表;
- 7、ArrayList 在大多数场景中可以代替数组,但在高性能和二次封装的场景中,ArrayList 无法替代数组。
在下一篇文章里,我们来讨论 ArrayList 的孪生兄弟 —— LinkedList。请关注。
版权声明
本文为稀土掘金技术社区首发签约文章,14天内禁止转载,14天后未获授权禁止转载,侵权必究!
参考资料
- 为什么阿里巴巴要求谨慎使用 ArrayList 中的 subList 方法 —— HollisChuang 著
- ArrayList 源码解析,老哥,来一起复习一哈? —— iisheng 著
- Arrays.asList(x).toArray().getClass() should be Object[].class —— OpenJDK
- Why I can’t create an array with large size? —— stack overflow
推荐阅读
Java & Android 集合框架系列文章目录(2023/07/08 更新):
- #1 ArrayList 可以完全替代数组吗?
- #2 说一下 ArrayList 和 LinkedList 的区别?
- #3 CopyOnWriteArrayList 是如何保证线程安全的?
- #4 ArrayDeque:如何用数组实现栈和队列?
- #5 万字 HashMap 详解,基础(优雅)永不过时 —— 原理篇
- #6 万字 HashMap 详解,基础(优雅)永不过时 —— 源码篇
- #7 如何使用 LinkedHashMap 实现 LRU 缓存?
- #8 说一下 WeakHashMap 如何清理无效数据的?
- #9 全网最全的 ThreadLocal 原理详细解析 —— 原理篇
- #10 全网最全的 ThreadLocal 原理详细解析 —— 源码篇
数据结构与算法系列文章:跳转阅读
⭐️ 永远相信美好的事情即将发生,欢迎加入小彭的 Android 交流社群~
本文转载自: 掘金