开发者博客 – IT技术 尽在开发者博客

开发者博客 – 科技是第一生产力


  • 首页

  • 归档

  • 搜索

【数据结构与算法】—— 归并排序

发表于 2020-01-13

归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。归并排序是一种稳定的排序方法。

归并介绍

前面有介绍,这里依然不做介绍

归并思想

核心思想:不断的将大的数组分成两个小数组,直到不能拆分为止,即形成了单个值。此时使用合并的排序思想对已经有序的数组进行合并,合并为一个大的数据,不断重复此过程,直到最终所有数据合并到一个数组为止。

归并分析

归并排序

归并排序流程

我在网上看到一大神写的关于 归并排序的图解,很清楚明了。可以借鉴一下: 【图解】归并排序

图解归并

图解归并-动态图解归并-动态

代码实现

Java程序是网上得到哪位大神提供的。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
复制代码    public static void main(String[] args) {
int[] data = {8, 4, 5, 7, 1, 3, 6, 2};
mergeSort(data);
System.out.println(Arrays.toString(data));
}
public static void mergeSort(int[] arr) {
sort(arr, 0, arr.length - 1);
}
public static void sort(int[] arr, int L, int R) {
if (L == R) {
return;
}
int mid = L + ((R - L) >> 1);
sort(arr, L, mid);
sort(arr, mid + 1, R);
merge(arr, L, mid, R);
}
public static void merge(int[] arr, int L, int mid, int R) {
int[] temp = new int[R - L + 1];
int i = 0;
int p1 = L;
int p2 = mid + 1;
// 比较左右两部分的元素,哪个小,把那个元素填入temp中
while (p1 <= mid && p2 <= R) {
temp[i++] = arr[p1] < arr[p2] ? arr[p1++] : arr[p2++];
}
// 上面的循环退出后,把剩余的元素依次填入到temp中
// 以下两个while只有一个会执行
while (p1 <= mid) {
temp[i++] = arr[p1++];
}
while (p2 <= R) {
temp[i++] = arr[p2++];
}
// 把最终的排序的结果复制给原数组
for (i = 0; i < temp.length; i++) {
arr[L + i] = temp[i];
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
复制代码  def main(args: Array[String]): Unit = {
var left: List[Int] = List(
4, 5, 7, 8
)
var right: List[Int] = List(1, 2, 3, 6)
val ints: List[Int] = merge(left, right)
println(ints)
}
def merge(left: List[Int], right: List[Int]): List[Int] = (left, right) match {
case (Nil, _) => right
case (_, Nil) => left
case (x :: xTail, y :: yTail) =>
if (x <= y) x :: merge(xTail, right)
else y :: merge(left, yTail)
}

在归并之前,首先先要对两个数组做排序,要保证他们两个有序,然后在进行归并。之前的有序的过程可以使用快速排序算法。

在归并中,一般会使用 快排 + 归并 来完成一个数组的排序。

时间复杂度:O(nlogn)

空间复杂度:O(N),归并排序需要一个与原数组相同长度的数组做辅助来排序

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

历时七天,史上最强MySQL优化总结,从此优化So Easy

发表于 2020-01-13

一、概述

1. 为什么要优化

  • 一个应用吞吐量瓶颈往往出现在数据库的处理速度上
  • 随着应用程序的使用,数据库数据逐渐增多,数据库处理压力逐渐增大
  • 关系型数据库的数据是存放在磁盘上的,读写速度较慢(与内存中的数据相比)

2. 如何优化

  • 表、字段的设计阶段,考量更优的存储和计算
  • 数据库自身提供的优化功能,如索引
  • 横向扩展,主从复制、读写分离、负载均衡和高可用
  • 典型SQL语句优化(收效甚微)

二、字段设计

1. 典型方案

①. 对精度有要求

  • decimal
  • 小数转整数

②. 尽量使用整数表示字符串(IP)

  • inet_ aton("ip' )
  • inet_ ntoa(num)

③. 尽可能使用not null

  • nuI数值的计算逻辑比较复杂

④. 定长和非定长的选择

  • 较长的数字数据可以使用decimal
  • char为定长(超过长度的内容将被截掉), varchar为非定长,text对内容 长度的保存额外保存而varchar对长度的保存占用数据空间

⑤. 字段数不要过多字段注释是必要的、字段命名见名思意、可以预留字段以备扩展

2. 范式

①. 第一范式:段原子性(关系型数据库有列的念,默认就符合了)

②. 第二范式:消除对主键的部分依赖(因为主键可能不止一个);使用一 个与业务无关的字段作为主键

③. 第三范式:消除对主键的传递依赖;高内聚, 如商品表可分为商品简略信息表和商品详情表两张表

三、存储引擎的选择(MyISAM和Innodb)

1. 功能差异

Innodb支持事务、 行级锁定、外健

2. 存储差异

①. 存储方式:MyISAM的数据和索弓 |是分开存储的(.MYI.MYD) , 而Innodb是存在一起的(.frm)

②. 表可移动性:可以通过移动表对应的MYI和MYD能够实现表的移动,而Innodb还有 额外的关联文件

③. 碎片空间:MyISAM删除数据时会产生碎片空间(占用表文件空间),需要定期通过optimizetable table-name手动优化。而Innodb不会。

④. 有序存储:Innodb插入数据时按照主键有序来插入。因此表中数据默认按主键有序(耗费写入时间,因为需要在b+ tree中查找插入点,但查找效率高)

3. 选择差异

①. 读多写少用MyISAM:新闻、博客网站

②. 读多写也多用Innodb:

  • 支持事务/外键,保证数据-致性、完整性
  • 并发能力强(行锁)

四、索引

1. 什么是索引

从数据中提取的具有标识性的关键字,并且有到对应数据的映射关系

2. 类型

①. 主键索引primary key:要求关键字唯一且不为null

②. 普通索引key:符合索引仅按照第一字段有序

③. 唯一索引unique key:要求关键字唯一

④. 全文索引fulltext key (不支持中文)

3. 索引管理语法

①. 查看索引

  • show create table student
  • desc student

②. 建立索引

  • 创建时指定,如first. name varchar(1 6),last name(1 6) , key name(first_ name,last_ name)
  • 更改表结构:alter table student add key/unique key/primary key/ultext key key. name(first_ name,last_ name)

③. 删除索引

  • alter table student drop key key_ name
  • 如果删除的是主键索引,并且主键自增长,则需要alter modify先取消自增长再删除

4. 执行计划explain

分析SQL执行是否用到了索引,用到了什么索引

5. 索引使用的场景

  • where:如果查找字段都建立了索引,则会索引覆盖
  • order by:如果排序字段建立了索引,而索引又是有序排列的,直接根据索引拿对应数据即可,与读取查询出来的所有数据再排序相比效率很高
  • join:如果join on的条件字段建立了索引,查找会变得高效
  • 索引覆盖:直接对索引做查找,而不去读取数据

6. 语法细节

即使建立了索引,有些场景也不一定使用

  • where id+1 = ?建议写成where id = ?-1,即保证索弓|字段的独立出现
  • like语句不要在关键字前模糊匹配,即”%keyword不会使用索引,而”keyword% 会使用索引
  • or关键两边条件字段都建立索引时才会使用索引,只要有一边不是就会做全表扫描
  • 状态值。像性别这样的状态值,-个关键字对应很多条数据,会认为使用索引比全表扫描效率还低

7. 索引的存储结构

  • btree:搜索多叉树:结点内关键字有序排列,关键字之间有一个指针,查找效率log(nodeSize,N),其中nodeSize指一 个结点内关键字数量 (这取决于关键字长度和结点大小)
  • b+ tree:由btree升级而来,数据和关键字存在一块空间,省去了由关键字到数据的映射找数据存放地的时间

五、查询缓存

1. 将select查询结果缓存起来,key为SQL语句,value为查询结果

如果SQL功能一样,但只是多个空格或略微改动都会导致key的不匹配

2. 客户端开启

1
复制代码query. cache. _type
  • 0-不开启
  • 1-开启,默认缓存每条select,针对某个sq不缓存: select sql-no-cache
  • 2-开启,默认都不缓存,通过select sql-cache制定缓存哪-个条

3. 客户端设置缓存大小

1
复制代码query_ cache .size

4. 重蛋缓存

1
复制代码reset query cache

5. 缓存失效

日对数据表的改动会导致基 于该数据表的所有缓存失效(表层面的管理)

六、分区

1. 默认情况下一张表对应一组存储文件,但当数据量较大时(通常千万条级别)需要将数据分到多组存储文件,保证单个文件的处理效率

2. partition by分区函数(分区字段)(分区逻辑)

  • hash-分区字段为整型
  • key-分区字段为字符串
  • range-基于比较,只支持less than
  • list-基于状态值

3. 分区管理

  • 创建时分区:create table article0 partition by key(title) partitions 10
  • 修改表结构:alter table article add partition(分区逻辑)

4. 分区字段应选择常用的检素字段,否则分区意义不大

七、水平分割和垂直分割

1. 水平

多张结构相同的表存储同一类型数据

单独一张表保证id唯一性

2. 垂直

分割字段到多张表,这些表记录是一对应关系

八、集群

1. 主从复制

①. 首先手动将slave和master同步一下

  • stop slave
  • master导出数据到slave执行一遍
  • show master status with read lock记录File和Position
  • 到slave.上change master to

②. start slave查看Slave_ IO_ Running和Slave_ SQL_ _Running,必须都为YES

③. master可读可写,但slave只能读,否则主从复制会失效需要重新手动同步

④. mysqlreplicate快速配置主从复制

2. 读写分离(基于主从复制)

①. 使用原stcConecton

WriteDatabase提供写连接

ReadDatabase提供读连接

②. 借助Sping AOP和Aspec实现数据源动态切换

  • RoutingDataSourcelmpl extends AbstractRoutingDataSource,重写determineDatasource,注入到SqISessionFactory, 配置defaultTargetDatasource和targetDatasource (根据determineDatasource的返回值选择 具体数据源value-ref)
  • DatasourceAspect切面组件,配置切入点@Pointcut aspect0 (所有DAO类的所有方法),配置前置增强@Before(“ aspect0”) before(Joinpoint point), 通过point.getSignature.getName获取方法名,与METHOD TYPE MAP的前缀集合比对,将write/read设置到当前线程上(也是接下来要执行DAO方法的线程,前置增强将其拦截下来了)
  • DatasourceHandler,使用ThreadLocal在前置通知中将方法要使用的数据源绑定到执行该方法的线程上,执行方法要获取数据源时再根据当前线程获取

3. 负载均衡

算法

  • 轮询
  • 加权轮询
  • 依据负载情况

4. 高可用

为单机服务提供一个冗余机

  • 心跳检测
  • 虚IP
  • 主从复制

九、典型SQL

1. 线上DDL

为了避免长时间表级锁定

  • copy策略,逐行复制,记录复制期间旧表SQL日志重新执行
  • mysq|5.6 online ddl,大大缩短锁定时间

2. 批量导入

①. 先禁用索引和约束,导入之后统一建立

②. 避免逐条事务

innodb为了保证一致性,默认为每条SQL加事务(也是要耗费时间的),批量导入前应手动建立事务,导入完毕后手动提交事务。

3. limit offset,rows

避兔较大的offset (较大页码数)

offset用来跳过数据,完全可以用过滤筛选数据,而不是查出来之后再通过offset跳过

4. select *

尽量查询所需字段,减少网络传输延时(影响不大)

5. order by rand()

会为每条数据生成一个随机数最后根据随机数排序,可以使用应用程序生成随机主键代替

6. limit 1

如果确定了仅仅检索一条数据,建议都加上limit 1

十、慢查询日志

1. 定位查询效率较低的SQL,针对性地做优化

2. 配置项

  • 开启slow_ query. log
  • 临界时间long_ query. time

3. 慢查询日志会自己记录超过临界时间的SQL,并保存在datadir下的xxx-slow.log中

十一、Profile

1. 自动记录每条SQL的执行时间和具体某个SQL的详细步骤花费的时间

2. 配置项日

开启profiling

3. 查看日志信息show profiles

4. 查看具体SQL的详细步骤花费的时间日

1
复制代码show profiles for query Query_ ID

十二、典型的服务器配置

1. max_ connections, 最大客户端连接数

2. table_ open_ cache, 表文件缓存句柄数,加快表文件的读写

3. key_ buffer. _size, 索引缓存大小

4. innodb_ buffer. pool size, innodb的缓冲池大小,实现innodb各种功能的前提

5. innodb_ file_ per_ table,每个表一个ibd文件, 否则innodb共享 表空间

十三、压测工具MySQLSlap

1. 自动生成sq|并执行来测试性能

1
复制代码myqslap -a-to-generate sql -root -root

2. 并发测试

mysqlslap –auto-generate-sql –concurrency= 100 -uroot -proot,模拟100个客户端执行sql

3. 多轮测试,反应平均情况

mysqlslap –auto-generate-sql –concurrency= 100 –interations=3 -uroot -proot,模拟100个客户端执行sql.执行3轮

4. 存储引擎测试

  • –engine=innodb:mysqlslap –auto-generate-sql –concurrency= 100 –interations=3 – engine-innodb -uroot -proot,模拟100个客户端执行sql.执行3轮,innodb的处理性能
  • – engine= myisam:mysqlslap – auto-generate-sql –concurrency= 100 –interations=3 –engine-innodb -uroot -proot,模拟100个客户端执行sql.执行3轮,myisam的处理性能

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

小小TODO标识,你用对了吗?

发表于 2020-01-13

前言

有时,您需要标记部分代码以供将来参考,比如: 优化,改进,可能的更改,要讨论的问题等。 通常我们会在代码中加入如下的标记表示待办:

1
复制代码//TODO 我将要在这里做 xxx

你这样做,别人也会这样做。一时间,项目中可能会存在大量的 TODO,当你搜寻你的 TODO 时也就变得非常麻烦,如同石沉大海,也就失去了这个标记的意义。

IntelliJ IDEA允许我们添加特殊类型的注释,使得这些注释在编辑器中突出显示,它们被索引,并在 TODO 工具窗口 中列出。这样,我们就容易追踪自己的 TODO 了。

默认的 TODO

默认情况下,IntelliJ IDEA识别两种模式:小写和大写的 TODO 和 FIXME 这些模式可在任何受支持文件类型的行注释和块注释内部使用。我们可以根据需要修改默认模式或添加自己的模式

如上图,我们可以创建多行的 TODO (类似 Spring Boot 中的 YAML 配置多个值),需要缩进第一行之后的注释行。如果没有缩进,则将行视为常规注释行

要禁用多行 TODO 项目,使用快捷键 ⌘ + , 打开 Preferences, 搜索 TODO (Editor | TODO), 你会看到如下界面

要查看系统中的所有 TODO,请打开 TODO 工具窗口 (快捷键 ⌘ + 6 )。切换选项查看 TODO 范围:

  • 从当前项目中的所有文件
  • 仅基于当前文件的范围
  • 指定范围的文件
  • 活动的变更列表

到这里 Intellij IDEA 默认提供的 TODO 就介绍完了,为了能更快的找到我们自己的 TODO,我们就需要进行自定义

自定义 TODO

重新打开 TODO 位置,新增 TODO item,这里新增 optimize,用于标识待优化内容

添加个过滤器,用于 TODO 的分组

随便添加一个优化备注,通过以上介绍的功能,快速定位到我们自己的 TODO

如果你的待办事项通常是相对固定的描述,你也可以配合 Live Template 快速生成 TODO 内容

高清大图,请查看原文:小小TODO也有大道理

总结

当团队规模很大,你又同时有很多待办的时候,TODO 特性可以帮助我们做标识,自定义 TODO 可以帮我们快速定位,我们可以充分利用这个特性,但是

定期清理 TODO

灵魂追问

  1. 你觉得项目中代码有哪些不规范/不够整洁的地方?(欢迎到博客下方留言讨论)

欢迎持续关注公众号:「日拱一兵」

  • 前沿 Java 技术干货分享
  • 高效工具汇总 | 回复「工具」
  • 面试问题分析与解答
  • 技术资料领取 | 回复「资料」

以读侦探小说思维轻松趣味学习 Java 技术栈相关知识,本着将复杂问题简单化,抽象问题具体化和图形化原则逐步分解技术问题,技术持续更新,请持续关注……


本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

看完这篇HTTP,跟面试官扯皮就没问题了

发表于 2020-01-11

我是一名程序员,我的主要编程语言是 Java,我更是一名 Web 开发人员,所以我必须要了解 HTTP,所以本篇文章就来带你从 HTTP 入门到进阶,看完让你有一种恍然大悟、醍醐灌顶的感觉。

最初在有网络之前,我们的电脑都是单机的,单机系统是孤立的,我还记得 05 年前那会儿家里有个电脑,想打电脑游戏还得两个人在一个电脑上玩儿,及其不方便。我就想为什么家里人不让上网,我的同学 xxx 家里有网,每次一提这个就落一通批评:xxx上xxx什xxxx么xxxx网xxxx看xxxx你xxxx考xxxx的xxxx那xxxx点xxxx分。虽然我家里没有上网,但是此时互联网已经在高速发展了,HTTP 就是高速发展的一个产物。

认识 HTTP

首先你听的最多的应该就是 HTTP 是一种 超文本传输协议(Hypertext Transfer Protocol),这你一定能说出来,但是这样还不够,假如你是大厂面试官,这不可能是他想要的最终结果,我们在面试的时候往往把自己知道的尽可能多的说出来,才有和面试官谈价钱的资本。那么什么是超文本传输协议?

超文本传输协议可以进行文字分割:超文本(Hypertext)、传输(Transfer)、协议(Protocol),它们之间的关系如下

按照范围的大小 协议 > 传输 > 超文本。下面就分别对这三个名次做一个解释。

什么是超文本

在互联网早期的时候,我们输入的信息只能保存在本地,无法和其他电脑进行交互。我们保存的信息通常都以文本即简单字符的形式存在,文本是一种能够被计算机解析的有意义的二进制数据包。而随着互联网的高速发展,两台电脑之间能够进行数据的传输后,人们不满足只能在两台电脑之间传输文字,还想要传输图片、音频、视频,甚至点击文字或图片能够进行超链接的跳转,那么文本的语义就被扩大了,这种语义扩大后的文本就被称为超文本(Hypertext)。

什么是传输

那么我们上面说到,两台计算机之间会形成互联关系进行通信,我们存储的超文本会被解析成为二进制数据包,由传输载体(例如同轴电缆,电话线,光缆)负责把二进制数据包由计算机终端传输到另一个终端的过程(对终端的详细解释可以参考 你说你懂互联网,那这些你知道么?这篇文章)称为传输(transfer)。

通常我们把传输数据包的一方称为请求方,把接到二进制数据包的一方称为应答方。请求方和应答方可以进行互换,请求方也可以作为应答方接受数据,应答方也可以作为请求方请求数据,它们之间的关系如下

如图所示,A 和 B 是两个不同的端系统,它们之间可以作为信息交换的载体存在,刚开始的时候是 A 作为请求方请求与 B 交换信息,B 作为响应的一方提供信息;随着时间的推移,B 也可以作为请求方请求 A 交换信息,那么 A 也可以作为响应方响应 B 请求的信息。

什么是协议

协议这个名词不仅局限于互联网范畴,也体现在日常生活中,比如情侣双方约定好在哪个地点吃饭,这个约定也是一种协议,比如你应聘成功了,企业会和你签订劳动合同,这种双方的雇佣关系也是一种 协议。注意自己一个人对自己的约定不能成为协议,协议的前提条件必须是多人约定。

那么网络协议是什么呢?

网络协议就是网络中(包括互联网)传递、管理信息的一些规范。如同人与人之间相互交流是需要遵循一定的规矩一样,计算机之间的相互通信需要共同遵守一定的规则,这些规则就称为网络协议。

没有网络协议的互联网是混乱的,就和人类社会一样,人不能想怎么样就怎么样,你的行为约束是受到法律的约束的;那么互联网中的端系统也不能自己想发什么发什么,也是需要受到通信协议约束的。

那么我们就可以总结一下,什么是 HTTP?可以用下面这个经典的总结回答一下: HTTP 是一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范

与 HTTP 有关的组件

随着网络世界演进,HTTP 协议已经几乎成为不可替代的一种协议,在了解了 HTTP 的基本组成后,下面再来带你进一步认识一下 HTTP 协议。

网络模型

网络是一个复杂的系统,不仅包括大量的应用程序、端系统、通信链路、分组交换机等,还有各种各样的协议组成,那么现在我们就来聊一下网络中的协议层次。

为了给网络协议的设计提供一个结构,网络设计者以分层(layer)的方式组织协议,每个协议属于层次模型之一。每一层都是向它的上一层提供服务(service),即所谓的服务模型(service model)。每个分层中所有的协议称为 协议栈(protocol stack)。因特网的协议栈由五个部分组成:物理层、链路层、网络层、运输层和应用层。我们采用自上而下的方法研究其原理,也就是应用层 -> 物理层的方式。

应用层

应用层是网络应用程序和网络协议存放的分层,因特网的应用层包括许多协议,例如我们学 web 离不开的 HTTP,电子邮件传送协议 SMTP、端系统文件上传协议 FTP、还有为我们进行域名解析的 DNS 协议。应用层协议分布在多个端系统上,一个端系统应用程序与另外一个端系统应用程序交换信息分组,我们把位于应用层的信息分组称为 报文(message)。

运输层

因特网的运输层在应用程序断点之间传送应用程序报文,在这一层主要有两种传输协议 TCP和 UDP,利用这两者中的任何一个都能够传输报文,不过这两种协议有巨大的不同。

TCP 向它的应用程序提供了面向连接的服务,它能够控制并确认报文是否到达,并提供了拥塞机制来控制网络传输,因此当网络拥塞时,会抑制其传输速率。

UDP 协议向它的应用程序提供了无连接服务。它不具备可靠性的特征,没有流量控制,也没有拥塞控制。我们把运输层的分组称为 报文段(segment)

网络层

因特网的网络层负责将称为 数据报(datagram) 的网络分层从一台主机移动到另一台主机。网络层一个非常重要的协议是 IP 协议,所有具有网络层的因特网组件都必须运行 IP 协议,IP 协议是一种网际协议,除了 IP 协议外,网络层还包括一些其他网际协议和路由选择协议,一般把网络层就称为 IP 层,由此可知 IP 协议的重要性。

链路层

现在我们有应用程序通信的协议,有了给应用程序提供运输的协议,还有了用于约定发送位置的 IP 协议,那么如何才能真正的发送数据呢?为了将分组从一个节点(主机或路由器)运输到另一个节点,网络层必须依靠链路层提供服务。链路层的例子包括以太网、WiFi 和电缆接入的 DOCSIS 协议,因为数据从源目的地传送通常需要经过几条链路,一个数据包可能被沿途不同的链路层协议处理,我们把链路层的分组称为 帧(frame)

物理层

虽然链路层的作用是将帧从一个端系统运输到另一个端系统,而物理层的作用是将帧中的一个个 比特 从一个节点运输到另一个节点,物理层的协议仍然使用链路层协议,这些协议与实际的物理传输介质有关,例如,以太网有很多物理层协议:关于双绞铜线、关于同轴电缆、关于光纤等等。

五层网络协议的示意图如下

OSI 模型

我们上面讨论的计算网络协议模型不是唯一的 协议栈,ISO(国际标准化组织)提出来计算机网络应该按照7层来组织,那么7层网络协议栈与5层的区别在哪里?

从图中可以一眼看出,OSI 要比上面的网络模型多了 表示层 和 会话层,其他层基本一致。表示层主要包括数据压缩和数据加密以及数据描述,数据描述使得应用程序不必担心计算机内部存储格式的问题,而会话层提供了数据交换的定界和同步功能,包括建立检查点和恢复方案。

浏览器

就如同各大邮箱使用电子邮件传送协议 SMTP 一样,浏览器是使用 HTTP 协议的主要载体,说到浏览器,你能想起来几种?是的,随着网景大战结束后,浏览器迅速发展,至今已经出现过的浏览器主要有

浏览器正式的名字叫做 Web Broser,顾名思义,就是检索、查看互联网上网页资源的应用程序,名字里的 Web,实际上指的就是 World Wide Web,也就是万维网。

我们在地址栏输入URL(即网址),浏览器会向DNS(域名服务器,后面会说)提供网址,由它来完成 URL 到 IP 地址的映射。然后将请求你的请求提交给具体的服务器,在由服务器返回我们要的结果(以HTML编码格式返回给浏览器),浏览器执行HTML编码,将结果显示在浏览器的正文。这就是一个浏览器发起请求和接受响应的过程。

Web 服务器

Web 服务器的正式名称叫做 Web Server,Web 服务器一般指的是网站服务器,上面说到浏览器是 HTTP 请求的发起方,那么 Web 服务器就是 HTTP 请求的应答方,Web 服务器可以向浏览器等 Web 客户端提供文档,也可以放置网站文件,让全世界浏览;可以放置数据文件,让全世界下载。目前最主流的三个Web服务器是Apache、 Nginx 、IIS。

CDN

CDN的全称是Content Delivery Network,即内容分发网络,它应用了 HTTP 协议里的缓存和代理技术,代替源站响应客户端的请求。CDN 是构建在现有网络基础之上的网络,它依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。CDN的关键技术主要有内容存储和分发技术。

打比方说你要去亚马逊上买书,之前你只能通过购物网站购买后从美国发货过海关等重重关卡送到你的家里,现在在中国建立一个亚马逊分基地,你就不用通过美国进行邮寄,从中国就能把书尽快给你送到。

WAF

WAF 是一种 Web 应用程序防护系统(Web Application Firewall,简称 WAF),它是一种通过执行一系列针对HTTP / HTTPS的安全策略来专门为Web应用提供保护的一款产品,它是应用层面的防火墙,专门检测 HTTP 流量,是防护 Web 应用的安全技术。

WAF 通常位于 Web 服务器之前,可以阻止如 SQL 注入、跨站脚本等攻击,目前应用较多的一个开源项目是 ModSecurity,它能够完全集成进 Apache 或 Nginx。

WebService

WebService 是一种 Web 应用程序,WebService是一种跨编程语言和跨操作系统平台的远程调用技术。

Web Service 是一种由 W3C 定义的应用服务开发规范,使用 client-server 主从架构,通常使用 WSDL 定义服务接口,使用 HTTP 协议传输 XML 或 SOAP 消息,它是一个基于 Web(HTTP)的服务架构技术,既可以运行在内网,也可以在适当保护后运行在外网。

HTML

HTML 称为超文本标记语言,是一种标识性的语言。它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的 Internet 资源连接为一个逻辑整体。HTML 文本是由 HTML 命令组成的描述性文本,HTML 命令可以说明文字,图形、动画、声音、表格、链接等。

Web 页面构成

Web 页面(Web page)也叫做文档,是由一个个对象组成的。一个对象(Objecy) 只是一个文件,比如一个 HTML 文件、一个 JPEG 图形、一个 Java 小程序或一个视频片段,它们在网络中可以通过 URL 地址寻址。多数的 Web 页面含有一个 HTML 基本文件 以及几个引用对象。

举个例子,如果一个 Web 页面包含 HTML 文件和5个 JPEG 图形,那么这个 Web 页面就有6个对象:一个 HTML 文件和5个 JPEG 图形。HTML 基本文件通过 URL 地址引用页面中的其他对象。

与 HTTP 有关的协议

在互联网中,任何协议都不会单独的完成信息交换,HTTP 也一样。虽然 HTTP 属于应用层的协议,但是它仍然需要其他层次协议的配合完成信息的交换,那么在完成一次 HTTP 请求和响应的过程中,需要哪些协议的配合呢?一起来看一下

TCP/IP

TCP/IP 协议你一定听过,TCP/IP 我们一般称之为协议簇,什么意思呢?就是 TCP/IP 协议簇中不仅仅只有 TCP 协议和 IP 协议,它是一系列网络通信协议的统称。而其中最核心的两个协议就是 TCP / IP 协议,其他的还有 UDP、ICMP、ARP 等等,共同构成了一个复杂但有层次的协议栈。

TCP 协议的全称是 Transmission Control Protocol 的缩写,意思是传输控制协议,HTTP 使用 TCP 作为通信协议,这是因为 TCP 是一种可靠的协议,而可靠能保证数据不丢失。

IP 协议的全称是 Internet Protocol 的缩写,它主要解决的是通信双方寻址的问题。IP 协议使用 IP 地址 来标识互联网上的每一台计算机,可以把 IP 地址想象成为你手机的电话号码,你要与他人通话必须先要知道他人的手机号码,计算机网络中信息交换必须先要知道对方的 IP 地址。(关于 TCP 和 IP 更多的讨论我们会在后面详解)

DNS

你有没有想过为什么你可以通过键入 www.google.com 就能够获取你想要的网站?我们上面说到,计算机网络中的每个端系统都有一个 IP 地址存在,而把 IP 地址转换为便于人类记忆的协议就是 DNS 协议。

DNS 的全称是域名系统(Domain Name System,缩写:DNS),它作为将域名和 IP 地址相互映射的一个分布式数据库,能够使人更方便地访问互联网。

URI / URL

我们上面提到,你可以通过输入 www.google.com 地址来访问谷歌的官网,那么这个地址有什么规定吗?我怎么输都可以?AAA.BBB.CCC 是不是也行?当然不是的,你输入的地址格式必须要满足 URI 的规范。

URI的全称是(Uniform Resource Identifier),中文名称是统一资源标识符,使用它就能够唯一地标记互联网上资源。

URL的全称是(Uniform Resource Locator),中文名称是统一资源定位符,也就是我们俗称的网址,它实际上是 URI 的一个子集。

URI 不仅包括 URL,还包括 URN(统一资源名称),它们之间的关系如下

HTTPS

HTTP 一般是明文传输,很容易被攻击者窃取重要信息,鉴于此,HTTPS 应运而生。HTTPS 的全称为 (Hyper Text Transfer Protocol over SecureSocket Layer),全称有点长,HTTPS 和 HTTP 有很大的不同在于 HTTPS 是以安全为目标的 HTTP 通道,在 HTTP 的基础上通过传输加密和身份认证保证了传输过程的安全性。HTTPS 在 HTTP 的基础上增加了 SSL 层,也就是说 HTTPS = HTTP + SSL。(这块我们后面也会详谈 HTTPS)

HTTP 请求响应过程

你是不是很好奇,当你在浏览器中输入网址后,到底发生了什么事情?你想要的内容是如何展现出来的?让我们通过一个例子来探讨一下,我们假设访问的 URL 地址为 http://www.someSchool.edu/someDepartment/home.index,当我们输入网址并点击回车时,浏览器内部会进行如下操作

  • DNS服务器会首先进行域名的映射,找到访问www.someSchool.edu所在的地址,然后HTTP 客户端进程在 80 端口发起一个到服务器 www.someSchool.edu 的 TCP 连接(80 端口是 HTTP 的默认端口)。在客户和服务器进程中都会有一个套接字与其相连。
  • HTTP 客户端通过它的套接字向服务器发送一个 HTTP 请求报文。该报文中包含了路径 someDepartment/home.index 的资源,我们后面会详细讨论 HTTP 请求报文。
  • HTTP 服务器通过它的套接字接受该报文,进行请求的解析工作,并从其存储器(RAM 或磁盘)中检索出对象 www.someSchool.edu/someDepartment/home.index,然后把检索出来的对象进行封装,封装到 HTTP 响应报文中,并通过套接字向客户进行发送。
  • HTTP 服务器随即通知 TCP 断开 TCP 连接,实际上是需要等到客户接受完响应报文后才会断开 TCP 连接。
  • HTTP 客户端接受完响应报文后,TCP 连接会关闭。HTTP 客户端从响应中提取出报文中是一个 HTML 响应文件,并检查该 HTML 文件,然后循环检查报文中其他内部对象。
  • 检查完成后,HTTP 客户端会把对应的资源通过显示器呈现给用户。

至此,键入网址再按下回车的全过程就结束了。上述过程描述的是一种简单的请求-响应全过程,真实的请求-响应情况可能要比上面描述的过程复杂很多。

HTTP 请求特征

从上面整个过程中我们可以总结出 HTTP 进行分组传输是具有以下特征

  • 支持客户-服务器模式
  • 简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有 GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于 HTTP 协议简单,使得 HTTP 服务器的程序规模小,因而通信速度很快。
  • 灵活:HTTP 允许传输任意类型的数据对象。正在传输的类型由 Content-Type 加以标记。
  • 无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。
  • 无状态:HTTP 协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。

详解 HTTP 报文

我们上面描述了一下 HTTP 的请求响应过程,流程比较简单,但是凡事就怕认真,你这一认真,就能拓展出很多东西,比如 HTTP 报文是什么样的,它的组成格式是什么? 下面就来探讨一下

HTTP 协议主要由三大部分组成:

  • 起始行(start line):描述请求或响应的基本信息;
  • 头部字段(header):使用 key-value 形式更详细地说明报文;
  • 消息正文(entity):实际传输的数据,它不一定是纯文本,可以是图片、视频等二进制数据。

其中起始行和头部字段并成为 请求头 或者 响应头,统称为 Header;消息正文也叫做实体,称为 body。HTTP 协议规定每次发送的报文必须要有 Header,但是可以没有 body,也就是说头信息是必须的,实体信息可以没有。而且在 header 和 body 之间必须要有一个空行(CRLF),如果用一幅图来表示一下的话,我觉得应该是下面这样

我们使用上面的那个例子来看一下 http 的请求报文

如图,这是 http://www.someSchool.edu/someDepartment/home.index 请求的请求头,通过观察这个 HTTP 报文我们就能够学到很多东西,首先,我们看到报文是用普通 ASCII 文本书写的,这样保证人能够可以看懂。然后,我们可以看到每一行和下一行之间都会有换行,而且最后一行(请求头部后)再加上一个回车换行符。

每个报文的起始行都是由三个字段组成:方法、URL 字段和 HTTP 版本字段。

HTTP 请求方法

HTTP 请求方法一般分为 8 种,它们分别是

  • GET 获取资源,GET 方法用来请求访问已被 URI 识别的资源。指定的资源经服务器端解析后返回响应内容。也就是说,如果请求的资源是文本,那就保持原样返回;
  • POST 传输实体,虽然 GET 方法也可以传输主体信息,但是便于区分,我们一般不用 GET 传输实体信息,反而使用 POST 传输实体信息,
  • PUT 传输文件,PUT 方法用来传输文件。就像 FTP 协议的文件上传一样,要求在请求报文的主体中包含文件内容,然后保存到请求 URI 指定的位置。

但是,鉴于 HTTP 的 PUT 方法自身不带验证机制,任何人都可以上传文件 , 存在安全性问题,因此一般的 W eb 网站不使用该方法。若配合 W eb 应用程序的验证机制,或架构设计采用REST(REpresentational State Transfer,表征状态转移)标准的同类 Web 网站,就可能会开放使用 PUT 方法。

  • HEAD 获得响应首部,HEAD 方法和 GET 方法一样,只是不返回报文主体部分。用于确认 URI 的有效性及资源更新的日期时间等。
  • DELETE 删除文件,DELETE 方法用来删除文件,是与 PUT 相反的方法。DELETE 方法按请求 URI 删除指定的资源。
  • OPTIONS 询问支持的方法,OPTIONS 方法用来查询针对请求 URI 指定的资源支持的方法。
  • TRACE 追踪路径,TRACE 方法是让 Web 服务器端将之前的请求通信环回给客户端的方法。
  • CONNECT 要求用隧道协议连接代理,CONNECT 方法要求在与代理服务器通信时建立隧道,实现用隧道协议进行 TCP 通信。主要使用 SSL(Secure Sockets Layer,安全套接层)和 TLS(Transport Layer Security,传输层安全)协议把通信内容加 密后经网络隧道传输。

我们一般最常用的方法也就是 GET 方法和 POST 方法,其他方法暂时了解即可。下面是 HTTP1.0 和 HTTP1.1 支持的方法清单

HTTP 请求 URL

HTTP 协议使用 URI 定位互联网上的资源。正是因为 URI 的特定功能,在互联网上任意位置的资源都能访问到。URL 带有请求对象的标识符。在上面的例子中,浏览器正在请求对象 /somedir/page.html 的资源。

我们再通过一个完整的域名解析一下 URL

比如 http://www.example.com:80/path/to/myfile.html?key1=value1&key2=value2#SomewhereInTheDocument 这个 URL 比较繁琐了吧,你把这个 URL 搞懂了其他的 URL 也就不成问题了。

首先出场的是 http

http://告诉浏览器使用何种协议。对于大部分 Web 资源,通常使用 HTTP 协议或其安全版本,HTTPS 协议。另外,浏览器也知道如何处理其他协议。例如, mailto: 协议指示浏览器打开邮件客户端;ftp:协议指示浏览器处理文件传输。

第二个出场的是 主机

www.example.com 既是一个域名,也代表管理该域名的机构。它指示了需要向网络上的哪一台主机发起请求。当然,也可以直接向主机的 IP address 地址发起请求。但直接使用 IP 地址的场景并不常见。

第三个出场的是 端口

我们前面说到,两个主机之间要发起 TCP 连接需要两个条件,主机 + 端口。它表示用于访问 Web 服务器上资源的入口。如果访问的该 Web 服务器使用HTTP协议的标准端口(HTTP为80,HTTPS为443)授予对其资源的访问权限,则通常省略此部分。否则端口就是 URI 必须的部分。

上面是请求 URL 所必须包含的部分,下面就是 URL 具体请求资源路径

第四个出场的是 路径

/path/to/myfile.html 是 Web 服务器上资源的路径。以端口后面的第一个 / 开始,到 ? 号之前结束,中间的 每一个/ 都代表了层级(上下级)关系。这个 URL 的请求资源是一个 html 页面。

紧跟着路径后面的是 查询参数

?key1=value1&key2=value2 是提供给 Web 服务器的额外参数。如果是 GET 请求,一般带有请求 URL 参数,如果是 POST 请求,则不会在路径后面直接加参数。这些参数是用 & 符号分隔的键/值对列表。key1 = value1 是第一对,key2 = value2 是第二对参数

紧跟着参数的是锚点

#SomewhereInTheDocument 是资源本身的某一部分的一个锚点。锚点代表资源内的一种“书签”,它给予浏览器显示位于该“加书签”点的内容的指示。 例如,在HTML文档上,浏览器将滚动到定义锚点的那个点上;在视频或音频文档上,浏览器将转到锚点代表的那个时间。值得注意的是 # 号后面的部分,也称为片段标识符,永远不会与请求一起发送到服务器。

HTTP 版本

表示报文使用的 HTTP 协议版本。

请求头部

这部分内容只是大致介绍一下,内容较多,后面会再以一篇文章详述

在表述完了起始行之后我们再来看一下请求头部,现在我们向上找,找到http://www.someSchool.edu/someDepartment/home.index,来看一下它的请求头部

1
2
3
4
复制代码Host: www.someschool.edu
Connection: close
User-agent: Mozilla/5.0
Accept-language: fr

这个请求头信息比较少,首先 Host 表示的是对象所在的主机。你也许认为这个 Host 是不需要的,因为 URL 不是已经指明了请求对象的路径了吗?这个首部行提供的信息是 Web 代理高速缓存所需要的。Connection: close 表示的是浏览器需要告诉服务器使用的是非持久连接。它要求服务器在发送完响应的对象后就关闭连接。User-agent: 这是请求头用来告诉 Web 服务器,浏览器使用的类型是 Mozilla/5.0,即 Firefox 浏览器。Accept-language 告诉 Web 服务器,浏览器想要得到对象的法语版本,前提是服务器需要支持法语类型,否则将会发送服务器的默认版本。下面我们针对主要的实体字段进行介绍(具体的可以参考 developer.mozilla.org/zh-CN/docs/… MDN 官网学习)

HTTP 的请求标头分为四种: 通用标头、请求标头、响应标头 和 实体标头,依次来进行详解。

通用标头

通用标头主要有三个,分别是 Date、Cache-Control 和 Connection

Date

Date 是一个通用标头,它可以出现在请求标头和响应标头中,它的基本表示如下

1
复制代码Date: Wed, 21 Oct 2015 07:28:00 GMT

表示的是格林威治标准时间,这个时间要比北京时间慢八个小时

Cache-Control

Cache-Control 是一个通用标头,他可以出现在请求标头和响应标头中,Cache-Control 的种类比较多,虽然说这是一个通用标头,但是又一些特性是请求标头具有的,有一些是响应标头才有的。主要大类有 可缓存性、阈值性、 重新验证并重新加载 和其他特性

可缓存性是唯一响应标头才具有的特性,我们会在响应标头中详述。

阈值性,这个我翻译可能不准确,它的原英文是 Expiration,我是根据它的值来翻译的,你看到这些值可能会觉得我翻译的有点道理

  • max-age: 资源被认为仍然有效的最长时间,与 Expires 不同,这个请求是相对于 request标头的时间,而 Expires 是相对于响应标头。(请求标头)
  • s-maxage: 重写了 max-age 和 Expires 请求头,仅仅适用于共享缓存,被私有缓存所忽略(这块不理解,看完响应头的 Cache-Control 再进行理解)(请求标头)
  • max-stale:表示客户端将接受的最大响应时间,以秒为单位。(响应标头)
  • min-fresh: 表示客户端希望响应在指定的最小时间内有效。(响应标头)

Connection

Connection 决定当前事务(一次三次握手和四次挥手)完成后,是否会关闭网络连接。Connection 有两种,一种是持久性连接,即一次事务完成后不关闭网络连接

1
复制代码Connection: keep-alive

另一种是非持久性连接,即一次事务完成后关闭网络连接

1
复制代码Connection: close

HTTP1.1 其他通用标头如下

实体标头

实体标头是描述消息正文内容的 HTTP 标头。实体标头用于 HTTP 请求和响应中。头部Content-Length、 Content-Language、 Content-Encoding 是实体头。

  • Content-Length 实体报头指示实体主体的大小,以字节为单位,发送到接收方。
  • Content-Language 实体报头描述了客户端或者服务端能够接受的语言,例如
1
2
3
复制代码Content-Language: de-DE
Content-Language: en-US
Content-Language: de-DE, en-CA
  • Content-Encoding 这又是一个比较麻烦的属性,这个实体报头用来压缩媒体类型。Content-Encoding 指示对实体应用了何种编码。

常见的内容编码有这几种: gzip、compress、deflate、identity ,这个属性可以应用在请求报文和响应报文中

1
2
复制代码Accept-Encoding: gzip, deflate //请求头
Content-Encoding: gzip //响应头

下面是一些实体标头字段

请求标头

上面给出的例子请求报文的属性比较少,下面给出一个 MDN 官网的例子

1
2
3
4
5
6
7
8
9
10
11
12
复制代码GET /home.html HTTP/1.1
Host: developer.mozilla.org
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:50.0) Gecko/20100101 Firefox/50.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate, br
Referer: https://developer.mozilla.org/testpage.html
Connection: keep-alive
Upgrade-Insecure-Requests: 1
If-Modified-Since: Mon, 18 Jul 2016 02:36:04 GMT
If-None-Match: "c561c68d0ba92bbeb8b0fff2a9199f722e3a621a"
Cache-Control: max-age=0

Host

Host 请求头指明了服务器的域名(对于虚拟主机来说),以及(可选的)服务器监听的TCP端口号。如果没有给定端口号,会自动使用被请求服务的默认端口(比如请求一个 HTTP 的 URL 会自动使用80作为端口)。

1
复制代码Host: developer.mozilla.org

上面的 Accpet、 Accept-Language、Accept-Encoding 都是属于内容协商的请求标头,我们会在下面说明

Referer

HTTP Referer 属性是请求标头的一部分,当浏览器向 web 服务器发送请求的时候,一般会带上 Referer,告诉服务器该网页是从哪个页面链接过来的,服务器因此可以获得一些信息用于处理。

1
复制代码Referer: https://developer.mozilla.org/testpage.html

Upgrade-Insecure-Requests

Upgrade-Insecure-Requests 是一个请求标头,用来向服务器端发送信号,表示客户端优先选择加密及带有身份验证的响应。

1
复制代码Upgrade-Insecure-Requests: 1

If-Modified-Since

HTTP 的 If-Modified-Since 使其成为条件请求:

  • 返回200,只有在给定日期的最后一次修改资源后,服务器才会以200状态发送回请求的资源。
  • 如果请求从开始以来没有被修改过,响应会返回304并且没有任何响应体

If-Modified-Since 通常会与 If-None-Match 搭配使用,If-Modified-Since 用于确认代理或客户端拥有的本地资源的有效性。获取资源的更新日期时间,可通过确认首部字段 Last-Modified 来确定。

大白话说就是如果在 Last-Modified 之后更新了服务器资源,那么服务器会响应200,如果在 Last-Modified 之后没有更新过资源,则返回 304。

1
复制代码If-Modified-Since: Mon, 18 Jul 2016 02:36:04 GMT

If-None-Match

If-None-Match HTTP请求标头使请求成为条件请求。 对于 GET 和 HEAD 方法,仅当服务器没有与给定资源匹配的 ETag 时,服务器才会以200状态发送回请求的资源。 对于其他方法,仅当最终现有资源的ETag与列出的任何值都不匹配时,才会处理请求。

1
复制代码If-None-Match: "c561c68d0ba92bbeb8b0fff2a9199f722e3a621a"

ETag 属于响应标头,后面进行介绍。

内容协商

内容协商机制是指客户端和服务器端就响应的资源内容进行交涉,然后提供给客户端最为适合的资源。内容协商会以响应资源的语言、字符集、编码方式等作为判断的标准。

内容协商主要有以下3种类型:

  • 服务器驱动协商(Server-driven Negotiation)

这种协商方式是由服务器端进行内容协商。服务器端会根据请求首部字段进行自动处理

  • 客户端驱动协商(Agent-driven Negotiation)

这种协商方式是由客户端来进行内容协商。

  • 透明协商(Transparent Negotiation)

是服务器驱动和客户端驱动的结合体,是由服务器端和客户端各自进行内容协商的一种方法。

内容协商的分类有很多种,主要的几种类型是 Accept、Accept-Charset、Accept-Encoding、Accept-Language、Content-Language。

Accept

接受请求 HTTP 标头会通告客户端其能够理解的 MIME 类型

那么什么是 MIME 类型呢?在回答这个问题前你应该先了解一下什么是 MIME

MIME: MIME (Multipurpose Internet Mail Extensions) 是描述消息内容类型的因特网标准。MIME 消息能包含文本、图像、音频、视频以及其他应用程序专用的数据。

也就是说,MIME 类型其实就是一系列消息内容类型的集合。那么 MIME 类型都有哪些呢?

文本文件: text/html、text/plain、text/css、application/xhtml+xml、application/xml

图片文件: image/jpeg、image/gif、image/png

视频文件: video/mpeg、video/quicktime

应用程序二进制文件: application/octet-stream、application/zip

比如,如果浏览器不支持 PNG 图片的显示,那 Accept 就不指定image/png,而指定可处理的 image/gif 和 image/jpeg 等图片类型。

一般 MIME 类型也会和 q 这个属性一起使用,q 是什么?q 表示的是权重,来看一个例子

1
复制代码Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

这是什么意思呢?若想要给显示的媒体类型增加优先级,则使用 q= 来额外表示权重值,没有显示权重的时候默认值是1.0 ,我给你列个表格你就明白了

q MIME
1.0 text/html
1.0 application/xhtml+xml
0.9 application/xml
0.8 * / *

也就是说,这是一个放置顺序,权重高的在前,低的在后,application/xml;q=0.9 是不可分割的整体。

Accept-Charset

accept-charset 属性规定服务器处理表单数据所接受的字符集。

accept-charset 属性允许您指定一系列字符集,服务器必须支持这些字符集,从而得以正确解释表单中的数据。

该属性的值是用引号包含字符集名称列表。如果可接受字符集与用户所使用的字符即不相匹配的话,浏览器可以选择忽略表单或是将该表单区别对待。

此属性的默认值是 unknown,表示表单的字符集与包含表单的文档的字符集相同。

常用的字符集有: UTF-8 - Unicode 字符编码 ; ISO-8859-1 - 拉丁字母表的字符编码

Accept-Language

首部字段 Accept-Language 用来告知服务器用户代理能够处理的自然语言集(指中文或英文等),以及自然语言集的相对优先级。可一次指定多种自然语言集。
和 Accept 首部字段一样,按权重值 q来表示相对优先级。

1
复制代码Accept-Language: en-US,en;q=0.5

请求标头我们大概就介绍这几种,后面会有一篇文章详细深挖所有的响应头的,下面是一个响应头的汇总,基于 HTTP 1.1

响应标头

响应标头是可以在 HTTP 响应种使用的 HTTP 标头,这听起来是像一句废话,不过确实是这样解释。并不是所有出现在响应中的标头都是响应标头。还有一些特殊的我们上面说过,有通用标头和实体标头也会出现在响应标头中,比如 Content-Length 就是一个实体标头,但是,在这种情况下,这些实体请求通常称为响应头。下面以一个例子为例和你探讨一下响应头

1
2
3
4
5
6
7
8
9
10
11
12
13
14
复制代码200 OK
Access-Control-Allow-Origin: *
Connection: Keep-Alive
Content-Encoding: gzip
Content-Type: text/html; charset=utf-8
Date: Mon, 18 Jul 2016 16:06:00 GMT
Etag: "c561c68d0ba92bbeb8b0f612a9199f722e3a621a"
Keep-Alive: timeout=5, max=997
Last-Modified: Mon, 18 Jul 2016 02:36:04 GMT
Server: Apache
Set-Cookie: mykey=myvalue; expires=Mon, 17-Jul-2017 16:06:00 GMT; Max-Age=31449600; Path=/; secure
Transfer-Encoding: chunked
Vary: Cookie, Accept-Encoding
x-frame-options: DENY

响应状态码

首先出现的应该就是 200 OK,这是 HTTP 响应标头的状态码,它表示着响应成功完成。HTTP 响应标头的状态码有很多,并做了如下规定

以 2xx 为开头的都表示请求成功响应。

状态码 含义
200 成功响应
204 请求处理成功,但是没有资源可以返回
206 对资源某一部分进行响应,由Content-Range 指定范围的实体内容。

以 3xx 为开头的都表示需要进行附加操作以完成请求

状态码 含义
301 永久性重定向,该状态码表示请求的资源已经重新分配 URI,以后应该使用资源现有的 URI
302 临时性重定向。该状态码表示请求的资源已被分配了新的 URI,希望用户(本次)能使用新的 URI 访问。
303 该状态码表示由于请求对应的资源存在着另一个 URI,应使用 GET 方法定向获取请求的资源。
304 该状态码表示客户端发送附带条件的请求时,服务器端允许请求访问资源,但未满足条件的情况。
307 临时重定向。该状态码与 302 Found 有着相同的含义。

以 4xx 的响应结果表明客户端是发生错误的原因所在。

状态码 含义
400 该状态码表示请求报文中存在语法错误。当错误发生时,需修改请求的内容后再次发送请求。
401 该状态码表示发送的请求需要有通过 HTTP 认证(BASIC 认证、DIGEST 认证)的认证信息。
403 该状态码表明对请求资源的访问被服务器拒绝了。
404 该状态码表明服务器上无法找到请求的资源。

以 5xx 为开头的响应标头都表示服务器本身发生错误

状态码 含义
500 该状态码表明服务器端在执行请求时发生了错误。
503 该状态码表明服务器暂时处于超负载或正在进行停机维护,现在无法处理请求。

Access-Control-Allow-Origin

一个返回的 HTTP 标头可能会具有 Access-Control-Allow-Origin ,Access-Control-Allow-Origin 指定一个来源,它告诉浏览器允许该来源进行资源访问。 否则-对于没有凭据的请求 *通配符,告诉浏览器允许任何源访问资源。例如,要允许源 https://mozilla.org 的代码访问资源,可以指定:

1
2
复制代码Access-Control-Allow-Origin: https://mozilla.org
Vary: Origin

如果服务器指定单个来源而不是 *通配符的话 ,则服务器还应在 Vary 响应标头中包含 Origin ,以向客户端指示 服务器响应将根据原始请求标头的值而有所不同。

Keep-Alive

上面我们提到,HTTP 报文标头会分为四种,这其实是按着上下文来分类的

还有一种分类是根据代理进行分类,根据代理会分为端到端头 和 逐跳标头

而 Keep-Alive 表示的是 Connection 非持续连接的存活时间,如下

1
2
复制代码Connection: Keep-Alive
Keep-Alive: timeout=5, max=997

Keep-Alive 有两个参数,它们是以逗号分隔的参数列表,每个参数由一个标识符和一个由等号 = 分隔的值组成。

timeout:指示空闲连接必须保持打开状态的最短时间(以秒为单位)。

max:指示在关闭连接之前可以在此连接上发送的最大请求数。

上述 HTTP 代码的意思就是限制最大的超时时间是 5s 和 最大的连接请求是 997 个。

Server

服务器标头包含有关原始服务器用来处理请求的软件的信息。

应该避免使用过于冗长和详细的 Server 值,因为它们可能会泄露内部实施细节,这可能会使攻击者容易地发现并利用已知的安全漏洞。例如下面这种写法

1
复制代码Server: Apache/2.4.1 (Unix)

Set-Cookie

Cookie 又是另外一个领域的内容了,我们后面文章会说道 Cookie,这里需要记住 Cookie、Set-Cookie 和 Content-Disposition 等在其他 RFC 中定义的首部字段,它们不是属于 HTTP 1.1 的首部字段,但是使用率仍然很高。

Transfer-Encoding

首部字段 Transfer-Encoding 规定了传输报文主体时采用的编码方式。

1
复制代码Transfer-Encoding: chunked

HTTP /1.1 的传输编码方式仅对分块传输编码有效。

X-Frame-Options

HTTP 首部字段是可以自行扩展的。所以在 Web 服务器和浏览器的应用上,会出现各种非标准的首部字段。

首部字段 X-Frame-Options 属于 HTTP 响应首部,用于控制网站内容在其他 Web 网站的 Frame 标签内的显示问题。其主要目的是为了防止点击劫持(clickjacking)攻击。

下面是一个响应头的汇总,基于 HTTP 1.1

非 HTTP/1.1 首部字段

在 HTTP 协议通信交互中使用到的首部字段,不限于 RFC2616 中定义的 47 种首部字段。还有 Cookie、Set-Cookie 和 Content-Disposition 等在其他 RFC 中定义的首部字段,它们的使用频率也很高。
这些非正式的首部字段统一归纳在 RFC4229 HTTP Header Field Registrations 中。

End-to-end 首部和 Hop-by-hop 首部

HTTP 首部字段将定义成缓存代理和非缓存代理的行为,分成 2 种类型。

一种是 End-to-end 首部 和 Hop-by-hop 首部

End-to-end(端到端) 首部

这些标头必须发送给消息的最终接收者 : 请求的服务器,或响应的客户端。中间代理必须重新传输未经修改的标头,并且缓存必须存储这些信息

Hop-by-hop(逐跳) 首部

分在此类别中的首部只对单次转发有效,会因通过缓存或代理而不再转发。

下面列举了 HTTP/1.1 中的逐跳首部字段。除这 8 个首部字段之外,其他所有字段都属于端到端首部。

Connection、Keep-Alive、Proxy-Authenticate、Proxy-Authorization、Trailer、TE、Transfer-Encoding、Upgrade

HTTP 的优点和缺点

HTTP 的优点

简单灵活易扩展

HTTP 最重要也是最突出的优点是 简单、灵活、易于扩展。

HTTP 的协议比较简单,它的主要组成就是 header + body,头部信息也是简单的文本格式,而且 HTTP 的请求报文根据英文也能猜出来个大概的意思,降低学习门槛,能够让更多的人研究和开发 HTTP 应用。

所以,在简单的基础上,HTTP 协议又多了灵活 和 易扩展 的优点。

HTTP 协议里的请求方法、URI、状态码、原因短语、头字段等每一个核心组成要素都没有被制定死,允许开发者任意定制、扩充或解释,给予了浏览器和服务器最大程度的信任和自由。

应用广泛、环境成熟

因为过于简单,普及,因此应用很广泛。因为 HTTP 协议本身不属于一种语言,它并不限定某种编程语言或者操作系统,所以天然具有跨语言、跨平台的优越性。而且,因为本身的简单特性很容易实现,所以几乎所有的编程语言都有 HTTP 调用库和外围的开发测试工具。

随着移动互联网的发展, HTTP 的触角已经延伸到了世界的每一个角落,从简单的 Web 页面到复杂的 JSON、XML 数据,从台式机上的浏览器到手机上的各种 APP、新闻、论坛、购物、手机游戏,你很难找到一个没有使用 HTTP 的地方。

无状态

无状态其实既是优点又是缺点。因为服务器没有记忆能力,所以就不需要额外的资源来记录状态信息,不仅实现上会简单一些,而且还能减轻服务器的负担,能够把更多的 CPU 和内存用来对外提供服务。

HTTP 的缺点

无状态

既然服务器没有记忆能力,它就无法支持需要连续多个步骤的事务操作。每次都得问一遍身份信息,不仅麻烦,而且还增加了不必要的数据传输量。由此出现了 Cookie 技术。

明文

HTTP 协议里还有一把优缺点一体的双刃剑,就是明文传输。明文意思就是协议里的报文(准确地说是 header 部分)不使用二进制数据,而是用简单可阅读的文本形式。

对比 TCP、UDP 这样的二进制协议,它的优点显而易见,不需要借助任何外部工具,用浏览器、Wireshark 或者 tcpdump 抓包后,直接用肉眼就可以很容易地查看或者修改,为我们的开发调试工作带来极大的便利。

当然缺点也是显而易见的,就是不安全,可以被监听和被窥探。因为无法判断通信双方的身份,不能判断报文是否被更改过。

性能

HTTP 的性能不算差,但不完全适应现在的互联网,还有很大的提升空间。

参考资料:

en.wikipedia.org/wiki/Hypert…

《极客时间》- 透视 HTTP 协议

developer.mozilla.org/en-US/docs/…

baike.baidu.com/item/WEB服务器…

baike.baidu.com/item/内容分发网络…

baike.baidu.com/item/HTML/9…

www.jianshu.com/p/3dd8f1879…

《计算机网络-自顶向下方法》

《图解 HTTP》

HTTP协议的内容协商

www.w3school.com.cn/tags/att_fo…

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

【金三银四】JVM虚拟机栈执行原理深入详解🔥 前言: 什么是

发表于 2020-01-10

前言:

你好,早上、中午、下午、晚上好。我是Java2B哥(微信搜Java2B)。一名无缘985,日常996工程师。
你们是不是非常的激动呀!

在这里插入图片描述

2B哥今天继续教大家JVM知识。这次章节为:
之前文章:
【金三银四-JVM系列】CMS收集器与GC日志分析定位问题详解 juejin.cn/post/684490…

【金三银四】JVM虚拟机CMS和G1收集器详解 juejin.cn/post/684490…

图片

什么是JVM

相信很多小伙伴都非常熟悉了,JVM不就是虚拟机吗?那虚拟机又是什么了?不是JVM嘛!
这不废话嘛。

JVM可以说离我们既熟悉又陌生,很多朋友可能在工作中接触不到这块技术,但是在面试往往被问到(概率还蛮大),被问到了自认倒霉,死记硬背是没用的,到头来还是的忘,不过没有关系,今天你们遇到2B哥我,我这免费给大家说道说道JVM知识点,我要没让你明白算我输,你可以留言喷我,如果要是可以,你们也给我点个赞成不?别墨迹了 赶紧着吧。

ok,上货。此处应该有鲜花!❀❀❀❀❀❀❀❀

初识JVM:

图片

相信这张图大家都不陌生,这是整个Java体系,其中包括JDK.JRE.JVM三者的关系。

图中可以看得出来JRE包含了JVM,JDK包含了JRE。

从包含的角度就是: JDK是爷爷 JRE是父亲 JVM是儿子(如果觉得列子不太恰当)来看图

图片

我们来看代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
复制代码public class App {
private String name;
private Object object = new Object();
/***
* 运算
*/
public int add() {
int a = 1;
int b = 2;
int c = (a + b) * 100;
return c;
}
/**
* 程序入口
*/
public static void main(String[] args) throws InterruptedException {
App app = new App();
int result = app.add();
System.out.println(result);

}
}

图片

图片

我们运行上述代码输出结果是300,虽然这个代码非常简单,这个时候已经涉及到JVM相关的知识了,在我们学Java基础的时候老师就告诉我们,Java是跨平台的,一次编写到处运行。

那Java是怎么做到跨平台的?继续看下图:

图片

通过此图大家就不难发现,我们编译的App.class文件可以在Windows操作系统运行也可以在Linux系统运行,但是两个系统底层的操作指令是不一样的,为了屏蔽底层指令的细节,起到一个跨平台的作用,JVM功不可没,我们常说Java是跨平台还不如说是Jvm跨平台(JRE运行时跨平台)。那Jvm虚拟机是怎么跨平台的?

JVM底层原理:

JVM底层由三个系统构成分别是:类加载、运行时数据区、执行引擎。

图片

我们今天重点讲解JVM运行时数据区(栈),其他两块可以关注我之前和后续文章。

我们App.class文件通过类加载子系统从硬盘中读取文件加载到内存中(运行时数据区)。

加载完成之后怎么处理了?(打个比喻 人吃饭 》吃到肚子里》各各器官负责自己工作吸收)

Stack栈:

先讲一下其中的一块内存区域虚拟机栈,大家都知道栈是数据结构,也是线程独有的区域,也就是每一个线程都会有自己独立的栈区域。我们运行App.java输出300就靠线程执行得来的结果。是哪个线程执行的?获取线程快照:”main线程”

栈》数据结构》存储内容》先进后出FILO

图片

大家都知道每个方法都有自己的局部变量,比如上图中main方法中的result,add方法中的a b c,那么java虚拟机为了区分不同方法中局部变量作用域范围的内存区域,每个方法在运行的时候都会分配一块独立的栈帧内存区域,我们试着按上图中的程序来简单画一下代码执行的内存活动。

图片

执行main方法中的第一行代码是,栈中会分配main()方法的栈帧,并存储math局部变量,,接着执行add()方法,那么栈又会分配add()的栈帧区域。

这里的栈存储数据的方式和数据结构中学习的栈是一样的,先进后出。当add()方法执行完之后,就会出栈被释放,也就符合先进后出的特点,后调用的方法先出栈。

栈帧:

栈帧内部“数据结构”主要由这几个部分组成:局部变量表、操作数栈、方法出口等信息。

图片

说了半天,栈帧到底干嘛用的呀?别急讲这个就会涉及到更底层的原理–字节码。我们先看下我们上面代码的字节码文件。

图片

APP.class文件看着像乱码,其实每个都是有对应的含义的,oracle官方是有专门的jvm字节码指令手册来查询每组指令对应的含义的。那我们研究的,当然不是这个。

jdk有自带一个javap的命令,可以将上述class文件生成一种更可读的字节码文件。

图片

图片

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
复制代码Compiled from "App.java"
public com.App {
public com.App();
Code:
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: aload_0
5: new #2 // class java/lang/Object
8: dup
9: invokespecial #1 // Method java/lang/Object."<init>":()V
12: putfield #3 // Field object:Ljava/lang/Object;
15: return


public int add();
Code:
0: iconst_1
1: istore_1
2: iconst_2
3: istore_2
4: iload_1
5: iload_2
6: iadd
7: bipush 100
9: imul
10: istore_3
11: iload_3
12: ireturn
public static void main(java.lang.String[]) throws java.lang.InterruptedException;
Code:
0: new #4 // class com/App
3: dup
4: invokespecial #5 // Method "<init>":()V
7: astore_1
8: aload_1
9: invokevirtual #6 // Method add:()I
12: istore_2
13: getstatic #7 // Field java/lang/System.out:Ljava/io/PrintStream;
16: iload_2
17: invokevirtual #8 // Method java/io/PrintStream.println:(I)V
20: return
}

此时的jvm指令码就清晰很多了,大体结构是可以看懂的,类、静态变量、构造方法、add()方法、main()方法。
其中方法中的指令还是有点懵,我们举add()方法来看一下:

1
2
3
4
5
6
7
8
9
10
11
12
13
复制代码   Code:
0: iconst_1
1: istore_1
2: iconst_2
3: istore_2
4: iload_1
5: iload_2
6: iadd
7: bipush 100
9: imul
10: istore_3
11: iload_3
12: iretu

这几行代码就是对应的我们代码中add()方法中的四行代码。大家都知道越底层的代码,代码实现的行数越多,因为他会包含一些java代码在运行时底层隐藏的一些细节原理。
那么一样的,这个jvm指令官方也是有手册可以查阅的,网上也有很多翻译版本,大家如果想了解可自行百度。

执行流程:

设计代码中的部分指令含义:

第一步:压栈:

将int类型常量1压入操作数栈

0: iconst_1

就是将1压入操作数栈

图片

第二步:存储:

将int类型值存入局部变量1

1: istore_1
局部变量1,在我们代码中也就是第一个局部变量a,先给a在局部变量表中分配内存,然后将int类型的值,也就是目前唯一的一个1存入局部变量a

图片

第三步:赋值

这两行代码就和前两行类似了。

1
2
3
4
> 复制代码   2: iconst_2 
> 3: istore_2
>
>

图片

第四步:装载:

从局部变量2中装载int类型值

4: iload_1
5: iload_2
这两个代码是将局部变量1和2,也就是a和b的值装载到操作数栈中

图片

第五步:加法

执行int类型的加法

6: iadd
iadd指令一执行,会将操作数栈中的1和2依次从栈底弹出并相加,然后把运算结果3在压入操作数栈底。

图片

第六步:压栈:

将一个8位带符号整数压入栈

7: bipush 100
这个指令就是将100压入栈

图片

第七步:乘法:

执行int类型的乘法

9: imul
这里就类似上面的加法了,将3和100弹出栈,把结果300压入栈

图片

第八步:压栈:

将将int类型值存入局部变量3

10: istore_3
这里大家就不陌生了吧,和第二步第三步是一样的,将300存入局部变量3,也就是c

图片

第九步:装载:

从局部变量3中装载int类型值

11: iload_3
从局表变量3加载到操作数栈

图片

第十步:返回:

返回int类型值

12: ireturn

我们add方法是被main方法中调用的,所以通过方法出口返回到mian方法中result变量存储方法出口说白了不就是方法执行完了之后要出到哪里,那么我们知道上面add()方法执行完之后应该回到main()方法第三行那么当main()方法调用add()的时候,add()栈帧中的方法出口就存储了当前要回到的位置,那么当add()方法执行完之后,会根据方法出口中存储的相关信息回到main()方法的相应位置。看我图中的红线

图片

栈堆关系:

main方法中除了result变量还有一个app变量,app变量指向的是一个对象。那对象是怎么存储的?这儿要在说下局表变量表结构:基本类型和引用类型(Java叫引用C C++叫指针)

图片

关系就是:

图片

通过引用在栈中的app变量引用堆中的App对象

总结:

讲到这儿相信大家对JVM栈执行原理是不是熟悉了?如果觉得不错欢迎点赞评论。原创不易

如果觉得作者的文章不错,欢迎关注我的微信:Java2B(一位日常996的工程师)。

更正:执行流程过程中灰色背景“操作数栈”应改为“局部变量表”。

图片

在这里插入图片描述

加关注不迷路

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

重新认识HashMap

发表于 2020-01-09

简介

HashMap是Java程序员使用频率最高的用于映射(键、值对)处理的数据类型,它根据键的hashCode值存储数据,大多数情况下可以直接定位到它的值,因而具有很快的访问速度,但遍历顺序却是不确定的。 HashMap最多只允许一条记录的键为null,允许多条记录的值为null,且HashMap不是线程安全的类,可以使用ConcurrentHashMap和Collections的SynchronizedMap方法使HashMap具有线程安全的能力。在JDK1.8中对HashMap底层的实现进行了优化,引入红黑树、扩容优化等。那就重新认识一下JDK1.8的HashMap,来看看对其做了什么优化。

存储结构

要搞清楚HashMap,首先需要知道HashMap是什么,即它的存储结构;其次弄明白它能干什么,即它的功能如何实现。我们都知道HashMap使用哈希表来存储的数据的,根据key的哈希值进行存储的,但是不同的key之间可能存在相同的哈希值,这样就会产生冲突;哈希表为解决冲突,可以采用开放地址法和链地址法等来解决问题,Java中的HashMap采用了链地址法来解决哈希冲突,简单来说就是数组加链表的结合。在每个数组元素上都一个链表结构,当存放数据的时候如果产生了哈希冲突,先得到数组下标,把数据放在对应下标元素的链表上。这里我们思考一个问题,即使哈希算法设计的再合理,也免不了会出现拉链过长的情况,一旦出现拉链过长,则会严重影响HashMap的性能,在JDK1.8版本中,对数据结构做了进一步的优化,引入了红黑树;当链表长度太长(默认超过7)时,链表就转换为红黑树,如下图所示。

hashMap.png

重要字段

HashMap是根据key的哈希值进行存取的,那HashMap的性能和哈希算法的好坏有着直接的关系,哈希算法计算结果越分散均匀,哈希碰撞的概率就越小,map的存取效率就会越高。当然,也和哈希数组的大小有关系,如果哈希数组很大,即使较差的哈希算法也会比较分散,如果哈希数组较小,即使较好的哈希算法也会出现较多的碰撞,所以就需要权衡空间和时间成本,找到比较平衡的值。

JDK1.8版本也是权衡了时间、空间成本以及效率,对之前的版本做出了很多优化;不仅对数据结构进行了优化,除此之外还对扩容进行的优化,大大的提高的HashMap的性能。下面我们通过源码来一起看一下具体的实现。

我们来看一下HashMap中比较重要的几个属性。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
java复制代码//默认的初始容量,必须是2的幂次方.
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;

//所能容纳 key-value 个数的极限,当Map 的size > threshold 会进行扩容 。容量 * 扩容因子
int threshold;

//hashMap最大的容量
static final int MAXIMUM_CAPACITY = 1 << 30;

//HashMap 默认的桶数组的大小
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 16

//默认的加载因子.当容量超过 0.75*table.length 扩容
static final float DEFAULT_LOAD_FACTOR = 0.75f;

//HashMap的加载因子,在构造器中指定的.
final float loadFactor;

//链表节点数大于8个链表转红黑树
static final int TREEIFY_THRESHOLD = 8;

//红黑树节点转换链表节点的阈值, 6个节点转
static final int UNTREEIFY_THRESHOLD = 6;

//以Node数组存储元素,长度为2的次幂。
transient Node<K,V>[] table;

// 转红黑树, table的最小长度
static final int MIN_TREEIFY_CAPACITY = 64;

// 链表节点, 继承自Entry
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Node<K,V> next;
// ... ...
}

// 红黑树节点
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
TreeNode<K,V> parent; // red-black tree links
TreeNode<K,V> left;
TreeNode<K,V> right;
TreeNode<K,V> prev; // needed to unlink next upon deletion
boolean red;

// ...
}

HashMap中的属性还是比较好理解的。其实到这里会有一个疑问,为什么默认的哈希桶数组table的长度为16,而且长度必须为2的n次方呢?

这里我们先说一下为什么哈希数组的长度是2的n次方。

其实不管是在JDK1.7还是JDK1.8中,计算key索引位置都是通过hash & (length-1)计算得来的。

我们应该知道 hash % length 等价于 hash & (length - 1),在length是2的n次方时

1
2
3
4
5
6
java复制代码假如有一个key的哈希值二进制如下:这里我们就只看低位。
hahsCode 0010 0011 ———————转成十进制—————————> 35
& %
(length-1)=15: 0000 1111 length = 16
-----------------------------------------------------------------------------------------------
(二进制) 0011 = (十进制)3 3

为什么不用 hash % length 计算索引位,要使用 hash & (length -1)来计算呢?计算机底层是二进制数进行计算和存储,&是接近计算机底层运算,相比于% 运算效率上应该会快。

那为什么length必须是2的n次方呢?

1
2
3
4
5
java复制代码hahsCode         0010 0011                     0010 1111    
&
(length-1)=15: 0000 1111 (length-1) = 13: 0000 1111
------------------------------------------------------------
0011 1111
1
2
3
4
5
java复制代码hahsCode         0010 1110                     1110 1100  
&
(length-1)=13: 0000 0101 (length-1) = 13: 0000 0101
-----------------------------------------------------------
0100 0100

其实我们可以发现,当哈希数组的长度为2的n次方时,length - 1的二进制码全都是1,这样的话索引的位置,完全依赖于hash值的低位值,而且产生冲突的几率要比容量不是2的n次方的概率要低,索引位就完全依赖于哈希值的低位,所以只要哈希值分布均匀,那产生冲突的概率就会低很多,故而length是2的n次方更优。

其次,当length为2的n次方时,也方便做扩容,JDK1.8在扩容算法上也进行了优化,使用的方法也非常巧妙。会在扩容方法的时候讲到。

功能实现

确定索引位置

不管是增加、删除、查找,都需要定位到哈希桶的数组位置,前面也说过HashMap的数据结构是数组和链表的结合,所以我们当然希望这个HashMap里面的元素位置尽量分布均匀些,尽量使得每个位置上的元素数量只有一个,那么当我们用hash算法求得这个位置的时候,马上就可以知道对应位置的元素就是我们要的,不用再遍历链表查询,大大优化了查询效率。

tableSizeFor()这个方法,就是保证在HashMap()进行初始化的时候,哈希桶数组的大小永远是2^n。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
java复制代码static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;

/**
假如现在传入的参数cap = 3
那 n = 2 对应的二进制 为 10
n = n | n>>>1 10|01 得到 11
....
....
n = 11(二进制) = (10进制) 3
最后return 返回的是4
*/
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
java复制代码//JDK1.8的Hash算法
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

// JDK 1.7的Hash算法
static final int hash(int h) {
h ^= k.hashCode();
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}

//索引位置
index = hash & (length-1);

//JDK1.7 使用hashCode() + 4次位运算 + 5次异或运算(9次扰动)
//JDK 1.8 简化了hash函数 = 只做了2次扰动 = 1次位运算 + 1次异或运算。

在JDK1.8的实现中,优化了高位运算的算法,通过hashCode()的高16位异或低16位实现的:(h = k.hashCode()) ^ (h >>> 16),主要是从速度、功效、质量来考虑的,相比于JDK1.7来说,JDK1.8降低了哈希函数扰动的次数,也算是优化了hash算法。这么做可以在HashMap容量较小的时候,也能保证考虑到高低Bit都参与到Hash的计算中,同时不会有太大的开销。

1
2
3
4
5
6
7
8
9
10
java复制代码假如有一个key的哈希值二进制如下
hahsCode 0000 0000 0011 0011 0111 1010 1000 1011

hahsCode>>>16 0000 0000 0000 0000 0000 0000 0011 0011
———————————————————————————————————————————————————————————————
位或^运算 0000 0000 0011 0011 0111 1010 1011 1000
&
HashMap.size()-1 0000 0000 0000 0000 0000 0000 0000 1111
———————————————————————————————————————————————————————————————
0000 0000 0000 0000 0000 0000 0000 1000 转成十进制是 8

put方法

从网上找到了一个流程图,感觉很不错,就直接拿过来用了,嘿嘿….画的也是比较清楚的。看着流程图,再结合源码一看就明白。
图片名称

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
java复制代码final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;

//判断哈希桶数组是否为空。
if ((tab = table) == null || (n = tab.length) == 0)

//如果哈希桶数组为空,对其进行初始化。默认的桶数组大小为16
n = (tab = resize()).length;

//如果桶数组不为空,得到计算key的索引位置,判断此索引所在位置是否已经被占用了。
if ((p = tab[i = (n - 1) & hash]) == null)

//如果没有被占用,那就封装成Node节点,放入哈希桶数组中。
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
//如果要插入的Node节点已经存在,那就将旧的Node替换。
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//如果不存在,那就插入,判断插入的节点是不是树节点。
else if (p instanceof TreeNode)

e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);

else {
//如果是普通节点,循环哈希桶对应的链表,将节点插入到链表末尾
for (int binCount = 0; ; ++binCount) {

if ((e = p.next) == null) {d

p.next = newNode(hash, key, value, null);

//如果链表的长度大于7,就把节点转成树节点
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
//如果链表中节点已经存在,那就将旧的节点替换。
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}

if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
//如果超过了扩容的临界点,就进行扩容。
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}

get方法

get方法相对于put方法可能简单一点,通过源码一看就能明白。废话不多说,直接上代码看一下吧。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
java复制代码 public V get(Object key) {
Node<K,V> e;
return (e = getNode(hash(key), key)) == null ? null : e.value;
}

final Node<K,V> getNode(int hash, Object key) {

Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
//哈希桶数组不为空,且根据传入的key计算出索引位置的Node不为空。
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
//如果计算出来的第一个哈希桶位置的Node就是要找的Node节点,直接返回。
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;

if ((e = first.next) != null) {
//如果是树节点,直接通过树节点的方式查找。
if (first instanceof TreeNode)
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
//循环遍历哈希桶所在的链表
do {
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}

扩容机制(resize)

我个人认为HashMap的扩容算法是整个HashMap中的精髓部分,使用的方法也十分巧妙,不得不佩服,大佬还是大佬。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
java复制代码final Node<K,V>[] resize() {
//将当前的table 暂存的 oldTab中进行操作
Node<K,V>[] oldTab = table;
//当前的哈希桶数组大小
int oldCap = (oldTab == null) ? 0 : oldTab.length;
//当前的扩容临界值
int oldThr = threshold;
int newCap, newThr = 0;
//如果当前哈希桶数组不为空
if (oldCap > 0) {
//如果容量超过最大值
if (oldCap >= MAXIMUM_CAPACITY) {
//修改阈值为2^31-1
threshold = Integer.MAX_VALUE;
return oldTab;
}
// 没超过最大值,就扩充为原来的2倍
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0)
// 当使用 new HashMap(int initialCapacity) 初始化后,第一次 put 的时候
newCap = oldThr;
else {
//如果代码到这里,说明hashMap还没有进行初始化, 对应 new HashMap();
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
// 计算新的resize上限
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
// 将当前阈值设置为刚计算出来的新的阈值,定义新表,容量为刚计算出来的新容量。将旧Hash桶中的元素,移动到新的Hash数组中。
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
/**
如果只是对HashMap的初始化来说,到这里已经结束了
下面代码是将老的数组中的数据,移动到扩容以后的哈希桶数组中。
**/
if (oldTab != null) {
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;

if ((e = oldTab[j]) != null) {
// 将老表的节点设置为空, 以便垃圾收集器回收
oldTab[j] = null;

//判断哈希桶位置是否只有一个节点。如果这个位置只有一个节点,那就将这个节点在扩容以后的哈希桶数组中重新计算位置
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
//如果是红黑树节点,则进行红黑树的重hash分布
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
//如果是普通的链表节点,则需要将这个位置上的所有节点重新在新的哈希桶数组中计算位置。
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
//如果要移动节点的hash值与老的容量进行 "&" 运算,如果结果为0,那在扩容以后的数组中,还是同样的位置。
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
//如果运算不为0,则扩容后的索引位置为:老表的索引位置+扩容之前的
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}

在源码中有这么一段(e.hash & oldCap) == 0,怎么理解这个呢,我们通过下面的来看一下。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
java复制代码假设扩容之前 数组大小为16
假如有两个key:
key1(hash&hash>>>16) 0000 0000 0011 0011 0111 1010 1011 1000
key2(hash&hash>>>16) 0000 0000 0011 0011 0111 1010 1010 1000
&
length-1 = 15 0000 0000 0000 0000 0000 0000 0000 1111
——————————————————————————————————————————————————————————————————
key1: 1000 转成十进制 8
key2: 1000 转成十进制 8

哈希冲突的两个key,在扩容到32之后
key1(key的hash&hash>>>16) 0000 0000 0011 0011 0111 1010 1011 1000

key2(key的hash&hash>>>16) 0000 0000 0011 0011 0111 1010 1010 1000
&
length-1 = 31 0000 0000 0000 0000 0000 0000 0001 1111
——————————————————————————————————————————————————————————————————
key1: 1 1000 转乘二进制 24=16+8
key2: 0 1000 转乘二进制 8

我们可以发现,代码中利用的是 hash & oldCap(key的哈希值 & 扩容之前的哈希桶长度),而不是利用hash & newCap- 1 ,为什么要这样做呢?

通过上面的情况我们应该可以看出,原本冲突的两个key,在扩容以后的位置是由新增的那一个bit位来决定的。所以直接用 hash & 扩容之前的容量来判断新增的那个bit位是0 还是 1 ,就可以知道是在原来的位置上,还是在 原来位置+oldCap 位置上。

1
2
3
4
5
6
java复制代码哈希冲突的两个key,在扩容到32之后
key1(key的hash&hash>>>16) 0000 0000 0011 0011 0111 1010 1011 1000

key2(key的hash&hash>>>16) 0000 0000 0011 0011 0111 1010 1010 1000
&
oldCap=16 0000 0000 0000 0000 0000 0000 0001 0000

通过上面我们也能看到,原来在同一个位置上的两个key,通过扩容之后的位置要不在原来的位置上,要不在oldCap+原位置上。这样不需要像JDK1.7的实现那样重新计算hash,只需要看看原来的hash值新增的那个bit是1还是0就好了,是0的话索引没变,是1的话索引变成“原索引+oldCap”。同时也是更加充分的说明了,为什么HashMap的容量必须是2的n次方了。

知道HashTable的同学应该也知道,HashTable默认的容量是11,每次扩容之后的容量是length*2+1。HashTable在设计上,想通过保证哈希桶数组为质数,来尽可能保证哈希散列均匀。这里也就不对HashTable的容量为什么是质数进行展开,感兴趣的同学可以查一下资料,为什么对质数求模会比对合数求模的哈希散列效果要好,可以参考blog.csdn.net/liuqiyao_01…

HashMap保证哈希数组的大小为2的n次方,这个设计确实非常的巧妙,利用2的n次方 - 1 二进制码全为1这个特性,在扩容的时候,既省去了重新计算hash值的时间,而且同时,由于新增的1bit是0还是1可以认为是随机的,因此resize的过程,均匀的把之前的冲突的节点分散到新的bucket了。

hashMap_resize.png

总结

  1. 扩容是一个特别耗性能的操作,所以当我们在使用HashMap的时候,估算map的大小,初始化的时候给一个大致的数值,避免map进行频繁的扩容。
  2. HashMap是线程不安全的,不要在并发的环境中使用HashMap,使用ConcurrentHashMap或者SynchronizedMap
  3. 负载因子是可以修改的,也可以大于1,但是建议不要轻易修改。

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

对于Http Status Code,我有话说

发表于 2020-01-09

现在很多项目都是web项目,前后端分离,唯一的交互就是通过restful接口,而当我们请求返回的时候,status code如何返回呢?

首先介绍下常用的http status code有哪些。

2XX(Success 成功状态码)

200 - OK

请求成功

201 - Created

文档创建成功,比如新增一个user成功

202 - Accepted

请求已被接受,但相应的操作可能尚未完成。这用于后台操作,例如数据库压缩等异步操作

4XX(Client Error 客户端错误状态码)

400 - Bad Request

请求参数有误(比如应该传一个Number类型的参数,你却传了一个字符串),请求无法被服务器理解,修改后可以重新提交这个请求

401 - Unauthorized

当前请求用户未被授权,比如未登陆

403 - Forbidden

当前请求被拒绝。比如文件系统访问权限有问题,或者进行了越权操作(比如普通用户试图获取admin用户列表)

404 - Not Found

无法找到请求资源,一般是url错误

405 - Method Not Allowed

使用无效的HTTP请求类型对请求的URL进行了请求。比如某个api只支持post,而client却使用了get

406 - Not Acceptable

服务器不支持请求的content type

413 - Request Entity Too Large

请求体太大不支持,一般是上传的文件超出了限定导致的。

5XX(Server Error 服务器错误状态码)

500 - Internal Server Error

表示服务端在执行请求时发生了错误。 可能是服务器或者应用存在bug

503 - Service Unavailable

服务不可用,现在无法处理请求。

返回什么样的错误码

一般在restful API里,我们对于状态码的认定是这样的:

1. 2xx: server 收到 client 端请求,可以执行
2. 4xx: client 送來资料有错,server 端无法执行 (client 修正错误后,可再送一次请求)
3. 5xx: client 送來的资料没错,但 server 端出错无法执行(client 端无法 take 任何 action)

但是我也见过status code返回200,然后在response中通过自定义code告诉用户请求是否成功

1
2
3
4
json复制代码{  
  "code": 10020,
  "msg": "name不能为空"
}

虽然萝卜青菜各有所爱,我个人仍然认为对于REST接口,就应该用HTTP层面的status来表达操作是否成功。,因为网络通讯不仅仅是一个客户端一个服务器的事情,中间会有很多层节点,如果其中某一层对status 200的请求理解非常正统,做了cache或者什么处理,那你可能就坐蜡了。而且既然是写接口,就最好标准一点,别给自己埋坑。

所以对于成功的请求就应该返回2XX,对于4XX接口,你可以做对应的封装

返回数据

返回数据

状态码一定要返回4XX,但是你可以在reponse data中返回异常错误码(这个错误码是业务错误的错误码),这个时候可以和前端约定好这个业务错误码代表什么意思,就可以给用户相应的提示了。

返回的数据格式

1
2
3
4
5
6
7
8
9
10
11
java复制代码public class BaseResponse<T> {  

    // 业务异常码
    private int code;

    // 说明信息
    private String msg;

    // 需要封装返回的数据
    private T data;
}

比如对于GET /api/users/1,这样的请求返回的数据就放在data这个字段当中。

1
2
3
4
5
6
7
8
java复制代码{  
  "code":200,
  "msg":"SUCCESS",
  "data": {
    "id":1095,
    "name":"张三"
  }
}

而对于请求失败的错误(http status code是4XX),则是会返回下面的数据

1
2
3
4
java复制代码{  
  "code": 10030,
  "msg": "id不存在"
}

Spring对Http Status Code的支持

1
2
3
4
5
java复制代码@ResponseStatus(HttpStatus.CREATED)  
public BaseResponse addUser(UserParam userParam) {

    return service.addUser(userParam);
}

可以直接通过ResponseStatus注解来指定返回的错误码是多少。当然上面说的是正常情况,那些参数失败校验失败或者是其他业务异常导致的情况如何处理呢?

有两种办法,第一种是通过Spring的 ResponseEntity 这个类来完成

1
2
3
4
5
6
7
8
java复制代码public ResponseEntity<BaseResponse> addUser(UserParam userParam) {  

  if(validate(userParam)) {
      return service.addUser(userParam);
  }

  return  new ResponseEntity<>(ResponseUtil.fail(STATUS_INVALID_PARAM), HttpStatus.NOT_FOUND);
}

第二种方式是借助全局异常处理,如果在service中发现客户端传递过来的参数存在问题,可以通过抛出异常,然后在全局异常拦截器中进行统一处理

1
2
3
4
5
6
7
8
9
java复制代码@RestControllerAdvice  
public class WebExceptionConfig {

  @ExceptionHandler(InvalidParamException.class)
  @ResponseStatus(HttpStatus.BAD_REQUEST)
  public BaseResponse handleInvalidParamException(InvalidParamException e) {
      return ResponseUtil.fail(STATUS_INVALID_PARAM, e.getMessage());
  }
}

总结

  1. 不同的情况返回不同的status code,对于失败的请求,请返回4XX,并可以通过返回数据指定业务异常code
  2. 内部一定要统一
  3. 不要让返回的status code影响你的业务逻辑

点关注,不迷路

如果觉得我写的还行的话,请给我个点赞、关注、分享呀,对我是很大的激励呀。

公众号 think123,可以第一时间阅读哟。

往期回顾

嘿,我用Drone做CI

和面试官这样吹MongoDB复制集

知道了这些 MongoDB设计技巧,提升效率50%

我花了一周读了Kafka Producer的源码

面试官:如何用LinkedHashMap实现LRU

我是如何理解Java8 Stream

再也不怕面试官问我JDK8 HashMap了

MongoDB中的定时索引

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

JAVA实现缓存(LRU、FIFO、weakhashMap)

发表于 2020-01-09

前阵子在公司给某客户做的邮箱系统登录页背景图的定制化开发。无意中想到一个问题:若系统支持给不同集团做定制化的登录页背景图开发,那就是图片不能直接存项目的资源文件了。只能通过文件形式或者图片Base64存数据库。那么问题来了,若是每一次浏览系统登录页时,都需要读一次文件目录或数据库,岂不是对数据库产生压力?能不能有一种方式,不需要大费周章的引入缓存的框架,仅JAVA来实现简单的缓存?于是便发现了我接下来要讲述的几种:LRU、FIFO(linkedHashMap,hashMap)、以及用 weakHashMap 来实现缓存

当然,也是可以直接引入缓存框架的,目前比较常用的缓存有 Readis 、 memcached。

缓存的主要思想有 LRU 和 FIFO。其中 LRU 英文为 Least Recently Used(最近最久未使用)。 FIFO 英文为 first in fisrst out(先进先出)。而实现则主要用 linkedHashMap、hashMap、weakHashMap。

LRU

LRU 缓存思想

  1. 固定缓存大小,需要给缓存分配一个固定的大小。
  2. 每次读取缓存都会改变缓存的使用时间,将缓存的存在时间重新刷新(在链式中,则是把这次试用的节点,抽出来放到最后一个)。
  3. 需要在缓存满了后,将最近最久未使用的缓存删除,再添加最新的缓存。

这是LinkedHashMap的一个构造函数,传入的第三个参数accessOrder为true的时候,就按访问顺序对LinkedHashMap排序,为false的时候就按插入顺序,默认是为false的。
当把accessOrder设置为true后,就可以将最近访问的元素置于最前面,这样就可以满足上述的第二点。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
复制代码/**
* Constructs an empty <tt>LinkedHashMap</tt> instance with the
* specified initial capacity, load factor and ordering mode.
*
* @param initialCapacity the initial capacity
* @param loadFactor the load factor
* @param accessOrder the ordering mode - <tt>true</tt> for
* access-order, <tt>false</tt> for insertion-order
* @throws IllegalArgumentException if the initial capacity is negative
* or the load factor is nonpositive
*/
public LinkedHashMap(int initialCapacity,
float loadFactor,
boolean accessOrder) {
super(initialCapacity, loadFactor);
this.accessOrder = accessOrder;
}

这是LinkedHashMap中另外一个方法,当返回true的时候,就会remove其中最久的元素,可以通过重写这个方法来控制缓存元素的删除,当缓存满了后,就可以通过返回true删除最久未被使用的元素,达到LRU的要求。这样就可以满足上述第三点要求。

1
2
3
复制代码protected boolean removeEldestEntry(Map.Entry<K,V> eldest) {
return false;
}

由于LinkedHashMap是为自动扩容的,当table数组中元素大于Capacity * loadFactor的时候,就会自动进行两倍扩容。但是为了使缓存大小固定,就需要在初始化的时候传入容量大小和负载因子。
为了使得到达设置缓存大小不会进行自动扩容,需要将初始化的大小进行计算再传入,可以将初始化大小设置为(缓存大小 / loadFactor) + 1,这样就可以在元素数目达到缓存大小时,也不会进行扩容了。这样就解决了上述第一点问题。

通过上面分析,实现下面的代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
复制代码import java.util.LinkedHashMap;
import java.util.Map;
import java.util.Set;

public class LRU1<K, V> {
private final int MAX_CACHE_SIZE;
private final float DEFAULT_LOAD_FACTORY = 0.75f;

LinkedHashMap<K, V> map;

public LRU1(int cacheSize) {
MAX_CACHE_SIZE = cacheSize;
int capacity = (int)Math.ceil(MAX_CACHE_SIZE / DEFAULT_LOAD_FACTORY) + 1;
/*
* 第三个参数设置为true,代表linkedlist按访问顺序排序,可作为LRU缓存
* 第三个参数设置为false,代表按插入顺序排序,可作为FIFO缓存
*/
map = new LinkedHashMap<K, V>(capacity, DEFAULT_LOAD_FACTORY, true) {
@Override
protected boolean removeEldestEntry(Map.Entry<K, V> eldest) {
return size() > MAX_CACHE_SIZE;
}
};
}

public synchronized void put(K key, V value) {
map.put(key, value);
}

public synchronized V get(K key) {
return map.get(key);
}

public synchronized void remove(K key) {
map.remove(key);
}

public synchronized Set<Map.Entry<K, V>> getAll() {
return map.entrySet();
}

@Override
public String toString() {
StringBuilder stringBuilder = new StringBuilder();
for (Map.Entry<K, V> entry : map.entrySet()) {
stringBuilder.append(String.format("%s: %s ", entry.getKey(), entry.getValue()));
}
return stringBuilder.toString();
}

public static void main(String[] args) {
LRU1<Integer, Integer> lru1 = new LRU1<>(5);
lru1.put(1, 1);
lru1.put(2, 2);
lru1.put(3, 3);
System.out.println(lru1);
lru1.get(1);
System.out.println(lru1);
lru1.put(4, 4);
lru1.put(5, 5);
lru1.put(6, 6);
System.out.println(lru1);
}
}

运行结果为:

1
2
3
复制代码1:1 2:2: 3:3
2:2 3:3 1:1
3:3 1:1 4:4 5:5 6:6

FIFO

LRU 缓存思想

  1. 固定缓存大小,需要给缓存分配一个固定的大小。
  2. 每次读取都不改变缓存节点的位置。
  3. 当需要是,缓存满了,就将最先插入的缓存删除,在往里面加。

FIFO 跟 LRU 的代码差不多一直,只是new linkedHashMap时的构造函数传入参数不同。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
复制代码import java.util.LinkedHashMap;
import java.util.Map;
import java.util.Set;

public class LRU1<K, V> {
private final int MAX_CACHE_SIZE;
private final float DEFAULT_LOAD_FACTORY = 0.75f;

LinkedHashMap<K, V> map;

public LRU1(int cacheSize) {
MAX_CACHE_SIZE = cacheSize;
int capacity = (int)Math.ceil(MAX_CACHE_SIZE / DEFAULT_LOAD_FACTORY) + 1;
/*
* 第三个参数设置为true,代表linkedlist按访问顺序排序,可作为LRU缓存
* 第三个参数设置为false,代表按插入顺序排序,可作为FIFO缓存
*/
map = new LinkedHashMap<K, V>(capacity, DEFAULT_LOAD_FACTORY, false) {
@Override
protected boolean removeEldestEntry(Map.Entry<K, V> eldest) {
return size() > MAX_CACHE_SIZE;
}
};
}

public synchronized void put(K key, V value) {
map.put(key, value);
}

public synchronized V get(K key) {
return map.get(key);
}

public synchronized void remove(K key) {
map.remove(key);
}

public synchronized Set<Map.Entry<K, V>> getAll() {
return map.entrySet();
}

@Override
public String toString() {
StringBuilder stringBuilder = new StringBuilder();
for (Map.Entry<K, V> entry : map.entrySet()) {
stringBuilder.append(String.format("%s: %s ", entry.getKey(), entry.getValue()));
}
return stringBuilder.toString();
}

public static void main(String[] args) {
LRU1<Integer, Integer> lru1 = new LRU1<>(5);
lru1.put(1, 1);
lru1.put(2, 2);
lru1.put(3, 3);
System.out.println(lru1);
lru1.get(1);
System.out.println(lru1);
lru1.put(4, 4);
lru1.put(5, 5);
lru1.put(6, 6);
System.out.println(lru1);
}
}

看到这里你可能会问:

为什么 LRU 和 FIFO 都用 linkedHashMap 来实现?而不用 hashMap?

其实是因为 linkedHashMap 继承了 hashMap,从它的构造函数可以看出, linkedHashMap 专门对这两种思想进行了实现。而用 hashMap 实现起来比较繁琐。当然也可以实现,网上很多实现方式。这里就不详细讲解了。

weakHashMap

WeakHashMap 和 HashMap 一样是个散列表。但是 weakHashMap 是 WeakReference(弱引用)。也就是,在GC时,没有被引用的会被清除。

hashMap 有一个 Extry 数组,weakHashMap 也有 Entry 数组,不过是继承了 weakReference 的,这也是弱类型的体现所在。

因为 weakHashMap 是弱类型,不需要手动去移除,一切交给GC,所以实现缓存的方式直接 new 即可。

但需要注意的是:

  1. 强引用的key是不会被回收的。
  2. weakHashMap 不是现成安全,若要实现则需要 Collections.synchronizedMap(weakHashMapintsmaze);

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

《我们一起进大厂》系列-ArrayList

发表于 2020-01-08

你知道的越多,你不知道的越多

点赞再看,养成习惯

本文 GitHub github.com/JavaFamily 已收录,有一线大厂面试点思维导图,也整理了很多我的文档,欢迎Star和完善,大家面试可以参照考点复习,希望我们一起有点东西。

正文

一个婀娜多姿,穿着衬衣的小姐姐,拿着一个精致的小笔记本,径直走过来坐在我的面前。

看着眼前这个美丽的女人,心想这不会就是Java基础系列的面试官吧,真香。

不过看样子这么年轻应该问不出什么深度的吧,嘻嘻。(哦?是么😏)

帅丙,上次面试到现在都过去2个星期你才过来,为啥鸽了这么久?

美丽迷人的面试官您好,因为之前得了流感,差点就没了,还有最近年底忙年会和年终review的事情,实在太忙了,不好意思。

还做了一波导演(其实是打杂)去拍摄蘑菇街的年会视频了,实在忙到爆炸,周末也没能怼出文章哈哈。

好吧那我理解了,下次这种情况记得提前跟我说,对了,多喝热水。

面试官最后的多喝热水,直接触动我内心的防线,居然还有人这么关心我,帅丙的眼角,又湿了……

ArrayList有用过吗?它是一个什么东西?可以用来干嘛?

有用过,ArrayList就是数组列表,主要用来装载数据,当我们装载的是基本类型的数据int,long,boolean,short,byte…的时候我们只能存储他们对应的包装类,它的主要底层实现是数组Object[] elementData。

与它类似的是LinkedList,和LinkedList相比,它的查找和访问元素的速度较快,但新增,删除的速度较慢。

小结:ArrayList底层是用数组实现的存储。

特点:查询效率高,增删效率低,线程不安全。使用频率很高。

为啥线程 不安全还使用他呢?

因为我们正常使用的场景中,都是用来查询,不会涉及太频繁的增删,如果涉及频繁的增删,可以使用LinkedList,如果你需要线程安全就使用Vector,这就是三者的区别了,实际开发过程中还是ArrayList使用最多的。

不存在一个集合工具是查询效率又高,增删效率也高的,还线程安全的,至于为啥大家看代码就知道了,因为数据结构的特性就是优劣共存的,想找个平衡点很难,牺牲了性能,那就安全,牺牲了安全那就快速。

Tip:这里还是强调下大家不要为了用而用,我记得我以前最开始工作就有这个毛病。就是不管三七二十一,就是为了用而用,别人用我也用,也不管他的性能啊,是否线程安全啥的,所幸最开始公司接触的,都是线下的系统,而且没啥并发。

现在回想起来还有点后怕,而且我第一次出去面试就被一个算法的大佬给虐得体无完肤,其实他问的我都会用,但是就是说不上来为啥用,为啥这么做。

回想起一年前的第一次面试,我又想到了那时候的点滴,那时候我身边还有女人,那时候我还有头发,那时候……我的眼角又湿了。

您说它的底层实现是数组,但是数组的大小是定长的,如果我们不断的往里面添加数据的话,不会有问题吗?

ArrayList可以通过构造方法在初始化的时候指定底层数组的大小。

通过无参构造方法的方式ArrayList()初始化,则赋值底层数Object[] elementData为一个默认空数组Object[] DEFAULTCAPACITY_EMPTY_ELEMENTDATA = {}所以数组容量为0,只有真正对数据进行添加add时,才分配默认DEFAULT_CAPACITY = 10的初始容量。

大家可以分别看下他的无参构造器和有参构造器,无参就是默认大小,有参会判断参数。

数组的长度是有限制的,而ArrayList是可以存放任意数量对象,长度不受限制,那么他是怎么实现的呢?

其实实现方式比较简单,他就是通过数组扩容的方式去实现的。

就比如我们现在有一个长度为10的数组,现在我们要新增一个元素,发现已经满了,那ArrayList会怎么做呢?

第一步他会重新定义一个长度为10+10/2的数组也就是新增一个长度为15的数组。

然后把原数组的数据,原封不动的复制到新数组中,这个时候再把指向原数的地址换到新数组,ArrayList就这样完成了一次改头换面。

Tip:很多小伙伴说,你举例干嘛用10这么长的数组举例,这样画都要多画一点格子了,帅丙我会做无意义的事情?因为我们在使用ArrayList的时候一般不会设置初始值的大小,那ArrayList默认的大小就刚好是10。

然后你们也可以看到,他的构造方法,如果你传入了初始值大小,那就使用你传入的参数,如果没,那就使用默认的,一切都是有迹可循的。

能具体说下1.7和1.8版本初始化的时候的区别么?

arrayList1.7开始变化有点大,一个是初始化的时候,1.7以前会调用this(10)才是真正的容量为10,1.7即本身以后是默认走了空数组,只有第一次add的时候容量会变成10。

ArrayList的默认数组大小为什么是10?

其实我也没找到具体原因。

据说是因为sun的程序员对一系列广泛使用的程序代码进行了调研,结果就是10这个长度的数组是最常用的最有效率的。也有说就是随便起的一个数字,8个12个都没什么区别,只是因为10这个数组比较的圆满而已。

我记得你说到了,他增删很慢,你能说一下ArrayList在增删的时候是怎么做的么?主要说一下他为啥慢。

诶卧*,这个我想一下,大学看的有点忘记了,我想想。

嗯嗯好的,我分别说一下他的新增的逻辑吧。

他有指定index新增,也有直接新增的,在这之前他会有一步校验长度的判断ensureCapacityInternal,就是说如果长度不够,是需要扩容的。

在扩容的时候,老版本的jdk和8以后的版本是有区别的,8之后的效率更高了,采用了位运算,右移一位,其实就是除以2这个操作。

1.7的时候3/2+1 ,1.8直接就是3/2。

指定位置新增的时候,在校验之后的操作很简单,就是数组的copy,大家可以看下代码。

不知道大家看懂arraycopy的代码没有,我画个图解释下,你可能就明白一点:

比如有下面这样一个数组我需要在index 5的位置去新增一个元素A

那从代码里面我们可以看到,他复制了一个数组,是从index 5的位置开始的,然后把它放在了index 5+1的位置

给我们要新增的元素腾出了位置,然后在index的位置放入元素A就完成了新增的操作了

至于为啥说他效率低,我想我不说你也应该知道了,我这只是在一个这么小的List里面操作,要是我去一个几百几千几万大小的List新增一个元素,那就需要后面所有的元素都复制,然后如果再涉及到扩容啥的就更慢了不是嘛。

我问你个真实的场景,这个问题很少人知道,你可要好好回答哟!

ArrayList(int initialCapacity)会不会初始化数组大小?

这是什么问题?卧槽问个ArrayList还能问到知识盲区?

不要慌,我记得丙丙说过:无论我们遇到什么困难都不要害怕,战胜恐惧最好的办法就是面对他!!!奥利给!!!…

会初始化数组大小!但是List的大小没有变,因为list的大小是返回size的。

而且将构造函数与initialCapacity结合使用,然后使用set()会抛出异常,尽管该数组已创建,但是大小设置不正确。

使用sureCapacity()也不起作用,因为它基于elementData数组而不是大小。

还有其他副作用,这是因为带有sureCapacity()的静态DEFAULT_CAPACITY。

进行此工作的唯一方法是在使用构造函数后,根据需要使用add()多次。

大家可能有点懵,我直接操作一下代码,大家会发现我们虽然对ArrayList设置了初始大小,但是我们打印List大小的时候还是0,我们操作下标set值的时候也会报错,数组下标越界。

其实数组是初始化了,但是List没,那size就没变,set下标是和size比较的那就报错了。

再结合源码,大家仔细品读一下,这是Java Bug里面的一个经典问题了,还是很有意思的,大家平时可能也不会注意这个点。

ArrayList插入删除一定慢么?

取决于你删除的元素离数组末端有多远,ArrayList拿来作为堆栈来用还是挺合适的,push和pop操作完全不涉及数据移动操作。

那他的删除怎么实现的呢?

删除其实跟新增是一样的,不过叫是叫删除,但是在代码里面我们发现,他还是在copy一个数组。

为啥是copy数组呢?

继续打个比方,我们现在要删除下面这个数组中的index5这个位置

那代码他就复制一个index5+1开始到最后的数组,然后把它放到index开始的位置

index5的位置就成功被”删除“了其实就是被覆盖了,给了你被删除的感觉。

同理他的效率也低,因为数组如果很大的话,一样需要复制和移动的位置就大了。

ArrayList是线程安全的么?

当然不是,线程安全版本的数组容器是Vector。

Vector的实现很简单,就是把所有的方法统统加上synchronized就完事了。

你也可以不使用Vector,用Collections.synchronizedList把一个普通ArrayList包装成一个线程安全版本的数组容器也可以,原理同Vector是一样的,就是给所有的方法套上一层synchronized。

ArrayList用来做队列合适么?

队列一般是FIFO(先入先出)的,如果用ArrayList做队列,就需要在数组尾部追加数据,数组头部删除数组,反过来也可以。

但是无论如何总会有一个操作会涉及到数组的数据搬迁,这个是比较耗费性能的。

结论:ArrayList不适合做队列。

那数组适合用来做队列么?

这个女人是魔鬼么?不过还是得微笑面对!

数组是非常合适的。

比如ArrayBlockingQueue内部实现就是一个环形队列,它是一个定长队列,内部是用一个定长数组来实现的。

另外著名的Disruptor开源Library也是用环形数组来实现的超高性能队列,具体原理不做解释,比较复杂。

简单点说就是使用两个偏移量来标记数组的读位置和写位置,如果超过长度就折回到数组开头,前提是它们是定长数组。

ArrayList的遍历和LinkedList遍历性能比较如何?

论遍历ArrayList要比LinkedList快得多,ArrayList遍历最大的优势在于内存的连续性,CPU的内部缓存结构会缓存连续的内存片段,可以大幅降低读取内存的性能开销。

能跟我聊一下LinkedList相关的东西么?

可以呀,不然今天天色已晚,不然我们下次再聊?

好吧,每次你都找借口,下次可以集合最后章节了,我们好好聊聊,你好好准备吧。

总结

ArrayList就是动态数组,用MSDN中的说法,就是Array的复杂版本,它提供了动态的增加和减少元素,实现了ICollection和IList接口,灵活的设置数组的大小等好处。

面试里面问的时候没HashMap,ConcurrentHashMap啥的这么常问,但是也有一定概率问到的,还是那句话,不打没把握的仗。

我们在源码阅读过程中,不需要全部都读懂,需要做的就是读懂核心的源码,加深自己对概念的理解就好了,用的时候不至于啥都不知道,不要为了用而用就好了。

ArrayList常用的方法总结

  • boolean add(E e)

将指定的元素添加到此列表的尾部。

  • void add(int index, E element)

将指定的元素插入此列表中的指定位置。

  • boolean addAll(Collection c)

按照指定 collection 的迭代器所返回的元素顺序,将该 collection 中的所有元素添加到此列表的尾部。

  • boolean addAll(int index, Collection c)

从指定的位置开始,将指定 collection 中的所有元素插入到此列表中。

  • void clear()

移除此列表中的所有元素。

  • Object clone()

返回此 ArrayList 实例的浅表副本。

  • boolean contains(Object o)

如果此列表中包含指定的元素,则返回 true。

  • void ensureCapacity(int minCapacity)

如有必要,增加此 ArrayList 实例的容量,以确保它至少能够容纳最小容量参数所指定的元素数。

  • E get(int index)

返回此列表中指定位置上的元素。

  • int indexOf(Object o)

返回此列表中首次出现的指定元素的索引,或如果此列表不包含元素,则返回 -1。

  • boolean isEmpty()

如果此列表中没有元素,则返回 true

  • int lastIndexOf(Object o)

返回此列表中最后一次出现的指定元素的索引,或如果此列表不包含索引,则返回 -1。

  • E remove(int index)

移除此列表中指定位置上的元素。

  • boolean remove(Object o)

移除此列表中首次出现的指定元素(如果存在)。

  • protected void removeRange(int fromIndex, int toIndex)

移除列表中索引在 fromIndex(包括)和 toIndex(不包括)之间的所有元素。

  • E set(int index, E element)

用指定的元素替代此列表中指定位置上的元素。

  • int size()

返回此列表中的元素数。

  • Object[] toArray()

按适当顺序(从第一个到最后一个元素)返回包含此列表中所有元素的数组。

  • T[] toArray(T[] a)

按适当顺序(从第一个到最后一个元素)返回包含此列表中所有元素的数组;返回数组的运行时类型是指定数组的运行时类型。

  • void trimToSize()

将此 ArrayList 实例的容量调整为列表的当前大小。

点关注,不迷路

好了各位,以上就是这篇文章的全部内容了,能看到这里的人呀,都是人才。

我后面会每周都更新几篇一线互联网大厂面试和常用技术栈相关的文章,非常感谢人才们能看到这里,如果这个文章写得还不错,觉得「敖丙」我有点东西的话 求点赞👍 求关注❤️ 求分享👥 对暖男我来说真的 非常有用!!!

白嫖不好,创作不易,各位的支持和认可,就是我创作的最大动力,我们下篇文章见!

敖丙 | 文 【原创】

如果本篇博客有任何错误,请批评指教,不胜感激 !


文章每周持续更新,可以微信搜索「 三太子敖丙 」第一时间阅读和催更(比博客早一到两篇哟),本文 GitHub github.com/JavaFamily 已经收录,有一线大厂面试点思维导图,也整理了很多我的文档,欢迎Star和完善,大家面试可以参照考点复习,希望我们一起有点东西。

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

来吧,一文彻底搞懂Java中的Comparable和Comp

发表于 2020-01-08

大家好,我是沉默王二,今天在逛 programcreek 的时候,我发现了一些专注细节但价值连城的主题。比如说:Java 的 Comparable 和 Comparator 是兄弟俩吗?像这类灵魂拷问的主题,非常值得深入地研究一下。

Comparable 和 Comparator 是 Java 的两个接口,从名字上我们就能够读出来它们俩的相似性:以某种方式来比较两个对象。但它们之间到底有什么区别呢?请随我来,打怪进阶喽!

01、Comparable

Comparable 接口的定义非常简单,源码如下所示。

1
2
3
java复制代码public interface Comparable<T> {  
    int compareTo(T t);
}

如果一个类实现了 Comparable 接口(只需要干一件事,重写 compareTo() 方法),就可以按照自己制定的规则将由它创建的对象进行比较。下面给出一个例子。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
java复制代码public class Cmower implements Comparable<Cmower> {  
    private int age;
    private String name;

    public Cmower(int age, String name) {
        this.age = age;
        this.name = name;
    }

    @Override
    public int compareTo(Cmower o) {
        return this.getAge() - o.getAge();
    }

    public static void main(String[] args) {
        Cmower wanger = new Cmower(19,"沉默王二");
        Cmower wangsan = new Cmower(16,"沉默王三");

        if (wanger.compareTo(wangsan) < 0) {
            System.out.println(wanger.getName() + "比较年轻有为");
        } else {
            System.out.println(wangsan.getName() + "比较年轻有为");
        }
    }
}

在上面的示例中,我创建了一个 Cmower 类,它有两个字段:age 和 name。Cmower 类实现了 Comparable 接口,并重写了 compareTo() 方法。

程序输出的结果是“沉默王三比较年轻有为”,因为他比沉默王二小三岁。这个结果有什么凭证吗?

凭证就在于 compareTo() 方法,该方法的返回值可能为负数,零或者正数,代表的意思是该对象按照排序的规则小于、等于或者大于要比较的对象。如果指定对象的类型与此对象不能进行比较,则引发 ClassCastException 异常(自从有了泛型,这种情况就少有发生了)。

02、Comparator

Comparator 接口的定义相比较于 Comparable 就复杂的多了,不过,核心的方法只有两个,来看一下源码。

1
2
3
4
java复制代码public interface Comparator<T> {  
    int compare(T o1, T o2);
    boolean equals(Object obj);
}

第一个方法 compare(T o1, T o2) 的返回值可能为负数,零或者正数,代表的意思是第一个对象小于、等于或者大于第二个对象。

第二个方法 equals(Object obj) 需要传入一个 Object 作为参数,并判断该 Object 是否和 Comparator 保持一致。

有时候,我们想让类保持它的原貌,不想主动实现 Comparable 接口,但我们又需要它们之间进行比较,该怎么办呢?

Comparator 就派上用场了,来看一下示例。

1)原封不动的 Cmower 类。

1
2
3
4
5
6
7
8
9
java复制代码public class Cmower  {  
    private int age;
    private String name;

    public Cmower(int age, String name) {
        this.age = age;
        this.name = name;
    }
}

(说好原封不动,getter/setter 吃了啊)

Cmower 类有两个字段:age 和 name,意味着该类可以按照 age 或者 name 进行排序。

2)再来看 Comparator 接口的实现类。

1
2
3
4
5
6
java复制代码public class CmowerComparator implements Comparator<Cmower> {  
    @Override
    public int compare(Cmower o1, Cmower o2) {
        return o1.getAge() - o2.getAge();
    }
}

按照 age 进行比较。当然也可以再实现一个比较器,按照 name 进行自然排序,示例如下。

1
2
3
4
5
6
7
8
9
10
11
java复制代码public class CmowerNameComparator implements Comparator<Cmower> {  
    @Override
    public int compare(Cmower o1, Cmower o2) {
        if (o1.getName().hashCode() < o2.getName().hashCode()) {
            return -1;
        } else if (o1.getName().hashCode() == o2.getName().hashCode()) {
            return 0;
        }
        return 1;
    }
}

3)再来看测试类。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
java复制代码Cmower wanger = new Cmower(19,"沉默王二");  
Cmower wangsan = new Cmower(16,"沉默王三");
Cmower wangyi = new Cmower(28,"沉默王一");

List<Cmower> list = new ArrayList<>();
list.add(wanger);
list.add(wangsan);
list.add(wangyi);

list.sort(new CmowerComparator());

for (Cmower c : list) {
    System.out.println(c.getName());
}

创建了三个对象,age 不同,name 不同,并把它们加入到了 List 当中。然后使用 List 的 sort() 方法进行排序,来看一下输出的结果。

1
2
3
复制代码沉默王三  
沉默王二
沉默王一

这意味着沉默王三的年纪比沉默王二小,排在第一位;沉默王一的年纪比沉默王二大,排在第三位。和我们的预期完全符合。

03、到底该用哪一个呢?

通过上面的两个例子可以比较出 Comparable 和 Comparator 两者之间的区别:

  • 一个类实现了 Comparable 接口,意味着该类的对象可以直接进行比较(排序),但比较(排序)的方式只有一种,很单一。
  • 一个类如果想要保持原样,又需要进行不同方式的比较(排序),就可以定制比较器(实现 Comparator 接口)。
  • Comparable 接口在 java.lang 包下,而 Comparator 接口在 java.util 包下,算不上是亲兄弟,但可以称得上是表(堂)兄弟。

举个不恰当的例子。我想从洛阳出发去北京看长城,体验一下好汉的感觉,要么坐飞机,要么坐高铁;但如果是孙悟空的话,翻个筋斗就到了。我和孙悟空之间有什么区别呢?孙悟空自己实现了 Comparable 接口(他那年代也没有飞机和高铁,没得选),而我可以借助 Comparator 接口(现代化的交通工具)。

总而言之,如果对象的排序需要基于自然顺序,请选择 Comparable,如果需要按照对象的不同属性进行排序,请选择 Comparator。

04、鸣谢

好了,各位读者朋友们,以上就是本文的全部内容了。能看到这里的都是最胖的程序员(不,最棒),升职加薪就是你了👍。如果觉得不过瘾,还想看到更多,可以 star 二哥的 GitHub【itwanger.github.io】,本文已收录。

原创不易,如果觉得有点用的话,请不要吝啬你手中点赞的权力——这将是我最强的写作动力。

本文转载自: 掘金

开发者博客 – 和开发相关的 这里全都有

1…837838839…956

开发者博客

9558 日志
1953 标签
RSS
© 2025 开发者博客
本站总访问量次
由 Hexo 强力驱动
|
主题 — NexT.Muse v5.1.4
0%