了解JVM是如何支持Java语言和其他相关语言的,对于程序员来说是很有裨益的。本文分享一下Java的工作原理和JVM的内部结构。

Java虚拟机(JVM)是一个运行时环境,可以执行用Java编程语言编写的程序。Java语言是一种高级语言,它通过抽象和封装的机制,让开发者可以专注于业务逻辑和功能实现,而不用关心底层的细节。因此,运行/开发Java程序时,不必深入了解Java程序的执行过程或JVM的内部原理。对于大多数开发者来说,JVM就像一个神奇的盒子,能够帮助他们实现功能和完成任务。

但是,了解JVM是如何支持Java语言和其他相关语言的,对于程序员来说是很有裨益的!

本文分享一下Java的工作原理和JVM的内部结构。

1. Java虚拟机

Java虚拟机(JVM)是一个抽象的机器,用来执行一种代码,即bytecode。你可以把它看作是我们的代码和计算机硬件之间的桥梁,它把我们的代码作为输入,转换成字节码并在计算机硬件上运行它,从而实现开发者预期的结果。

2. 字节码 (bytecode)

字节码是一种JVM能够理解的文件类型。它是通过compilingJava代码(使用javac)生成的一种Java程序的中间表示形式。它之所以叫字节码,是因为每个操作码(operation)都是单字节大小的。字节码可以再次编译成机器码并在计算机上运行。

3. 编译

运行Java程序的第一步是编译。如果你有一个单独的Java文件,你可以使用提供的命令行工具javac来触发编译。

javac HelloWorld.java
  • 1.

图片

上面代码会把一个给定的Java文件编译成.class文件,其中包含bytecode。如果源代码有错误,编译会失败并报出编译错误。

你可以使用提供的工具javap来查看已创建的类文件,以了解类文件的内部情况。

javap HelloWorld.class
  • 1.

4. 执行

在通过编译创建了.class文件之后,可以使用java语法来启动一个JVM的实例,它会触发一个包含多个复杂步骤的执行路径,最终执行我们提供的代码。

java HelloWorld
  • 1.

首先JVM需要获取.class文件,并将它加载到JVM的内存区域中。这个初始过程是通过JVM类加载器来实现的。

5. 什么是类加载?

抽象地说,类加载就是扫描并遍历提供的.class文件,并将类文件中的内容加载到JVM的内存区域中。然后,执行引擎就可以引用这些存储的数据,继续执行我们的代码。

JVM中有三种类型的类加载器,分别是:

  • 引导类加载器
  • 扩展类加载器
  • 应用类加载器

引导类加载器的职责是加载基础/核心的Java类,这些类对于Java程序运行是必不可少的。在早期的Java版本中,这些核心类被包含在位于jre/lib目录下的rt.jar文件中,但在后来的Java版本中,rt.jar中的内容被分割成模块化的组件。

扩展类加载器的职责是加载lib/ext目录下的类,这些类可能包括我们在代码中使用的任何扩展。

应用类加载器是三种中最常用的一种,它负责加载用户定义的类。它会扫描我们程序的类路径,并加载其中的类。

6. 类加载过程

类加载过程有两个主要步骤:

  • 加载
  • 链接

7. 加载

在加载过程中,类加载器读取类文件的二进制表示形式,即.class文件,并在JVM的运行时内存中创建它的表示。这个表示称为Class Object,它位于JVM内存的方法区中。

8. 链接

在加载过程之后,开始链接。链接有三个步骤。

  • 验证 — 确保类文件的正确性。验证类是否符合Java规范。
  • 准备 — 为静态块/字段分配内存,并为静态变量赋予默认值(不是初始值!)。
  • 解析 — 解析类文件中的(符号)引用。

解析:

在链接的解析阶段,类加载器会解析常量池表,这是一个位于.class文件/类对象中的实体,类似于一个符号表,指定了类中的字段/方法/引用。在类文件中,对其他类的引用是以符号方式表示的,没有具体的内存地址来引用。解析会搜索JVM内存,并为那些符号引用分配具体的引用。如果在.class文件中发现了一个尚未加载的类,它会触发该类本身的加载/链接过程,这可能会导致一个递归的加载和链接过程。

在字节码加载和链接之后,类就成功地存储在JVM内存中(将在后面的部分讨论),并准备好初始化。

9. 初始化

当代码中第一次用new关键字或静态字段来引用一个类,或者当程序执行时遇到一个初始化类(比如Main类),则会触发类文件的初始化。

在初始化阶段,执行静态块,静态变量被分配初始值。

10. 运行时内存区域

在上面的段落中,多次提到了将类文件数据存储在JVM内存中。这些数据究竟存储在哪里,来作为加载/链接/初始化的结果?答案是运行时内存区域。

JVM运行时内存区域是指定的内存空间,它被划分为多个部分,用于存储执行相关/类文件相关的数据。

运行时内存区的主要区域如下:

(1) 方法区

方法区是运行时内存的一部分,用于存储与类文件相关的数据。运行时常量池、字段元数据、类元数据、方法元数据和字节码本身等都存储在方法区中。

(2) 程序计数器(PC)

程序计数器是一个小的内存区域,用于存储当前正在执行的操作的地址,这是Java程序执行的必要信息。每个线程都有自己的PC。

(3) 堆

存储所有的类/数组实例,是所有线程共享的一块内存。

(4) JVM栈

保存局部变量和部分结果。包含栈帧。每个线程都有自己的JVM栈。

11. 栈帧

当一个方法被调用时,在栈中创建一个新的帧。它会存储与该方法相关的局部变量和部分结果。如果在该方法内部调用了另一个方法,就会为新调用的方法创建一个新的栈帧。在给定线程中,一次只有一个帧是活动的。

12. 执行

在上面的部分中,简要地介绍了Java源代码是如何编译并加载到JVM运行时内存区域中的。

接下来看看这些数据是如何执行的。

这部分过程是通过JVM的执行引擎来实现的,它由两个主要部分组成:(执行引擎还包括许多其他组件,但在本文中不会提及。)

  • 解释器
  • JIT(即时)编译器

“Java作为一种编程语言,是一种混合的解释和编译语言,也就是说Java代码既要经过编译,又要经过解释。简单来说,当类文件开始运行时,JVM会先用解释器直接执行字节码,不需要编译。这样做的主要好处是可以提高启动速度和执行速度(不用等待编译过程)。

在解释的过程中,JVM会发现代码中的热点和热区,也就是经常执行或者可以优化的代码段。这些代码段会被JIT编译器编译成本地代码,然后执行引擎会从解释模式切换到执行模式。”

这个编译过程有多个层次,称为分层编译。

Java是怎么运行起来的?深入理解Java虚拟机
标签: