compiler-construction - 除了 ANTLR,还有哪些工具可以帮助我创建针对 JVM 的小型语言?

标签 compiler-construction antlr formal-languages ll

(我几天前开始使用 ANTLR 进行语言冒险。我对语言理论和编译器构造的了解非常有限。如果这不是一个有效的问题,请见谅。)

ANTLR 是一个 parser 生成器,具体来说,是一个 ALL(*) 解析器。根据here ,解析器是:

the part of a compiler that tries to make syntactic sense of the source code.

AFAIK 一个编译器应该由 5 个阶段组成:

  1. 词法分析
  2. 语法分析
  3. 语义分析
  4. IL 表示和优化
  5. 代码生成

所以 ANTLR 似乎只涵盖了 1 和 2。

因此,如果我想为一种针对 JVM 上的 Java 字节码的教育语言编写编译器。对于第 3-5 阶段,我还可以利用哪些其他工具?

添加 1

为什么 ANTLR 只覆盖 1 和 2?我猜 4 和 5 被跳过了,因为它们对目标平台来说太具体了。但是为什么ANTLR会跳过3呢?

最佳答案

关于 ADD1:

ANTLR 执行 1) 和 2),因为这是为它定义的目标。作者认为您很乐意从头开始编写任何编译器的“其余部分”。

我同意,我们需要走得更远。有一个巨大的Life After Parsing .

如果您想要一个不仅仅处理解析的工具,您需要 目标相应更大。

更通用的一类工具是 Program Transformation Systems (PTS) .这些工具允许你定义一个语法,就像 ANTLR 一样,并且会生成一个解析器,会自动从源代码为该语言构建抽象语法树,提供修改这些 AST 的方法(通常是“源到源”重写规则),最后漂亮地打印修改后的 AST 以产生等效的源代码输出。

许多 PTS 一次仅限于“一种”语言;您可以转换该语言,这不适用于代码生成。它们通常允许进行黑客攻击,您可以在其中构建两种语言(源语言和目标语言)的联合语法,然后您可以修改源语言中的 AST 以制作目标语言中的 AST。这确实允许代码生成,但联合语言的噱头造成了很多困惑。例如,如果您有一个“+”节点,它是源语言还是目标语言中的“+”节点?你肯定不想翻译两次。

我们的DMS Software Reengineering Toolkit将同时处理多种(包括“两种”)语言。您可以从源语言转换为目标语言,并漂亮地打印结果。因为源“+”节点与目标“+”节点不同,所以没有混淆。

通常 PST 只进行 AST 操作。您可以通过滥用重写规则将 AST“重写”为表示语义谓词结果的 bool 值来实现任意语义分析。这很尴尬。

DMS 通过属性文法提供语义分析,这是使用文法规则作为指南根据 AST 计算定义任意分析的方法。您可以通过这种方式轻松构建符号表、控制流图并进行典型类型检查。 DMS 还提供了跨控制流图进行数据流分析的方法。

使用各种语义分析,可以验证源程序是否有效,运行依赖于在源程序中“遥远”找到的信息的复杂转换,并针对“目标”语言提供优化转换。

如果您将目标语言定义为 IL,则可以进行源到 IL 的转换和优化。

定义一个 JVM代码的IL并不是那么容易;毕竟,这是虚拟指令集的二进制表示。使用像 DMS 这样的 PTS,您可以定义一种目标语言,它是 JVM 指令的表面语法(例如,JVM 转储会产生什么),生成它,然后运行一个相当简单的后处理步骤将其转换为实际的 JVM 二进制代码。使用 DMS,您可以将该后处理步骤实现为针对 JVM 表面语法目标语言的 AST 上的属性语法计算。

[附注:DMS 可以通过 Java 前端获得。这包括额外的支持机制来解析和处理 JVM 二进制代码。这可用于实现后处理到 JVM 二进制步骤。或者,您可以自己滚动]。

DMS 作为工具的设计目标是涵盖语言翻译(“编译”是一种特殊情况)和程序分析等广泛的应用程序。它对应的野心更大,比ANTLR更大,也对应更强大。

关于compiler-construction - 除了 ANTLR,还有哪些工具可以帮助我创建针对 JVM 的小型语言?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41439438/

相关文章:

Java命令行编译问题和依赖关系

compiler-construction - 一种语言的编译器如何用该语言编写?

compiler-construction - Lisp编译器设计

c - PIC 和 XC8 编译器问题

antlr - Antlr4 中语义谓词的语法

parsing - 如何检查 ANTLR token 在解析器中仅使用一次或更少

java - 编译器翻译代码的形式化符号

matlab - 在哪里可以找到 MATLAB 的正式语法?

c - 我的 C 语法存在许多多重选择错误

context-free-grammar - 这种语言有下推自动机(PDA)吗?