90分钟实现一门编程语言——极简解释器教程

devtools/2024/11/19 10:47:38/

关键字

解释器, C#, Scheme, 函数式编程

关于

本文介绍了如何使用C#实现一个简化但全功能的Scheme方言——iScheme及其解释器,通过从零开始逐步构建,展示了编程语言/解释器的工作原理。

作者

Lucida a.k.a Luc

如果你是通过移动设备阅读本教程,或者认为本文的代码字体太小的,请使用该链接以获得更好的可读性(博客园的markdown解析器实在诡异,这里就不多吐槽了)。

提示

如果你对下面的内容感兴趣:

  • 实现基本的词法分析,语法分析并生成抽象语法树。
  • 实现嵌套作用域和函数调用。
  • 解释器的基本原理。
  • 以及一些C#编程技巧。

那么请继续阅读。

如果你对以下内容感兴趣:

  • 高级的词法/语法分析技术。
  • 类型推导/分析。
  • 目标代码优化。

本文则过于初级,你可以跳过本文,但欢迎指出本文的错误 :-)

代码样例

代码示例

public static int Add(int a, int b) {return a + b;
}>> Add(3, 4)
>> 7>> Add(5, 5)
>> 10

这段代码定义了Add函数,接下来的>>符号表示对Add(3, 4)进行求值,再下一行的>> 7表示上一行的求值结果,不同的求值用换行分开。可以把这里的>>理解成控制台提示符(即Terminal中的PS)。

什么是解释器

解释器图示

解释器(Interpreter)是一种程序,能够读入程序并直接输出结果,如上图。相对于编译器(Compiler),解释器并不会生成目标机器代码,而是直接运行源程序,简单来说:

解释器是运行程序的程序。

计算器就是一个典型的解释器,我们把数学公式(源程序)给它,它通过运行它内部的"解释器"给我们答案。

CASIO 计算器

iScheme编程语言

iScheme是什么?

  • Scheme语言的一个极简子集。
  • 虽然小,但变量,算术|比较|逻辑运算,列表,函数和递归这些编程语言元素一应俱全。
  • 非常非常慢——可以说它只是为演示本文的概念而存在。

OK,那么Scheme是什么?

  • 一种函数式程序设计语言。
  • 一种Lisp方言。
  • 麻省理工学院程序设计入门课程使用的语言(参见MIT 6.001和《计算机程序的构造与解释》)。

计算机程序的构造与解释

  • 使用波兰表达式(Polish Notation)。
  • 更多的介绍参见Scheme编程语言。

以计算阶乘为例:

C#版阶乘

public static int Factorial(int n) {if (n == 1) {return 1;} else {return n * Factorial(n - 1);}
}

iScheme版阶乘

(def factorial (lambda (n) (if (= n 1)1(* n (factorial (- n 1))))))
数值类型

由于iScheme只是一个用于演示的语言,所以目前只提供对整数的支持。iScheme使用C#的Int64类型作为其内部的数值表示方法。

定义变量

iScheme使用def关键字定义变量

>> (def a 3)
>> 3>> a
>> 3

算术|逻辑|比较操作

与常见的编程语言(C#, Java, C++, C)不同,Scheme使用波兰表达式,即前缀表示法。例如:

C#中的算术|逻辑|比较操作

// Arithmetic ops
a + b * c
a / (b + c + d)
// Logical ops
(cond1 && cond2) || cond3
// Comparing ops
a == b
1 < a && a < 3

对应的iScheme代码

; Arithmetic ops
(+ a (* b c))
(/ a (+ b c d))
; Logical ops
(or (and cond1 cond2) cond3)
; Comparing ops
(= a b)
(< 1 a 3)

需要注意的几点:

  1. iScheme中的操作符可以接受不止两个参数——这在一定程度上控制了括号的数量。
  2. iScheme逻辑操作使用andornot代替了常见的&&||!——这在一定程度上增强了程序的可读性。

顺序语句

iScheme使用begin关键字标识顺序语句,并以最后一条语句的值作为返回结果。以求两个数的平均值为例:

C#的顺序语句

int a = 3;
int b = 5;
int c = (a + b) / 2;

iScheme的顺序语句

(def c (begin(def a 3)(def b 5)(/ (+ a b) 2)))

控制流操作

iScheme中的控制流操作只包含if

if语句示例

>> (define a (if (> 3 2) 1 2))
>> 1>> a
>> 1
列表类型

iScheme使用list关键字定义列表,并提供first关键字获取列表的第一个元素;提供rest关键字获取列表除第一个元素外的元素。

iScheme的列表示例

>> (define alist (list 1 2 3 4))
>> (list 1 2 3 4)>> (first alist)
>> 1>> (rest alist)
>> (2 3 4)

定义函数

iScheme使用func关键字定义函数:

iScheme的函数定义

(def square (func (x) (* x x)))(def sum_square (func (a b) (+ (square a) (square b))))

对应的C#代码

public static int Square (int x) {return x * x;
}public static int SumSquare(int a, int b) {return Square(a) + Square(b);
}

递归

由于iScheme中没有forwhile这种命令式语言(Imperative Programming Language)的循环结构,递归成了重复操作的唯一选择。

以计算最大公约数为例:

iScheme计算最大公约数

(def gcd (func (a b)(if (= b 0)a(func (b (% a b))))))

对应的C#代码

public static int GCD (int a, int b) {if (b == 0) {return a;} else {return GCD(b, a % b);}
}

高阶函数

和Scheme一样,函数在iScheme中是头等对象,这意味着:

  • 可以定义一个变量为函数。
  • 函数可以接受一个函数作为参数。
  • 函数返回一个函数。

iScheme的高阶函数示例

; Defines a multiply function.
(def mul (func (a b) (* a b)))
; Defines a list map function.
(def map (func (f alist)(if (empty? alist)(list )(append (list (f (first alist))) (map f (rest alist))))))
; Doubles a list using map and mul.
>> (map (mul 2) (list 1 2 3))
>> (list 2 4 6)

小结

对iScheme的介绍就到这里——事实上这就是iScheme的所有元素,会不会太简单了? -_-

接下来进入正题——从头开始构造iScheme的解释程序。

解释器构造

iScheme解释器主要分为两部分,解析(Parse)和求值(Evaluation):

  • 解析(Parse):解析源程序,并生成解释器可以理解的中间(Intermediate)结构。这部分包含词法分析,语法分析,语义分析,生成语法树。
  • 求值(Evaluation):执行解析阶段得到的中介结构然后得到运行结果。这部分包含作用域,类型系统设计和语法树遍历。

词法分析

词法分析负责把源程序解析成一个个词法单元(Lex),以便之后的处理。

iScheme的词法分析极其简单——由于iScheme的词法元素只包含括号,空白,数字和变量名,因此C#自带的String#Split就足够。

iScheme的词法分析及测试

public static String[] Tokenize(String text) {String[] tokens = text.Replace("(", " ( ").Replace(")", " ) ").Split(" \t\r\n".ToArray(), StringSplitOptions.RemoveEmptyEntries);return tokens;
}// Extends String.Join for a smooth API.
public static String Join(this String separator, IEnumerable<Object> values) {return String.Join(separator, values);
}// Displays the lexes in a readable form.
public static String PrettyPrint(String[] lexes) {return "[" + ", ".Join(lexes.Select(s => "'" + s + "'") + "]";
}// Some tests
>> PrettyPrint(Tokenize("a"))
>> ['a']>> PrettyPrint(Tokenize("(def a 3)"))
>> ['(', 'def', 'a', '3', ')']>> PrettyPrint(Tokenize("(begin (def a 3) (* a a))"))
>> ['begin', '(', 'def', 'a', '3', ')', '(', '*', 'a', 'a', ')', ')']
注意
  • 个人不喜欢String.Join这个静态方法,所以这里使用C#的扩展方法(Extension Methods)对String类型做了一个扩展。
  • 相对于LINQ Syntax,我个人更喜欢LINQ Extension Methods,接下来的代码也都会是这种风格。
  • 不要以为词法分析都是这么离谱般简单!vczh的词法分析教程给出了一个完整编程语言的词法分析教程。

语法树生成

得到了词素之后,接下来就是进行语法分析。不过由于Lisp类语言的程序即是语法树,所以语法分析可以直接跳过。

以下面的程序为例:

程序即语法树

;
(def x (if (> a 1) a 1))
; 换一个角度看的话:
(defx(if(>a1)a1)
)

更加直观的图片:

抽象语法树

这使得抽象语法树(Abstract Syntax Tree)的构建变得极其简单(无需考虑操作符优先级等问题),我们使用SExpression类型定义iScheme的语法树(事实上S Expression也是Lisp表达式的名字)。

抽象语法树的定义

public class SExpression {public String Value { get; private set; }public List<SExpression> Children { get; private set; }public SExpression Parent { get; private set; }public SExpression(String value, SExpression parent) {this.Value = value;this.Children = new List<SExpression>();this.Parent = parent;}public override String ToString() {if (this.Value == "(") {return "(" + " ".Join(Children) + ")";} else {return this.Value;}}
}

然后用下面的步骤构建语法树:

  1. 碰到左括号,创建一个新的节点到当前节点(current),然后重设当前节点。
  2. 碰到右括号,回退到当前节点的父节点。
  3. 否则把为当前词素创建节点,添加到当前节点中。

抽象语法树的构建过程

public static SExpression ParseAsIScheme(this String code) {SExpression program = new SExpression(value: "", parent: null);SExpression current = program;foreach (var lex in Tokenize(code)) {if (lex == "(") {SExpression newNode = new SExpression(value: "(", parent: current);current.Children.Add(newNode);current = newNode;} else if (lex == ")") {current = current.Parent;} else {current.Children.Add(new SExpression(value: lex, parent: current));}}return program.Children[0];
}
注意
  • 使用自动属性(Auto Property),从而避免重复编写样版代码(Boilerplate Code)。
  • 使用命名参数(Named Parameters)提高代码可读性:new SExpression(value: "", parent: null)new SExpression("", null)可读。
  • 使用扩展方法提高代码流畅性:code.Tokenize().ParseAsISchemeParseAsIScheme(Tokenize(code))流畅。
  • 大多数编程语言的语法分析不会这么简单!如果打算实现一个类似C#的编程语言,你需要更强大的语法分析技术:
    • 如果打算手写语法分析器,可以参考LL(k), Precedence Climbing和Top Down Operator Precedence。
    • 如果打算生成语法分析器,可以参考ANTLR或Bison。

作用域

作用域决定程序的运行环境。iScheme使用嵌套作用域。

以下面的程序为例

>> (def x 1)
>> 1>> (def y (begin (def x 2) (* x x)))
>> 4>> x
>> 1

作用域示例

利用C#提供的Dictionary<TKey, TValue>类型,我们可以很容易的实现iScheme的作用域SScope

iScheme的作用域实现

public class SScope {public SScope Parent { get; private set; }private Dictionary<String, SObject> variableTable;public SScope(SScope parent) {this.Parent = parent;this.variableTable = new Dictionary<String, SObject>();}public SObject Find(String name) {SScope current = this;while (current != null) {if (current.variableTable.ContainsKey(name)) {return current.variableTable[name];}current = current.Parent;}throw new Exception(name + " is not defined.");}public SObject Define(String name, SObject value) {this.variableTable.Add(name, value);return value;}
}

类型实现

iScheme的类型系统极其简单——只有数值,Bool,列表和函数,考虑到他们都是iScheme里面的值对象(Value Object),为了便于对它们进行统一处理,这里为它们设置一个统一的父类型SObject

public class SObject { }
数值类型

iScheme的数值类型只是对.Net中Int64(即C#里的long)的简单封装:

public class SNumber : SObject {private readonly Int64 value;public SNumber(Int64 value) {this.value = value;}public override String ToString() {return this.value.ToString();}public static implicit operator Int64(SNumber number) {return number.value;}public static implicit operator SNumber(Int64 value) {return new SNumber(value);}
}

注意这里使用了C#的隐式操作符重载,这使得我们可以:

SNumber foo = 30;
SNumber bar = 40;
SNumber foobar = foo * bar;

而不必:

SNumber foo = new SNumber(value: 30);
SNumber bar = new SNumber(value: 40);
SNumber foobar = new SNumber(value: foo.Value * bar.Value);

为了方便,这里也为SObject增加了隐式操作符重载(尽管Int64可以被转换为SNumberSNumber继承自SObject,但.Net无法直接把Int64转化为SObject):

public class SObject {...public static implicit operator SObject(Int64 value) {return (SNumber)value;}
}
Bool类型

由于Bool类型只有True和False,所以使用静态对象就足矣。

public class SBool : SObject {public static readonly SBool False = new SBool();public static readonly SBool True = new SBool();public override String ToString() {return ((Boolean)this).ToString();}public static implicit operator Boolean(SBool value) {return value == SBool.True;}public static implicit operator SBool(Boolean value) {return value ? True : False;}
}

这里同样使用了C#的隐式操作符重载,这使得我们可以:

SBool foo = a > 1;
if (foo) {// Do something...
}

而不用

SBool foo = a > 1 ? SBool.True: SBool.False;
if (foo == SBool.True) {// Do something...
}

同样,为SObject增加隐式操作符重载:

public class SObject {...public static implicit operator SObject(Boolean value) {return (SBool)value;}
}
列表类型

iScheme使用.Net中的IEnumberable<T>实现列表类型SList

public class SList : SObject, IEnumerable<SObject> {private readonly IEnumerable<SObject> values;public SList(IEnumerable<SObject> values) {this.values = values;}public override String ToString() {return "(list " + " ".Join(this.values) + ")";}public IEnumerator<SObject> GetEnumerator() {return this.values.GetEnumerator();}IEnumerator IEnumerable.GetEnumerator() {return this.values.GetEnumerator();}
}

实现IEnumerable<SObject>后,就可以直接使用LINQ的一系列扩展方法,十分方便。

函数类型

iScheme的函数类型(SFunction)由三部分组成:

  • 函数体:即对应的SExpression
  • 参数列表。
  • 作用域:函数拥有自己的作用域

SFunction的实现

public class SFunction : SObject {public SExpression Body { get; private set; }public String[] Parameters { get; private set; }public SScope Scope { get; private set; }public Boolean IsPartial {get {return this.ComputeFilledParameters().Length.InBetween(1, this.Parameters.Length);}}public SFunction(SExpression body, String[] parameters, SScope scope) {this.Body = body;this.Parameters = parameters;this.Scope = scope;}public SObject Evaluate() {String[] filledParameters = this.ComputeFilledParameters();if (filledParameters.Length < Parameters.Length) {return this;} else {return this.Body.Evaluate(this.Scope);}}public override String ToString() {return String.Format("(func ({0}) {1})"," ".Join(this.Parameters.Select(p => {SObject value = null;if ((value = this.Scope.FindInTop(p)) != null) {return p + ":" + value;}return p;})), this.Body);}private String[] ComputeFilledParameters() {return this.Parameters.Where(p => Scope.FindInTop(p) != null).ToArray();}
}
需要注意的几点
  • iScheme支持部分求值(Partial Evaluation),这意味着:

部分求值

>> (def mul (func (a b) (* a b)))
>> (func (a b) (* a b))>> (mul 3 4)
>> 12>> (mul 3)
>> (func (a:3 b) (* a b))>> ((mul 3) 4)
>> 12

也就是说,当SFunction的实际参数(Argument)数量小于其形式参数(Parameter)的数量时,它依然是一个函数,无法被求值。

这个功能有什么用呢?生成高阶函数。有了部分求值,我们就可以使用

(def mul (func (a b) (* a b)))
(def mul3 (mul 3))>> (mul3 3)
>> 9

而不用专门定义一个生成函数:

(def times (func (n) (func (n x) (* n x)) ) )
(def mul3 (times 3))>> (mul3 3)
>> 9
  • SFunction#ToString可以将其自身还原为源代码——从而大大简化了iScheme的理解和测试。

内置操作

iScheme的内置操作有四种:算术|逻辑|比较|列表操作。

我选择了表达力(Expressiveness)强的lambda方法表来定义内置操作:

首先在SScope中添加静态字段builtinFunctions,以及对应的访问属性BuiltinFunctions和操作方法BuildIn

win11跳过联网激活步骤-CSDN博客  https://blog.csdn.net/molangmolang/article/details/140187108?spm=1001.2100.3001.7377&utm_medium=distribute.pc_feed_blog_category.none-task-blog-classify_tag-5-140187108-null-null.nonecase&depth_1-utm_source=distribute.pc_feed_blog_category.none-task-blog-classify_tag-5-140187108-null-null.nonecase


http://www.ppmy.cn/devtools/104809.html

相关文章

大数据测试怎么做,数据应用测试、数据平台测试、数据仓库测试

本期内容由中通科技高级质量工程师龙渊在公益讲座中分享&#xff0c;他从大数据测试整体介绍、数据应用测试、数据平台测试以及数据仓库测试等方面&#xff0c;与大家共同探讨了大数据测试的方法实施与落地。 以下是讲座正文&#xff1a; 今天我们分享的内容主要从大数据简介…

C++之搜索二叉树(上)

目录 搜索二叉树的概念 搜索二叉树的操作 递归版本 二叉树的插入 二叉树的查找 二叉树的删除 非递归版本 二叉树的递归插入 二叉树的递归查找 二叉树的递归删除 在之前我们已经学习过了二叉树这一数据结构&#xff0c;本期我们将学习一种新的数据结构------搜索二…

气膜体育馆:学校体育设施的全新选择—轻空间

随着现代教育的发展&#xff0c;学校对体育设施的需求日益增加。一个良好的体育馆不仅能够为学生提供健康运动的场所&#xff0c;还能为学校举办各类体育赛事、活动提供便利。然而&#xff0c;传统体育馆的建设成本高昂、周期长&#xff0c;并且对场地要求较高。气膜体育馆作为…

【网络安全】绕过Referer实现CSRF

未经许可,不得转载。 文章目录 CSRFReferer绕过Referer实战案例CSRF CSRF(Cross-Site Request Forgery,跨站请求伪造)是一种攻击方式,其中攻击者诱使用户在已登录的情况下执行不安全的操作。例如,攻击者可能诱导用户访问一个恶意网站B,B网站上可能会发送伪造的请求到用…

欧科云链OKLink受邀参与WebX ,旗下EaaS助力项目方“弯道超车”

8 月 27 日&#xff0c;作为亚洲顶级区块链行业盛会 WebX 的 side event 之一的 OKJ Night 在东京盛大拉开帷幕&#xff0c;会上正式宣布 OKCoin Japan 升级为 OKJ&#xff0c;进一步以合规的形式推动区块链产业在日蓬勃发展。日本首相为本次活动发来贺电。 OKLink 非常荣幸作为…

JVM:浅谈内存溢出的原因

1、java heap space java.lang.OutOfMemoryError: …java heap space… 堆栈溢出&#xff0c;代码问题的可能性极大。 2、GC over head limit exceeded java.lang.OutOfMemoryError: GC over head limit exceeded 系统处于高频的GC状态&#xff0c;而且回收的效果依然不佳的…

Harbor部署docker私人仓库

1、新建虚拟机rhel9 2、配置网络 #修改内核参数使网卡名称为ethxxx grubby --update-kernel ALL --args net.ifnames0reboot #配置网络 vim /etc/NetworkManager/system-connections/eth0.connection 内容为&#xff1a;[connection] ideth0 typeethernet interface-nameeth0…

C++笔记---模板初阶

1. 初识模板 模板是什么 模板就是一种通用的模型&#xff0c;只要我们给出模板&#xff0c;编译器就可以自动帮助我们自动生成函数或类。 模板又分为函数模板和类模板。 模板的意义 我们在使用函数重载的过程中&#xff0c;常常会遇见下面的情况&#xff1a; void Swap(i…