Flex 词法分析实验实现(电子科技大学编译技术Icoding实验)

news/2024/12/28 22:37:41/

Flex 词法分析

此为电子科技大学编译技术 实验1:词法分析

将具体实现中的三个文件和自己的实验报告一起上传才能通过

根据词法分析实验中给定的文法,利用 flex 设计一词法分析器,该分析器从标准输入读入源代码后,输出单词的类别编号及附加信息。 附加信息规定如下: 当类别为 Y_IDnum_INTnum_FLOAT 时,附加信息为该类别对应的属性,如 main, 100, 29.3等; 当类别为 关键字 时,附件信息为 KEYWORD; 当类别为 运算符 时,附件信息为 OPERATOR; 当类别为 其它符号时,附件信息为 SYMBOL

单词类别的定义:

enum yytokentype {num_INT = 258,num_FLOAT = 259,Y_ID = 260,Y_INT = 261,Y_VOID = 262,Y_CONST = 263,Y_IF = 264,Y_ELSE = 265,Y_WHILE = 266,Y_BREAK = 267,Y_CONTINUE = 268,Y_RETURN = 269,Y_ADD = 270,Y_SUB = 271,Y_MUL = 272,Y_DIV = 273,Y_MODULO = 274,Y_LESS = 275,Y_LESSEQ = 276,Y_GREAT = 277,Y_GREATEQ = 278,Y_NOTEQ = 279,Y_EQ = 280,Y_NOT = 281,Y_AND = 282,Y_OR = 283,Y_ASSIGN = 284,Y_LPAR = 285,Y_RPAR = 286,Y_LBRACKET = 287,Y_RBRACKET = 288,Y_LSQUARE = 289,Y_RSQUARE = 290,Y_COMMA = 291,Y_SEMICOLON = 292,Y_FLOAT = 293
};

例如对于源代码

int main(){return 3;
}

词法分析器的输出为:

<261, KEYWORD>
<260, main>
<285, SYMBOL>
<286, SYMBOL>
<287, SYMBOL>
<269, KEYWORD>
<258, 3>
<292, SYMBOL>
<288, SYMBOL>

1 具体实现

以下具体实现分为了三个文件 —— token.hlexer.llexer_main.c

当然你也可以直接写成一个 .l 文件,具体看补充

1.1 头文件 token.h

创建一个头文件 token.h,定义了词法分析器中所需的标记类型附加信息的数据结构;这个头文件中包含了枚举 yytokentype,定义了各种标记类型的类别编号,以及一个联合 _YYLVAL,用于存储附加信息,具体代码如下:

#ifndef TOKEN_H
#define TOKEN_H
enum yytokentype {num_INT = 258,num_FLOAT = 259,Y_ID = 260,Y_INT = 261,Y_VOID = 262,Y_CONST = 263,Y_IF = 264,Y_ELSE = 265,Y_WHILE = 266,Y_BREAK = 267,Y_CONTINUE = 268,Y_RETURN = 269,Y_ADD = 270,Y_SUB = 271,Y_MUL = 272,Y_DIV = 273,Y_MODULO = 274,Y_LESS = 275,Y_LESSEQ = 276,Y_GREAT = 277,Y_GREATEQ = 278,Y_NOTEQ = 279,Y_EQ = 280,Y_NOT = 281,Y_AND = 282,Y_OR = 283,Y_ASSIGN = 284,Y_LPAR = 285,Y_RPAR = 286,Y_LBRACKET = 287,Y_RBRACKET = 288,Y_LSQUARE = 289,Y_RSQUARE = 290,Y_COMMA = 291,Y_SEMICOLON = 292,Y_FLOAT = 293
};typedef union _YYLVAL{int		token;int		int_value;float   float_value;char*	id_name;
}_YYLVAL;#endif //TOKEN_H

1.2 Flex文件 lexer.l

创建Flex规则文件 lexer.l,其中包含词法分析器的规则定义:

  • 注释处理:规则中包括了处理注释的规则 (\/\/.*\n)|(\/\*.*\*\/),可以将注释从源代码中过滤掉

  • 十六进制整数:规则可以成功地识别十六进制整数,例如 0x10

  • 标识符:规则中有处理标识符的规则,注意,使用了 strdup(yytext) 来为标识符分配内存。这会为每个标识符创建一个新的动态分配的字符串,要确保在适当的时候释放这些字符串以避免内存泄漏

  • 操作符:规则包括处理各种操作符的规则

  • 浮点数:规则可以成功地识别浮点数,但需要注意浮点数的格式。当前规则要求小数点前面至少有一个数字,例如 0.1,而不支持 .1 这种形式

  • 数值的存储:规则中将整数存储为 yylval.int_value,浮点数存储为 yylval.float_value

具体代码:

%{#include "token.h"
%}_YYLVAL yylval;%%
[ \t\n] ;
(\/\/.*\n)|(\/\*.*\*\/) ;int { return Y_INT; }
float { return Y_FLOAT; }void { return Y_VOID; }
const { return Y_CONST; }
if { return Y_IF; }
else { return Y_ELSE; }
while { return Y_WHILE; }
break { return Y_BREAK; }
continue { return Y_CONTINUE; }
return { return Y_RETURN; }"+" { return Y_ADD; }
"-" { return Y_SUB; }
"*" { return Y_MUL; }
"/" { return Y_DIV; }
"%" { return Y_MODULO; }
"<" { return Y_LESS; }
"<=" { return Y_LESSEQ; }
">" { return Y_GREAT; }
">=" { return Y_GREATEQ; }
"!=" { return Y_NOTEQ; }
"==" { return Y_EQ; }
"!" { return Y_NOT; }
"&&" { return Y_AND; }
"||" { return Y_OR; }
"=" { return Y_ASSIGN; }"(" { return Y_LPAR; }
")" { return Y_RPAR; }
"{" { return Y_LBRACKET; }
"}" { return Y_RBRACKET; }
"[" { return Y_LSQUARE; }
"]" { return Y_RSQUARE; }
"," { return Y_COMMA; }
";" { return Y_SEMICOLON; }[0-9]+ { yylval.int_value = atoi(yytext); return num_INT; }
[0-9]*\.[0-9]+ { yylval.float_value = atof(yytext); return num_FLOAT; }
[a-zA-Z_][a-zA-Z0-9_]* { yylval.id_name = strdup(yytext); return Y_ID; }
0x[0-9a-fA-F]+ { yylval.int_value = strtol(yytext, NULL, 16); return num_INT; }
%%

1.3 main函数文件 lexer_main.c

创建main函数文件 lexer_main.c ,它将从词法分析器接收的标记类型和附加信息输出为类别编号和附加信息

  • #include 部分包含了标准输入输出头文件和自定义的 token.h 头文件

  • extern int yylex();extern _YYLVAL yylval; 声明了从词法分析器生成的函数和变量

  • while((token = yylex()) != 0) 循环调用 yylex() 函数来获取标记,直到返回值为 0 表示词法分析结束

  • 在循环内部,根据标记的类型进行相应的打印输出。对于标识符、整数和浮点数,使用 yylval 结构中相应的成员来获取值

  • 根据标记类型的范围,将其分类为关键字、运算符或其他符号,并打印相应的输出

  • 使用了 free() 函数来释放在标识符规则中动态分配的 yylval.id_name 内存,以避免内存泄漏

具体代码:

#include <stdio.h>
#include <stdlib.h>
#include "token.h"extern int yylex();
extern _YYLVAL yylval;int main(int argc, char **argv) {int token;while((token = yylex()) != 0) {if(token <= 260){switch (token) {case Y_ID:printf("<%d, %s>\n", token, yylval.id_name);free(yylval.id_name);                    break;case num_INT:printf("<%d, %d>\n", token, yylval.int_value);break;case num_FLOAT:printf("<%d, %f>\n", token, yylval.float_value);break;default:printf("<UNKNOWN>\n");break;					}	}else{if(token <= 269 || token == 293) {char words[10] = "KEYWORD";printf("<%d, %s>\n", token, words);}else if(token <= 284) {char words[10] = "OPERATOR";printf("<%d, %s>\n", token, words);}else if(token <= 292) {char words[10] = "SYMBOL";printf("<%d, %s>\n", token, words);}else{printf("<UNKNOWN>\n");}            }       }return 0;
}

Icoding:将以上三个文件+实验报告上传即可

2 运行测试

在虚拟机上(我的是 VMware + Ubuntu22.04.3)进行的测试

在这三个文件的目录下,执行:

  1. 使用 Flex 编译 test.l 文件,这将生成 lex.yy.c 文件,其中包含词法分析器的C代码

    flex test.l
    
  2. 使用 GCC 编译 lex.yy.clexer_main.c,并生成可执行文件 test,在这一步,使用 -lfl 标志来链接 Flex 库

    gcc lex.yy.c lexer_main.c -o test -lfl
    
  3. 运行生成的可执行文件 test,并通过标准输入 < 重定向输入测试文件 test1.sy,从而进行词法分析

    ./test < test1.sy
    

测试文件 test1.sy

// test if-else-if
int ifElseIf() {int a;a = 5;int b;b = 10;if(a == 6 || b == 0xb) {return a;}else {if (b == 10 && a == 1)a = 25;else if (b == 10 && a == -5)a = a + 15;elsea = -+a;}return a;
}int main(){putint(ifElseIf());return 0;
}

运行结果部分展示:
在这里插入图片描述

3 补充

可以直接写成一个 .l 文件,如下 lexer.l

%{
enum yytokentype {num_INT = 258,num_FLOAT = 259,Y_ID = 260,Y_INT = 261,Y_VOID = 262,Y_CONST = 263,Y_IF = 264,Y_ELSE = 265,Y_WHILE = 266,Y_BREAK = 267,Y_CONTINUE = 268,Y_RETURN = 269,Y_ADD = 270,Y_SUB = 271,Y_MUL = 272,Y_DIV = 273,Y_MODULO = 274,Y_LESS = 275,Y_LESSEQ = 276,Y_GREAT = 277,Y_GREATEQ = 278,Y_NOTEQ = 279,Y_EQ = 280,Y_NOT = 281,Y_AND = 282,Y_OR = 283,Y_ASSIGN = 284,Y_LPAR = 285,Y_RPAR = 286,Y_LBRACKET = 287,Y_RBRACKET = 288,Y_LSQUARE = 289,Y_RSQUARE = 290,Y_COMMA = 291,Y_SEMICOLON = 292,Y_FLOAT = 293
};typedef union _YYLVAL{int		token;int		int_value;float   float_value;char*	id_name;
}_YYLVAL;%}_YYLVAL yylval;%%
[ \t\n] ;
(\/\/.*\n)|(\/\*.*\*\/) ;int { return Y_INT; }
float { return Y_FLOAT; }void { return Y_VOID; }
const { return Y_CONST; }
if { return Y_IF; }
else { return Y_ELSE; }
while { return Y_WHILE; }
break { return Y_BREAK; }
continue { return Y_CONTINUE; }
return { return Y_RETURN; }"+" { return Y_ADD; }
"-" { return Y_SUB; }
"*" { return Y_MUL; }
"/" { return Y_DIV; }
"%" { return Y_MODULO; }
"<" { return Y_LESS; }
"<=" { return Y_LESSEQ; }
">" { return Y_GREAT; }
">=" { return Y_GREATEQ; }
"!=" { return Y_NOTEQ; }
"==" { return Y_EQ; }
"!" { return Y_NOT; }
"&&" { return Y_AND; }
"||" { return Y_OR; }
"=" { return Y_ASSIGN; }"(" { return Y_LPAR; }
")" { return Y_RPAR; }
"{" { return Y_LBRACKET; }
"}" { return Y_RBRACKET; }
"[" { return Y_LSQUARE; }
"]" { return Y_RSQUARE; }
"," { return Y_COMMA; }
";" { return Y_SEMICOLON; }[0-9]+ { yylval.int_value = atoi(yytext); return num_INT; }
[0-9]*\.[0-9]+ { yylval.float_value = atof(yytext); return num_FLOAT; }
[a-zA-Z_][a-zA-Z0-9_]* { yylval.id_name = strdup(yytext); return Y_ID; }
0x[0-9a-fA-F]+ { yylval.int_value = strtol(yytext, NULL, 16); return num_INT; }
%%int main(int argc, char **argv) {int token;while((token = yylex()) != 0) {if(token <= 260){switch (token) {case Y_ID:printf("<%d, %s>\n", token, yylval.id_name);free(yylval.id_name);                    break;case num_INT:printf("<%d, %d>\n", token, yylval.int_value);break;case num_FLOAT:printf("<%d, %f>\n", token, yylval.float_value);break;default:printf("<UNKNOWN>\n");break;					}	}else{if(token <= 269 || token == 293) {char words[10] = "KEYWORD";printf("<%d, %s>\n", token, words);}else if(token <= 284) {char words[10] = "OPERATOR";printf("<%d, %s>\n", token, words);}else if(token <= 292) {char words[10] = "SYMBOL";printf("<%d, %s>\n", token, words);}else{printf("<UNKNOWN>\n");}            }       }return 0;
}

此时只需要执行以下即可测试:

  1. flex lexer.l
    
  2. gcc lex.yy.c -o test -lfl
    
  3. ./test < test1.sy
    

http://www.ppmy.cn/news/1159266.html

相关文章

Unity——数据存储的几种方式

一、PlayerPrefs PlayerPrefs适合用于存储简单的键值对数据 存储的数据会在游戏关闭后依然保持&#xff0c;并且可以在不同场景之间共享&#xff0c;适合用于需要在游戏不同场景之间传递和保持的数据。 它利用key-value的方式将数据保存到本地&#xff0c;跟字典类似。然后通…

当然是做药物研发啦~~~

做药物研发 梦开始的地方 当年上本科的时候&#xff0c;我的第一台笔记本有点子差&#xff0c;根本跑不了分子动力学&#xff0c;而且还需要我这个菜鸡自己在win系统的本子上安装Linux的双系统&#xff0c;频繁的重启、安装双系统搞得我心力憔悴&#xff0c;于是我决定使用”钞…

凉鞋的 Godot 笔记 201. 第三轮循环:引入变量

201. 第三轮循环&#xff1a;引入变量 在这一篇&#xff0c;我们进行第三轮 编辑-测试 循环。 在之前我们编写了 输出 Hello Godot 的脚本&#xff0c;如下: extends Node# Called when the node enters the scene tree for the first time. func _ready():print("Hell…

C++项目实战——基于多设计模式下的同步异步日志系统-⑫-日志宏全局接口设计(代理模式)

文章目录 专栏导读日志宏&全局接口设计全局接口测试项目目录结构整理示例代码拓展示例代码 专栏导读 &#x1f338;作者简介&#xff1a;花想云 &#xff0c;在读本科生一枚&#xff0c;C/C领域新星创作者&#xff0c;新星计划导师&#xff0c;阿里云专家博主&#xff0c;C…

潮玩游戏潮玩宇宙大逃杀游戏

近年来&#xff0c;随着游戏行业的蓬勃发展和科技的不断进步&#xff0c;宇宙大逃杀游戏已成为众多游戏玩家的热门选择。这种游戏以生存和竞争为核心&#xff0c;玩家们在虚拟宇宙中展开殊死搏斗&#xff0c;争取成为最后的胜利者。如今&#xff0c;一款全新的潮玩宇宙大逃杀游…

软考系统架构设计师考试冲刺攻略

系统架构冲刺攻略 上篇为综合知识&#xff0c;介绍了系统架构设计师应熟练掌握的基本知识&#xff0c;主要包括绪论、计算机系统、信息系统、信息安全技术、软件工程、数据库设计、系统架构设计、系统质量属性与架构评估、软件可靠性、软件架构的演化和维护、未来信息综合技术等…

Echarts(1)

Echarts官方文档----快速上手 - Handbook - Apache ECharts 1.1ECharts的快速上手 ECharts 的入门使用特别简单, 5分钟就能够上手. 他大体分为这几个步骤 步骤1&#xff1a;引入 echarts.js 文件 该文件获取方式可通过&#xff1a;在 https://www.jsdelivr.com/package/npm…

java入参为对象的(非基本数据类型int/float等)修改属性会影响原始对象

ApiOperation("登录接口")RequestMapping(value "/login", method RequestMethod.POST)public Result<JSONObject> login(RequestBody SysLoginModel sysLoginModel){Result<JSONObject> result new Result<JSONObject>();// by wang…