编译原理 pl0 词法解析器 使用状态机与状态矩阵,和查找上一步得到分析

news/2025/3/30 5:26:38/

 

状态机练习

编译原理 状态机识别标识符-CSDN博客

大体思路是先区分数字,标识符,然后标识符再区分保留字这样。

随后根据PL0 字符改状态机

改了3次才出来

状态矩阵,一行一行写


 

input.txt 

const a=10; var b,c;beginread(b);c:=a+b;write(c)end.

 

#include <stdio.h>
#include <string.h>
//#include <ctype.h>#define END 6			// 状态机回退检测
#define CHECK 7
#define ERROR 8
// 状态机设计
// 0 行不用
// 0 列不用
//列查找按代号查询
// 代号是经过合并如123456789是数字合并为1 就是第一列
//延续状态机,改终止状态,当没有字符输入时,当前状态就是要进行判断的状态//提示,可使用如下二维数组存储DFA。
//一个状态对应一行;一个输入符号(digit/other)对应一列。
//每看到输入字符串中一个符号,就以当且状态为行号,
//看到的符号为列号查询下个状态作为当前状态。// 以下状态机画了一周画了三次图,写了三种状态数组
int  integerDFA[][7] = {// 符号,下个状态//  space 	letter 	digit 	calculate 	border  other{0, 	0,	 	0, 		0, 		0, 		0, 		0},{0, 	1,	 	2, 		3, 		4, 		5, 		ERROR},						// 状态1 就绪{0, 	END,	2, 		2, 		CHECK, 	END, 	ERROR},						// 状态2 标识符{0, 	END, 	3, 		3, 		END,	END,	ERROR},						// 状态3 数字,0b带,0x之流,后续检测字符,因只一个字母接数字后。{0, 	END, 	END, 	END,	4, 		END,	ERROR},						// 状态4 运算符,由于有+,<= 这种一个两个,所以后续还得检测<<<这样是否合法的代码{0, 	ERROR,	ERROR, 	ERROR, 	ERROR, 	ERROR,	ERROR},						// 状态5 边界,;.直接结束{0, 	0,	 	0, 		0, 		0, 		0, 		0},							// 状态6 最先于字母结束还要再次判断最后是什么字符导致的变动,用于合规检测当前字符{0, 	0,	 	0, 		0, 		0, 		0, 		0},							// 状态7 同状态6,但是发现void+ 这样会有BUG,用于标识符识别为保留字再次检测符号合法否。{0, 	0,	 	0, 		0, 		0, 		0, 		0},							// 状态8 想新BUG,发现有¥这样字符,直接报错};// 12 个保留字char ident[100][100] = {"begin","call","const","do","end","if","procedure","read","then","var","while","write",
};// 11个运算符
char calculate[100][100] = {"+","-","*","/","=","<>","<","<=",">",">=",":=",
};
// 对应运算符序号,用于查表
char calcu[100][100] = {"plus", "minus", "times", "slash", "eql", "neq", "lss", "leq", "gtr", "gep", "becomes",
};
// 五个界符
char board[100][100] = {"(",")",",",";",".",
};
// 界符对应名字
char boardname[100][100] = {"lparen","rparen","comma","semicolon","period",
};int have = 12;
//intint statu;						// 当前状态
int old_sta;					// 上一个状态
FILE* fp;
FILE* fa2;int lenth = 10000;
char* str = new char[1200];				// 循环读取文件,分200字节读取
char** cmd = new char*[lenth];			// 词元存储
int* sign = new int[lenth];				//  对应词元的标识
int cnt = 0;							// 分割词元个数
int num = 0;							// 当前字符填充位置// 是空白符
int isspace(char* p) {if (*p == ' ' || *p == '\n' || *p == '\0') {return 1;}return 0;
}
//是字母
int isletter(char* p) {if ((*p >= 'a' && *p <= 'z') || (*p >= 'A' && *p <= 'Z')) {return 1;}return 0;
//	return isalpha(*p);}
// 是数字
int isnum(char* p) {if (*p >= '0' && *p <= '9') {return 1;}return 0;
}// 是calculate 是运算符
int iscalculate(char* p) {if (*p == ':' || *p == '+' || *p == '-' || *p == '*' || *p == '/' || *p == '<' || *p == '=' || *p == '>') {return 1;}return 0;
}
// 是界符号
int isborder(char* p) {if (*p == ';' || *p == ',' || *p == '.' || *p == '(' || *p == ')') {return 1;}return 0;
}// 查空白符号,字符,数字,运算符号,界符号,乱码字符
int transchar(char* p) {int a = 0;int b = 0;int c = 0;int d = 0;int e = 0;a = isspace(p);b = isletter(p);c = isnum(p);d = iscalculate(p);e = isborder(p);if (a != 0) {
//		printf("isspace\n");return 1;} else if (b != 0) {return 2;							// 不是return b,c,d,e,因为都是1} else if (c != 0) {return 3;} else if (d != 0) {return 4;} else if (e != 0) {return 5;} else {return 6;}}//int check(char* str) {
void check(char* str) {int checknum;checknum = 10;char*p = str;// 进入字符探测,允许跳转状态
//	statu = 1;						// 初始化设置,全局变量
//	old_sta = statu;// 字符 '\0'也是比较对象,对应于状态机的非字符直接到结束状态。只有一个非字符就是结束符才能输出正确do {// 选状态checknum =	transchar(p);//		printf("%c\n", *p);
//		printf("%d\n", checknum);old_sta = statu;statu = integerDFA[statu][checknum];
//		printf("%d\n", statu);
//		printf("%d\n",cnt);// 字符写入cmd[cnt][num] = *p;num++;										// 用于最后循环结束判断是否分词if (statu == 5) {							// 边界
//			num--;
//			num++;cmd[cnt][num] = '\0';					// 填充
//			printf("--%s--\n",cmd[cnt]);sign[cnt] = 5;							// 字符存储记录为边界符号cnt++;									// 下一个字符num = 0;statu = 1;old_sta = 1;} else if (statu == 6) {					// 要复位num--;cmd[cnt][num] = '\0';
//			printf("--%s--\n", cmd[cnt]);num = 0;if (old_sta == 2) {							// 字母sign[cnt] = 2;} else if (old_sta == 3) {					// 数字sign[cnt] = 3;} else if (old_sta == 4) {					// 运算符号sign[cnt] = 4;}cnt++;statu = 1;old_sta = 1;statu = integerDFA[statu][checknum];cmd[cnt][num] = *p;num++;if (statu == 5) {							// 边界num++;cmd[cnt][num] = '\0';					// 填充
//				printf("--%s--\n",cmd[cnt]);sign[cnt] = 5;							// 字符存储记录为边界符号cnt++;									// 下一个字符num = 0;statu = 1;old_sta = 1;}} else if (statu == 7) {num--;cmd[cnt][num] = '\0';
//			printf("--%s--\n", cmd[cnt]);num = 0;if (old_sta == 2) {							// 字母sign[cnt] = 2;} else if (old_sta == 3) {					// 数字sign[cnt] = 3;} else if (old_sta == 4) {					// 运算符号sign[cnt] = 4;}cnt++;
//			statu = 0;statu = 1;old_sta = statu;statu = integerDFA[statu][checknum];cmd[cnt][num] = *p;num++;// 因为7是calculate 在标识符而来,所以*p一定是标识符,就一定不是边界//				printf("检测保留字与运算符\n");// 发现利用状态机分词后可以根据保留字判断后续词语。} else if (statu == 8) {printf("ERROR 有非法字符\n");}p++;} while (*p != '\0');// 选状态checknum =	transchar(p);printf("%c\n", *p);
//	printf("%d\n", checknum);old_sta = statu;statu = integerDFA[statu][checknum];
//	printf("%d\n", statu);// 字符写入cmd[cnt][num] = *p;num++;										// 用于最后循环结束判断是否分词if (statu == 5) {							// 边界cmd[cnt][num] = '\0';					// 填充printf("--%s--\n", cmd[cnt]);sign[cnt] = 5;							// 字符存储记录为边界符号cnt++;									// 下一个字符num = 0;statu = 1;old_sta = 1;} else if (statu == 6) {					// 要复位num--;cmd[cnt][num] = '\0';printf("%d\n", old_sta);printf("--%s--\n", cmd[cnt]);num = 0;if (old_sta == 2) {							// 字母sign[cnt] = 2;} else if (old_sta == 3) {					// 数字sign[cnt] = 3;} else if (old_sta == 4) {					// 运算符号sign[cnt] = 4;} else if (old_sta == 1) {sign[cnt] = 99;} else if (old_sta == 5) {sign[cnt] = 100;}cnt++;statu = 1;old_sta = 1;} else if (statu == 7) {num--;cmd[cnt][num] = '\0';printf("--%s--\n", cmd[cnt]);num = 0;if (old_sta == 2) {							// 字母sign[cnt] = 2;} else if (old_sta == 3) {					// 数字sign[cnt] = 3;} else if (old_sta == 4) {					// 运算符号sign[cnt] = 4;}cnt++;statu = 1;old_sta = 1;} else if (statu == 8) {printf("ERROR 有非法字符\n");num = 0;} else if (statu == 1) {printf("回复原样\n");num = 0;}//	num=0;}void init_cmd() {for (int i = 0; i < lenth; i++) {cmd[i] = new char[200];}// 分词存储先清空杂乱数据for (int i = 0; i < lenth; i++) {for (int j = 0; j < 200; j++) {cmd[i][j] = '\0';}}cnt = 0;num = 0;
}void init_statu() {statu = 1;old_sta = 1;
}int find_reserve(char* str) {for (int i = 0; i < have; i++) {if (strcmp(str, ident[i]) == 0) {return 1;}}return -1;
}int find_calculate(char* str) {for (int i = 0; i < 11; i++) {if (strcmp(str, calculate[i]) == 0) {return i;}}return -1;
}int find_borad(char* str) {for (int i = 0; i < 5; i++) {if (strcmp(str, board[i]) == 0) {return i;}}return -1;
}int main() {fp = fopen("input.txt", "r");fa2 = fopen("output.txt", "w");init_cmd();init_statu();//	分割词语
//	while (fgets(str, 200, fp) != NULL) {// 利用scanf 读取吸收回车,而希冀里不能执行   '\n'的比较while (fscanf(fp, "%s", str) != EOF) {// 处理回车,有些回车读取会影响代码结果if (str[0] == '\n' && strlen(str) == 1) {continue;} else if (str[strlen(str) - 1 ] == '\n') {					//			发现文末回车str[strlen(str) - 1 ] = '\0';}// 剥离成函数使用check(str);}//	对每个单词进行检查// 这样解决不知道什么时候根据状态进行结束的问题。字符连续,没有字符了就根据状态给结论。for (int i = 0; i < cnt; i++) {//		printf("%d\n", i);
//		printf("--%s--\n", cmd[i]);
//		printf("%d\n", sign[i]);if (sign[i] == 2) {									// 如果是字母打头的if (find_reserve(cmd[i]) != -1) {printf("( %ssym, %s )\n", cmd[i], cmd[i]);} else {printf("( IDENT, %s )\n", cmd[i]);}} else if (sign[i] == 3) {							// 如果是数字打头的printf("( NUMBER, %s )\n", cmd[i]);} else if (sign[i] == 4) {int a = 0;a = find_calculate(cmd[i]);if (a != -1) {
//				printf("%d", a);printf("( %s, %s )\n", calcu[a], cmd[i]);} else {printf("非法的运算符 --%s--\n", cmd[i]);}} else if (sign[i] == 5) {int a = 0;a = find_borad(cmd[i]);if (a != -1) {printf("( %s, %s )\n", boardname[a], cmd[i]);} else {printf("非法的边界符号 --%s--\n", cmd[i]);}}if (sign[i] == 2) {									// 如果是字母打头的if (find_reserve(cmd[i]) != -1) {fprintf(fa2,"( %ssym, %s )\n", cmd[i], cmd[i]);} else {fprintf(fa2,"( IDENT, %s )\n", cmd[i]);sign[i]=22;									// 标记为自定义的标识符号}} else if (sign[i] == 3) {							// 如果是数字打头的fprintf(fa2,"( NUMBER, %s )\n", cmd[i]);} else if (sign[i] == 4) {int a = 0;a = find_calculate(cmd[i]);if (a != -1) {
//				printf("%d", a);fprintf(fa2,"( %s, %s )\n", calcu[a], cmd[i]);} else {fprintf(fa2,"非法的运算符 --%s--\n", cmd[i]);}} else if (sign[i] == 5) {int a = 0;a = find_borad(cmd[i]);if (a != -1) {fprintf(fa2,"( %s, %s )\n", boardname[a], cmd[i]);} else {fprintf(fa2,"非法的边界符号 --%s--\n", cmd[i]);}}//		fprintf(fa2, "(%d,%s)\n", cmd[i], sign[i]);}fclose(fa2);fclose(fp);return 0;
}

 

效果


http://www.ppmy.cn/news/1583411.html

相关文章

pyqt5报错:qt.qpa.plugin: Could not find the Qt platform plugin “xcb“(已解决)

我在使用pyqt库的时候报错&#xff1a; qt.qpa.plugin: Could not load the Qt platform plugin "xcb" in \ "/mnt/private_disk/anaconda3/envs/aot-manip/lib/python3.8/site-packages/PyQt5/Qt5/plugins/platforms" even though it was found. This ap…

用Python爬取图片的两种姿势:从静态到动态的完整攻略(二)

一、前言 在前文中,我们详细介绍了 BeautifulSoup 这一工具。在处理静态数据爬取任务时,它确实展现出了快捷、方便的特性,能够高效地完成相关工作。然而,当前市面上诸多规范运营的网站,为了保障自身数据安全与运营秩序,纷纷采取了一系列反爬虫措施。 这些措施不仅涵盖了…

探索未来世界:元宇宙、虚拟现实与增强现实的交互新体验

在数字化浪潮不断推进的今天&#xff0c;元宇宙、虚拟现实&#xff08;VR&#xff09;和增强现实&#xff08;AR&#xff09;正以其独特的魅力吸引着全球的关注。这些技术不仅颠覆了传统的交互方式&#xff0c;还为游戏、教育、社交和商业等领域带来了全新的体验和无限可能。本…

C++语法学习的主要内容

科技特长生方向&#xff0c;主要学习的内容为 一&#xff0c;《C语法》 二&#xff0c;《数据结构》 三&#xff0c;《算法》 四&#xff0c;《计算机基础知识》 五&#xff0c;《初高中的数学知识》 其中&#xff0c;《C语法》学习的主要内容如下: 1,cout输出语句和键盘…

保姆级教程搭建企业级智能体+私有知识库,Dify+ollama,Linux版

介绍 目前&#xff0c;AI Agent智能体已经被许多公司广泛应用&#xff0c;同时智能体借助私有知识库的加成&#xff0c;使原来知识面并不特别充分的大模型更聪明。如今特别是在医疗&#xff0c;医药&#xff0c;政企等数据保密程度高的行业&#xff0c;部署自己的私有知识库更…

SQL注入简介

SQL注入初步了解 什么是SQL注入SQL注入原理SQL注入方法确定三件事&#xff1a;方法 SQL注入危害 什么是SQL注入 SQL 注入&#xff08;SQL Injection&#xff09;是一种常见的 Web 安全漏洞&#xff0c;攻击者通过构造恶意的 SQL 查询语句&#xff0c;欺骗后端数据库执行非预期…

亮相AWE2025,MOVA以科技重塑生活,以美学沟通世界

3月20日-23日&#xff0c;全球三大消费电子盛会之一的中国家电消费电子博览会&#xff08;AWE2025&#xff09;在上海新国际展览中心举行。 据「TMT星球」了解&#xff0c;全球高端智能家电品牌MOVA携智慧生活全品类重磅亮相&#xff0c;带来了包括扫地机、洗地机、吸尘器、厨…

LeetCode 86 Partition List 分区链表 Java

题目&#xff1a;给定一串链表的起始节点head和一个数值x&#xff0c;将链表中所有比X值小的节点放在比X值大的节点的前面&#xff0c;除此之外&#xff0c;要求保持原有的节点排序不变。 例子&#xff1a; 举例1&#xff1a; 输入 &#xff1a;head [1,4,3,2,5,2], x 3; …