从数据展示中汉字缺失了解字符编码知识

news/2024/11/15 4:57:07/

有人在使用皕杰报表时遇到如下问题:
在这里插入图片描述

有些汉字变成了“?”,这是为什么呢?实际上就是你用的字符集里没有这个汉字导致的,要想搞懂这个问题,还得从字符、字符集、字符编码说起。
所谓字符,就是各种文字和符号的总称。
所谓字符集,就是很多字符组成的集合。
所谓编码,就是通过一定的映射规则将字符表示成计算机中的数据以编码和存储。
由于映射规则不同,所以字符的编码不是唯一的,于是就产生了各种各样的字符集,但这些字符集有相通的部分,那就是都兼容ASCII字符集。
在这里插入图片描述

ASCII是最基本的英文字符集,是计算机的基础。ASCII中每个字符占用一个字节的后面7位,最前面的1位统一规定为0。在ASCII编码中,共有128个字符,其中0~31 是控制字符如换行回车删除等,32~126 是可打印字符,可以通过键盘输入并且能够显示出来。
下面就学习一下常用的字符集:
一、 iso8859字符集
iso8859字符集实际上是ASCII码 的扩展,称为EASCII(Extended ASCII)。在EASCII中表示的256个字符中,前128字符和ASCII编码表示的字符完全一样,后128个字符由欧洲各个国家或地区定义自己的编码标准。
根据这个规则,就形成了一系列标准:ISO-8859-1、ISO-8859-2、ISO-8859-3、……、ISO-8859-16。这些子标准适用于欧洲不同的国家地区,例如:
ISO8859-1 字符集,也就是 Latin-1,是西欧常用字符,包括德法两国的字母。
ISO8859-2 字符集,也称为 Latin-2,收集了东欧字符。
ISO8859-3 字符集,也称为 Latin-3,收集了南欧字符。
其它具体是哪个国家的标准请自行查询。
二、 Unicode字符集
Unicode是由Unicode联盟开发的一种字符编码方案,旨在通过对所有人类语言中的字符进行编码,实现跨平台、跨应用程序和跨语言的数据交换。Unicode字符集是一个很大的字符集合,包含了全世界所有的字符。Unicode只是一个字符集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何编码如何存储。于是出现了三种编码规则,分别用1到4个字节,2个字节以及4个字节表示一个字符,对应的编码是utf-8,utf-16,utf-32。
Utf-8是一种针对Unicode的可变长度字符编码规则,又称万国码,用1到4个字节编码Unicode字符。其编码规则为:
1、对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2、对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。
Unicode符号范围 | UTF-8编码方式
UTF字节数 (十六进制) | (二进制)
一个字节 0000 0000-0000 007F | 0xxxxxxx
两个字节 0000 0080-0000 07FF | 110xxxxx 10xxxxxx
三个字节 0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
四个字节 0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
Utf-8编码巧妙地运用开头n位字符表示出是由几个字节组成的编码,0开头的是一个字节编码,11开头的是2个字节编码,111开头是三个字节编码,1111开头是四个字节编码。
utf-16固定用两个字节来表示一个编码。
utf-32固定用四个字节来表示一个编码。
由于这两种编码在报表里比较少使用,这里就不多说明了。
三、 中文字符集
主要是GB2312、GBK、GB18030字符集,字符集的名称同时也是编码的名称。
1、GB2312
GB2312是我国对ASCll码的扩展,占用两个字节。GB2312编码是第一个汉字编码国家标准,共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。同时,GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
2、GBK
GBK是对GB1212的扩展,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。
3、GB18030
GB18030采用变长编码,可以是1个字节、2个字节和4个字节。是对GB2312和GBK的扩展,完全兼容两者。
在皕杰报表中如果遇到有的汉字显示不了,并不是报表的问题,一定是你使用的编码中汉字不全造成的。换一个汉字比较全的编码即可,采用utf-8或GB18030基本可以解决中文不全问题。


http://www.ppmy.cn/news/42949.html

相关文章

不服不行!盘点那些编程界的天才少年,11岁参加国际比赛,靠奖金赚了40万美金

程序员是一项专业性极强的工作,需要很强的思维能力和动手能力,所以大多数程序员要比普通人更聪明,与其他职业相比,程序员应该是最爱学习的一行了。科技网络的发展太快,新的技术层出不穷,时刻都要更新自己的…

【BAT】查询局域内所有的IP

【BAT】查询局域内所有的IP 在企业或家庭网络中,经常需要查询局域网内所有的 IP 地址。以下是一些方法可以帮助你实现这个目标: 使用 ping 命令 在 Windows 命令行中,可以使用 ping 命令向局域网中的所有主机发送 ICMP 请求,并…

Java基础——Map集合遍历方式

&#xff08;1&#xff09;方式一&#xff1a;键找值 先获取Map集合的全部键的Set集合。遍历键的Set集合&#xff0c;然后通过键提取对应值。 涉及API&#xff1a; 方法名称说明Set<K> keySet()获取所有键的集合V get(Object key)根据键获取值 &#xff08;2&#xff0…

【Python】Json读写操作_JsonPath用法详解

【Python】Json读写操作_JsonPath用法详解 文章目录【Python】Json读写操作_JsonPath用法详解1. 介绍2. 代码示例3. 参考1. 介绍 JSONPath是一种信息抽取类库&#xff0c;是从JSON文档中抽取指定信息的工具&#xff0c;提供多种语言实现版本&#xff0c;包括Javascript、Pytho…

[Gitops--1]GitOps环境准备

GitOps环境准备 1. 主机规划 序号主机名主机ip主机功能软件1dev192.168.31.1开发者 项目代码 apidemogit,golang,goland2gitlab192.168.31.14代码仓库,CI操作git-lab,git,golang,docker,gitlab-runner3harbor192.168.31.104管理和存储镜像docker,docker-compose,harbor4k8s-m…

【特别策划】2022年银行年报金融科技系列专题(二)

易观&#xff1a;近年来&#xff0c;金融科技领域发展迅速&#xff0c;银行业通过人工智能、区块链、云计算、大数据和物联网等技术手段建立覆盖零售和对公业务的数字化经营体系&#xff0c;推动金融发展提质增效。在这样一个大背景下&#xff0c;各大城商行和农商行纷纷根据区…

智慧校园人员定位系统解决方案

人员定位是安全管理中最重要的一个环节&#xff0c;尤其是石化、矿业、电力、建筑等高危行业&#xff0c;人员安全管理更是重中之重&#xff0c;除了工业领域&#xff0c;其它领域也需要人员安全管理&#xff0c;比如&#xff1a;学校、医院、养老院、物业、环卫等。下面我们以…

java跨域问题

什么是跨域&#xff1f; 跨域是指从一个域名的网页去请求另一个域名的资源。比如从www.baidu.com页面去请求www.google.com的资源。但是一般情况下不能这么做&#xff0c;他是由浏览器的同源策略造成的&#xff0c;是浏览器对JavaScript施加的安全限制。 跨域的严格定义是&…