js unicode编码相关

ASCII码

在计算机种中，1 字节对应 8 位二进制数，而每位二进制数有 0、1 两种状态，因此 1 字节可以组合出 256 种状态。如果这 256 中状态每一个都对应一个符号，就能通过 1 字节的数据表示 256 个字符。ASCII就是用于描述英语中的字符和这 8 位二进制数的对应关系。

ASCII 码一共定义了 128 个字符，例如大写的字母 A 是 65（这是十进制数，对应二进制是0100 0001）。这 128 个字符只使用了 8 位二进制数中的后面 7 位，最前面的一位统一规定为 0。

ASCII编码范围0x00-0x7F，即十进制的0-127，定义了128个单字节字符

0 - 31 及 127（共33个）是控制字符或通信专用字符(不可显示，其他都是可显示字符)
32 是空格
33 - 47，58 - 64，91 - 96，123 - 126 是字符（@#$%^/= 之类的）
48~57为0到9十个阿拉伯数字
65~90为26个大写英文字母
97~122号为26个小写英文字母

后128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展(或"高")ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号，扩展ASCII不再是国际标准。

查询ASCII技巧：
新建一个txt文档，按住ALT键 + 要查询的码值（十进制），松开就会显示对应字符。例如:按住ALT+97,则会显示出a

Unicode

由于扩展ASCII并非标准，同时亚洲语言有更多的字符需要被存储，一个字节显然不够用，需要2个字节。为了定义一种标准方案来展示世界上所有语言中的字符，最终诞生了Unicode。

Unicode基本上包含了世界上所有的语言字符。但它仅仅是一个字符集，把世界上所有能出现的字符，都为其分配一个数字来表示。

比如中这个字对应的二进制数是"100111000101101"，有15位，说明至少需要2个字节。可以想象，在 Unicode 字典中往后的字符可能就需要 3 个字节或者 4 个字节，甚至更多字节来表示了。到目前最新版本Unicode15.0.0的字符数已到了149186个。但是计算级怎么确认这两个字节是表示一个字符而不是两个（N-）字符呢？第二个问题是，Unicode是按照ASCII编码规范对英文及"半角"字符进行编码的，意味着只需要一个字节就行，如果Unicode同意规定，每个符号都用3、4个字节表示，那么每个英文及"半角"字符前必然有2、3个字节都是0，这对于存储空间来说是极大的浪费，文本文件的大小会因此大出二三倍，这是难以接受的。

Unicode在很长一段时间内无法推广，直到互联网的出现，为解决Unicode如何在网络上传输的问题，定义了UTF（UCS Transfer Format）标准，我们熟悉的UTF-8就是每次8位传输数据，UTF-16就是每次16位。当然还有一个 UTF-32 的编码方式，也就是上述那种定长编码，字符统一使用 4 个字节，虽然看似方便，但是却不如另外两种编码方式使用广泛。

UTF-8

UTF-8就是在互联网上使用最广的一种Unicode的实现方式，这是为传输而设计的编码，并使编码无国界，这样就可以显示全世界上所有文化的字符了。UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1 ~ 4个字节表示一个符号，根据不同的符号而变化字节长度，当字符在ASCII码的范围时，就用一个字节表示，保留了ASCII字符一个字节的编码做为它的一部分，注意的是Unicode一个中文字符占2个字节，而UTF-8一个中文字符占3个字节）。从Unicode到UTF-8并不是直接的对应，而是要过一些算法和规则来转换。

UTF-8编码规则：

对于单字节字符，第一位设为0，后面的 7 位对应这个字符的 Unicode 码点。因此，对于英文中的 0 - 127 号字符，与 ASCII 码完全相同。
对于需要使用N（N > 1）字节的字符，第一个字节的前N位都设置为1，第N + 1位设置为0，剩余的N - 1个字节的前两位都设为10，剩下的二进制位则使用这个字符的 Unicode 码点来填充.

`Unicode`符号范围(十六进制)	`UTF-8`编码方式（二进制）
0000 0000-0000 007F	0xxxxxxx
0000 0080-0000 07FF	110xxxxx 10xxxxxx
0000 0800-0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8 编码 DEMO：
中这个字对应Unicode码点是0x4e2d（通过'中'.charCodeAt().toString(16)获取），从上面的表可以看到处于第三行中，那么可以得出格式为1110xxxx 10xxxxxx 10xxxxxx，从中的二进制数（100111000101101）最后一位开始，从后向前依次填充对应格式中的 x，多出的 x 用 0 补上。这样，就得到了中的 UTF-8 编码为 11100100 10111000 10101101，转换成十六进制就是 0xE4 0xB8 0xAD。

解码的过程也十分简单：如果一个字节的第一位是 0 ，则说明这个字节对应一个字符；如果一个字节的第一位1，那么连续有多少个 1，就表示该字符占用多少个字节.

js本身可通过charCodeAt方法得到一个字符的Unicode编码（返回值是 0 - 65535 之间的整数），并通过fromCharCode方法将Unicode编码转换成对应字符.
Web要求URL的查询字符串采用UTF-8编码，对于一些特殊字符或者中文等，会编码成多个字节，变成%加相应16进制码的形式。比如：汉字 中 将会被编码为%E4%B8%AD。为此js提供了encodeURIComponent与decodeURIComponent方法组合来对查询字符串进行编码与解码。
function encodeUtf8(text) {const code = encodeURIComponent(text);const bytes = [];for (var i = 0; i < code.length; i++) {const c = code.charAt(i);if (c === '%') {const hex = code.charAt(i + 1) + code.charAt(i + 2);const hexVal = parseInt(hex, 16);bytes.push(hexVal);i += 2;} else bytes.push(c.charCodeAt(0));}return bytes;
}// 将每一字节都转换成%加16进制数字的表示形式，再通过decodeURIComponent方法解码，即可得到相应的字符串
function decodeUtf8(bytes) {var encoded = "";for (var i = 0; i < bytes.length; i++) {encoded += '%' + bytes[i].toString(16);}return decodeURIComponent(encoded);
}

UTF-16

UTF-16以2或者4个字节编码表示Unicode字符。

Unicode字符集中，000000-00FFFF表示的字符，在UTF-16中用2字节直接编码表示，不需要编码转换，这点和UTF-32一样（这里有点需要说明一下， U+D800 到 U+DFFF 是一个空段，即这些码点不对应任何字符，4字节需要用到）

010000-10FFFF表示的字符，在UTF-16中用4字节编码表示，但是需要进行编码转换。比如010000-10FFFF中的某个字符X的Unicode编码为AAAA AAAA AABB BBBB BBBB，分为高10位和低10位，高10位加上高位代理位D8（110110），低10位加上低位代理位DF（110111）,即组成字符X的UTF-16编码110110AAAAAAAAAAA 110111BBBBBBBBBB