常见的几种编码方式

常见的编码方式及其特点：

编码方式的设计是为了适应不同的字符集和应用需求，因此它们在表示字符时使用的位数和字节数各不相同

常见编码方式及其位数和字节数
- ASCII（American Standard Code for Information Interchange）：
  - 位数：7位
  - 字节数：1字节（8位，但最高位固定为0）
  - 字符范围：128个字符（包括英文字母、数字、标点符号和控制字符）
- ISO 8859-1（Latin-1）：
  - 位数：8位
  - 字节数：1字节
  - 字符范围：256个字符（包括西欧语言的字符）
- GB2312：
  - 位数：16位
  - 字节数：2字节
  - 字符范围：6763个汉字及其他字符（主要用于简体中文）
- BIG5：
  - 位数：16位
  - 字节数：2字节
  - 字符范围：13053个汉字及其他字符（主要用于繁体中文）
- Unicode：
  - 位数：16位或32位
  - 字节数：2字节或4字节（具体取决于编码方式）
  - 字符范围：几乎所有已知字符（涵盖全球所有语言）
- UTF-8（Unicode Transformation Format - 8-bit）：
  - 位数：8位到32位
  - 字节数：1到4字节（变长编码）
  - 字符范围：所有Unicode字符
    - 1字节（7位）：用于ASCII字符（0x00 - 0x7F）
    - 2字节（11位）：用于扩展字符（0x80 - 0x7FF）
    - 3字节（16位）：用于基本多文种平面（BMP）字符（0x800 - 0xFFFF）
    - 4字节（21位）：用于补充字符（0x10000 - 0x10FFFF）
- UTF-16（Unicode Transformation Format - 16-bit）：
  - 位数：16位或32位
  - 字节数：2字节或4字节
  - 字符范围：所有Unicode字符
    - 2字节（16位）：用于基本多文种平面（BMP）字符（0x0000 - 0xFFFF）
    - 4字节（32位）：用于补充字符（0x10000 - 0x10FFFF）
- UTF-32（Unicode Transformation Format - 32-bit）：
  - 位数：32位
  - 字节数：4字节
  - 字符范围：所有Unicode字符（直接使用32位表示）

为什么UTF-8可以编码 中文，而其他的编码方式不行？

原理解释：

ASCII：只有128个字符，不可能表示中文这样的复杂字符。
ISO 8859-1：扩展到256个字符，但主要用于西欧语言字符，不包括中文。
GB2312 和 BIG5：这两种编码方式是专门为中文设计的，但它们有各自的局限性，不能表示所有的中文字符。
Unicode：它是一个统一的编码标准，包含了全球所有已知的字符。Unicode为每个字符分配一个唯一的编码点（code point），例如“中”字的编码点是U+4E2D。
UTF-8：
- UTF-8是Unicode的一种实现方式，它使用可变长度的字节来编码字符。
- 对于中文字符，UTF-8通常使用3个字节表示。UTF-8的第一个字节的高位部分指示了该字符需要的总字节数。例如，一个中文字符的第一个字节的高位部分可能是1110xxxx，这表示需要三个字节。后面的两个字节的高位部分是10xxxxxx，表示这是一个多字节字符的一部分。
- 这种可变长度的设计使得UTF-8可以非常高效地编码各种语言的字符，同时保持对ASCII的兼容性。

详细原理：

中文汉字在UTF-8 编码中通常是三个字节，但这并不是绝对的。具体来说，UTF-8 编码的长度取决于字符的Unicode编码点范围。下面是UTF-8 编码的基本规则：
单字节字符（0x00 - 0x7F）：1字节，最高位为0。例如，ASCII字符“a”编码为0x61。
双字节字符（0x80 - 0x7FF）：2字节，第一个字节为110xxxxx，第二个字节为10xxxxxx。
三字节字符（0x800 - 0xFFFF）：3字节，第一个字节为1110xxxx，后两个字节为10xxxxxx。
四字节字符（0x10000 - 0x10FFFF）：4字节，第一个字节为11110xxx，后三个字节为10xxxxxx。

总结

大多数中文汉字在UTF-8中是三个字节，

但对于超过基本多文种平面的汉字，则需要使用四个字节表示。UTF-8通过这种可变长度的设计，能够有效地表示包括中文在内的所有Unicode字符。

大多数常用的中文汉字的Unicode编码点范围在0x4E00到0x9FFF之间，因此在UTF-8中表示为三个字节。例如，“中”字的Unicode编码是U+4E2D，在UTF-8中编码为E4 B8 AD。

然而，也有一些特殊的汉字或者罕见的汉字，它们的Unicode编码点超出了0xFFFF，需要使用四个字节来表示。以下是几个例子：

例子1：“𠀀”（CJK扩展B区第一个字符）

Unicode编码：

“𠀀”字的Unicode编码是U+20000。

转换为二进制：

20000（十六进制）转换为二进制是0010 0000 0000 0000 0000。

根据UTF-8的编码规则进行分组：

UTF-8编码四字节格式：
- 第一个字节：11110xxx
- 第二个字节：10xxxxxx
- 第三个字节：10xxxxxx
- 第四个字节：10xxxxxx

应用到“𠀀”字的二进制表示：

将0010 0000 0000 0000 0000分配到UTF-8的四个字节中：
- 第一个字节：1111 0000
- 第二个字节：1010 0000
- 第三个字节：1000 0000
- 第四个字节：1000 0000

最终UTF-8 编码表示：

第一个字节：11110000 (F0)
第二个字节：10100000 (A0)
第三个字节：10000000 (80)
第四个字节：10000000 (80)

c++ String

C++ 的 std::string 是一个通用的字符串容器，它本身并不依赖于特定的字符编码。这种设计使得 std::string 可以存储不同编码的字符串。下面详细解释其中的原因和机制。

`std::string` 的设计

字节序列容器：
- std::string 本质上是一个字节序列的容器，可以存储任意的字节数据。
- 它不关心这些字节数据的具体含义，这使得它可以存储不同编码的字符串。
字符编码无关性：
- std::string 并不强制要求字符串使用特定的编码。
- 可以将任何编码的字符数据（如ASCII、UTF-8、ISO 8859-1等）存储在 std::string 中。
灵活的内存管理：
- std::string 使用动态内存管理，可以灵活地调整其容量以适应存储的字符数据。
- 这使得它可以存储从短的ASCII字符串到长的多字节编码字符串（如UTF-8）。

#include <iostream>
#include <string>int main() {// ASCII编码的字符串std::string ascii_str = "Hello, World!";std::cout << "ASCII: " << ascii_str << std::endl;// UTF-8编码的字符串std::string utf8_str = u8"你好，世界！";std::cout << "UTF-8: " << utf8_str << std::endl;// ISO 8859-1编码的字符串std::string iso8859_1_str = "\xA1\xA2\xA3";std::cout << "ISO 8859-1: " << iso8859_1_str << std::endl;return 0;
}

`std::wstring` 和宽字符

对于需要处理Unicode字符的应用，C++还提供了宽字符字符串类型 std::wstring。std::wstring 使用 wchar_t 类型存储字符，每个字符的大小依赖于具体实现（通常是2或4字节），可以更方便地处理多字节编码的字符数据，如UTF-16。

#include <iostream>
#include <string>int main() {// UTF-16编码的宽字符字符串std::wstring utf16_str = L"你好，世界！";std::wcout << L"UTF-16: " << utf16_str << std::endl;return 0;
}

编码转换

在实际应用中，可能需要在不同编码之间进行转换。C++11及之后的标准库提供了 codecvt 来支持字符编码转换。

#include <iostream>
#include <string>
#include <locale>
#include <codecvt>int main() {// UTF-8 to UTF-16std::string utf8_str = u8"你好，世界！";std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> converter;std::wstring utf16_str = converter.from_bytes(utf8_str);std::wcout << L"UTF-16: " << utf16_str << std::endl;// UTF-16 to UTF-8std::string utf8_converted = converter.to_bytes(utf16_str);std::cout << "UTF-8: " << utf8_converted << std::endl;return 0;
}

总结

std::string 是一个通用的字节序列容器，可以存储不同编码的字符串，因为它本质上是存储字节数据而不是特定的字符编码。
std::wstring 提供了处理宽字符的支持，适用于多字节编码的字符数据。
对于字符编码的转换和处理，需要使用适当的工具和库，例如 codecvt。