Golang笔记——rune和byte

news/2025/1/13 9:02:33/

大家好,这里是Good Note,关注 公主号:Goodnote,专栏文章私信限时Free。本文详细介绍Golang中的两种字符类型rune和byte,介绍他们的区别,编码方式和简单的使用。

在这里插入图片描述

文章目录

      • `byte` 类型
      • `rune` 类型
      • UTF-8 与 Unicode 的关系
      • byte和rune的主要区别
      • Go的默认编码方式
      • 遍历方式
        • 遍历 `byte`
        • 遍历 `rune`
        • 补充
      • 字符还原
        • 从 `byte` 序列还原字符串
        • 从 `rune` 序列还原字符串
    • 历史文章
      • MySQL数据库
      • Redis
      • Golang

在Go语言中,runebyte都是表示单个字符的类型,但它们有一些关键的区别。

byte 类型

byteuint8 的别名,即一个 8 位无符号整数,表示一个字节,范围是 0 到 255。

  • byte 用于表示 UTF-8 编码中的 字节,适合处理字节流和 ASCII 字符。

字符占用字节数:

  • ASCII 字符(0-127)占用 1 字节。
  • 常见的字符,如拉丁字母、标点符号,占用 1 字节。
  • 中文等非 ASCII 字符会占用 3 字节。

byte 表示:字符串 "你",它在 Go 中的 UTF-8 编码是 0xE4, 0xBD, 0xA0(十六进制)。

s := "你"
for i := 0; i < len(s); i++ {fmt.Printf("byte at index %d: %d\n", i, s[i])
}

输出:

byte at index 0: 228
byte at index 1: 189
byte at index 2: 160

rune 类型

runeint32 的别名,即一个 32 位有符号整数,用于表示一个 Unicode 字符。Go中所有字符(包括 ASCII 和 Unicode 字符)都是以 rune 类型表示的,范围是 0 到 0x10FFFF。

  • rune 用于表示 Unicode 字符,它表示字符的 编码点,适合处理字符操作,尤其是涉及 Unicode 字符(如中文、表情符号等)。

rune 表示:

s := "你"
for _, c := range s {fmt.Printf("rune: %c, rune value: %d\n", c, c)
}

输出:

rune: 你, rune value: 20320

这表示 "你" 的 Unicode 编码点(20320,即 0x4F60)被 rune 类型存储。

UTF-8 与 Unicode 的关系

  • Unicode 是字符集,而 UTF-8 是 Unicode 字符集的编码方式之一。Unicode 定义了所有字符的编码点,但它并没有规定字符如何存储和传输。为了实现跨平台和跨语言的兼容,UTF-8 被定义为一种将 Unicode 编码点转换为字节序列的方式。除了 UTF-8 外,还有 UTF-16 和 UTF-32。
  • 联系
    • Unicode 为每个字符分配一个编码点(一个数字)。
    • UTF-8 通过不同长度的字节序列来编码这些 Unicode 编码点,使得它们可以被存储在文件中、传输通过网络、显示在屏幕上等。

byte和rune的主要区别

特性byterune
类型uint8 (8-bit unsigned int)int32 (32-bit signed int)
用途处理 ASCII 或字节数据处理 Unicode 字符
表示范围0 到 2550 到 0x10FFFF
常见应用字节流、ASCII字符Unicode字符(包括多字节字符)
存储大小1 字节4 字节
字符集支持仅支持 ASCII 字符支持所有 Unicode 字符

Go的默认编码方式

Go 字符串默认的编码方式是 UTF-8 。所以默认使用 byte 序列来表示字符串中的每个字符。

具体来说,Go 中的字符串(string 类型)是由 UTF-8 编码的字节序列 组成的。因此:

  • 一个 Go 字符串是由多个字节(byte)组成的,每个字节都是 UTF-8 编码的一个字符。
  • 这些字节遵循 UTF-8 编码,Go 字符串既可以包含 ASCII 字符(这些字符在 UTF-8 中占用 1 个字节),也可以包含多字节的 Unicode 字符(如中文字符,这些字符在 UTF-8 中通常占用 3 个字节)。
s := "a"
fmt.Print("占用字节数:", len(s))
fmt.Printf(";类型:%T  ", s[0])
fmt.Println()
s1 := "你"
fmt.Print("占用字节数:", len(s1))
fmt.Printf(";类型:%T  ", s1[0])

输出:

占用字节数:1;类型:uint8  
占用字节数:3;类型:uint8  

遍历方式

遍历 byte

bytes := []byte(s)可以直接将字符串转为byte,当然也可以遍历:

  • 使用 for i := 0; i < len(s); i++,每次迭代都可以访问字符串中的每个字节。
  • len(s) 返回字符串的 字节数(byte),即字符串中包含的字节总数,而不是字符的数量。对于一个包含多字节字符(如中文字符)的字符串,len(s) 返回的是字符串所占用的字节数。
package mainimport "fmt"func main() {s := "你" // 包含中文字符// 按字节遍历字符串fmt.Println("按字节遍历字符串:")for i := 0; i < len(s); i++ {fmt.Printf("s[%d] = %v (类型: %T)\n", i, s[i], s[i]) // 输出每个字节的值}
}

输出:

按字节遍历字符串:
s[0] = 228 (类型: uint8)
s[1] = 189 (类型: uint8)
s[2] = 160 (类型: uint8)
遍历 rune

runes := []rune(s)可以直接将字符串转为rune,当然也可以遍历:

  • 使用 for _, c := range s 遍历字符串时,Go 会自动将字符串 s 中的每个字符解码成 rune 类型,这样即使字符是多字节的,也能正确处理。

  • range 遍历字符串时,按 字符(rune) 进行迭代。每次迭代返回一个 Unicode 码点(rune) 和该字符在字符串中的索引。对于多字节字符,range 会自动跳过这些字节,按字符来迭代。

package mainimport "fmt"func main() {s := "你"// len(s) 返回字节数fmt.Println("len(s) =", len(s)) // 输出:3,因为“你”是由 3 个字节表示// 使用 range 遍历字符串,按字符(rune)遍历fmt.Println("使用 range 遍历字符串,按字符(rune)遍历:")for i, r := range s {fmt.Printf("i = %d, r = %v (类型: %T)\n", i, r, r)}
}

输出:

len(s) = 3
使用 range 遍历字符串,按字符(rune)遍历:
i = 0, r = 20320 (类型: int32)
补充

for i := range s 的 s[i] 其实也是byte,但是处理中文时候会存在问题。

  • 当你使用for i := range s 处理英文字符串的时候,可能不会有问题,因为英文字符(ASCII 字符)在 UTF-8 编码中是单字节表示的,所以每个字符正好对应一个字节。

  • 但是如果字符串中包含非英文字符(如中文、表情符号等),它们通常会占用多个字节。在这种情况下。使用for i := range s 就会发现问题,range 会按照字符(rune)进行遍历,统计的数量是字符数(rune)【如下只有1个】,而不是字节数(byte)【一个中文,应该是对应3个字节】。

package mainimport "fmt"func main() {s := "你" // 字符串包含中文字符// 使用 range 遍历字符串fmt.Println("使用 range 遍历字符串:")for i := range s {fmt.Printf("s[%d] = %v (类型: %T)\n", i, s[i], s[i]) // 打印每个字节的值}
}

输出:

使用 range 遍历字符串:
s[0] = 228 (类型: uint8)

字符还原

要从 byte 序列或 rune 序列还原回原始字符串,你可以通过以下方式进行操作:

  • byte 序列还原字符串:可以直接使用 string(byteSlice)
  • rune 序列还原字符串:可以直接使用 string(runeSlice)
byte 序列还原字符串
package mainimport "fmt"func main() {s := "你好" // 字符串 "你好"// 将字符串转换成 rune 切片bytes := []byte(s)fmt.Println("bytes:", bytes)// 将 rune 切片转换回字符串s1 := string(bytes)fmt.Println("还原的字符串:", s1)
}
bytes: [228 189 160 229 165 189]
还原的字符串: 你好
rune 序列还原字符串
package mainimport "fmt"func main() {s := "你好" // 字符串 "你好"// 将字符串转换成 rune 切片runes := []rune(s)fmt.Println("runes编码:", runes)// 将 rune 切片转换回字符串s1 := string(runes)fmt.Println("还原的字符串:", s1)
}
runes编码: [20320 22909]
还原的字符串: 你好

历史文章

MySQL数据库

MySQL数据库

Redis

Redis数据库笔记合集

Golang

  1. Golang笔记——语言基础知识
  2. Golang笔记——切片与数组
  3. Golang笔记——hashmap

http://www.ppmy.cn/news/1562768.html

相关文章

OSPF - 特殊区域

OSPF路由器需要同时维护域内路由、域间路由、外部路由信息数据库。当网络规模不断扩大时&#xff0c;LSDB规模也不断增长。如果某区域不需要为其他区域提供流量中转服务&#xff0c;那么该区域内的路由器就没有必要维护本区域外的链路状态数据库。  OSPF通过划分区域可以减少网…

39_Lua选择结构语句

Lua语言提供了多种选择结构语句,用于根据不同的条件执行不同的代码块。在条件为true时执行指定程序代码,在条件为false时执行其他指定代码。以下是典型的流程控制流程图。 控制结构的条件表达式结果可以是任何值,Lua认为false和nil为假,true和非nil为真。要注意的是,Lua中…

java多线程场景2-多线程处理一个列表

概述 这是一个多线程处理一个文件列表的例子。通过这个例子模拟实际遇到的多线程处理列表的场景。process可以场景中处理每个元素的方法。 有6个函数。 fun1是最简单的遍历处理&#xff0c;需要55s。 fun2是用CompletionService线程池的方式处理&#xff0c;2s fun3是用CountD…

HarMonyOS 鸿蒙系统使用 Grid构建网格

网格布局是由“行”和“列”分割的单元格所组成&#xff0c;通过指定“项目”所在的单元格做出各种各样的布局。网格布局具有较强的页面均分能力&#xff0c;子组件占比控制能力&#xff0c;是一种重要自适应布局&#xff0c;其使用场景有九宫格图片展示、日历、计算器等。 Ar…

人工智能之数学基础:函数间隔和几何间隔

本文重点 在机器学习领域,尤其是支持向量机(SVM)算法中,函数间隔(Functional Margin)和几何间隔(Geometric Margin)是两个至关重要的概念。它们不仅用于描述数据点到超平面的距离,还直接影响到分类器的性能与泛化能力。本文将详细介绍这两个概念,并探讨它们之间的区…

3D机器视觉的类型、应用和未来趋势

3D相机正在推动机器视觉市场的增长。很多制造企业开始转向自动化3D料箱拣选&#xff0c;专注于使用3D视觉和人工智能等先进技术来简化操作并减少开支。 预计3D相机将在未来五年内推动全球机器视觉市场&#xff0c;这得益于移动机器人和机器人拣选的强劲增长。到 2028 年&#…

Cursor IDE是用什么语言开发出来的

极限&#xff1a;当x无限趋近于0时y的值无限趋近于1 极限&#xff1a;多边形无限趋近圆 Cursor IDE 是一款现代化的代码编辑器&#xff0c;基于 Visual Studio Code 的开源核心开发&#xff0c;因此它的主要开发语言和技术栈与 VS Code 非常相似。以下是 Cursor IDE 的核心开发…

道品科技智慧农业与云平台:未来农业的变革之路

随着全球人口的不断增长&#xff0c;农业面临着前所未有的挑战。如何在有限的土地和资源上提高农业生产效率&#xff0c;成为了各国政府和农业从业者亟待解决的问题。智慧农业的兴起&#xff0c;结合云平台的应用&#xff0c;为农业的可持续发展提供了新的解决方案。 ## 一、智…