3.3 字符串、字符和字节_Go语言学习指南：惯例模式与编程实践-QQ阅读中文历史网

上QQ阅读APP看书，第一时间看更新

3.3　字符串、字符和字节

我们已经讨论过切片了，接下来讨论字符串。你可能会认为Go中的字符串是由字符构成的，但事实并非如此。实际上Go使用一系列字节来表示字符串。这些字节并不一定使用特定的字符编码，但是有些Go标准库中的函数（以及我们会在下一章讨论的for-range循环）会假设字符串是由一系列UFT-8编码构成的。

　依照语言规范，Go的源代码编码格式始终为UTF-8。除非对字符串字面量使用十六进制转义，否则字符串字面量都是UTF-8格式。

与从数组或切片获取单个值的方式一样，通过索引表达式也可以从字符串中获取单个值：

与数组和切片一样，字符串的索引也是从零开始的。在这个代码示例中，b被赋值为s的第7个值，也就是t。

在数组和切片中使用的派生表达式也适用于字符串：

这会将“o t”赋值给s2，将“Hello”赋值给s3，将“there”赋值给s4。

虽然在Go中能方便地使用切片方式创建子字符串，并且使用索引获取部分数据，但操作时要仔细。字符串是不可变的，它并不会像切片和子切片一样有更新所导致的问题。不过有另外的问题，字符串是由一系列字节组成的，但是UTF-8的码位的长度为1～4个字节。我们之前的例子中的字符串都是由1个字节长的UTF-8码位组成的，所以结果符合预期。但是处理非英语或者表情符号时，你会遇到多字节UTF-8码位的情况：

在这个例子中，s3还是等于“Hello”。变量s4设置为太阳的表情。但是s2并不是“o”，而是“o”。这是因为我们只是拷贝了太阳表情码位的第一个字节，所以是无效的。

Go支持将一个字符串传递给内置的len函数以求得字符串的长度。由于字符串索引和切片表达式以字节为单位计算位置，所以返回的结果以字节为单位，而不是以码位为单位：

以上代码输出10，而不是7，这是因为太阳表情在UTF-8中是由4个字节表示的。

　虽然Go中支持对字符串使用派生和索引的用法，但是最好在已知字符串中的字符都仅占用1个字节时使用。

正因为字符、字符串和字节之间的复杂关系，Go在这些类型中包含一系列有趣的类型转换。一个字符或者字节可以转换为一个字符串：

　初学者经常犯的错误就是尝试将一个整型转换为一个字符串：

y的结果是“A”而不是“65”。从Go 1.15开始，go vet会阻止非字符或者字节类型转换为字符串类型。

字符串可以在字节类型切片或者字符类型切片中来回转换。尝试在The Go Playground（https://oreil.ly/N7fOB）中执行示例3-9。

示例3-9：将字符串转换为切片

执行代码后会得到以下结果：

第一行结果将字符串转换为一组UTF-8字节。第二行则将字符串转换为一组字符。

Go中的大部分数据都是作为字节序列进行读写的，所以一般都在字符串切片和字节切片之间进行转换。字符切片并不常见。

UTF-8

UTF-8是Unicode中最常用的一种编码。Unicode使用4个字节（32比特）来表示一个码位（字符和修饰符的术语名）。因此表示Unicode的最简单方式就是每个码位使用4个字节，称为UTF-32。由于浪费了大量的空间，所以这种方式并不常见。在Unicode的实现细节中，32比特中的11比特总是为零。另外一种常见的编码是UTF-16，使用一个或者两个16比特（2字节）序列表示每一个码位。这也比较浪费，世界上的大部分内容都是使用单个字节的码位编写的，这也是UTF-8的由来。

UTF-8编码很巧妙。它允许使用单个字节来表示所有Unicode中值小于128的字符（包含所有的字母、数字和英文中常用的标点），但是可以扩展为至多4个字节以表示更大的数。结果就是UTF-8在最坏的情况下和UTF-32一样。UTF-8还有一些其他良好的特性。与UTF-32和UTF-16不同，你不需要关心大端小端的问题。并且在查看序列中的任何一个字节时都能够明确知道是处于UTF-8的起始处还是中间段。这也意味着不存在误读字符的问题。

使用UTF-8唯一的缺点是不能随意地访问使用UTF-8编码的字符串。虽然可以知道是否使用了字符，但是并不能确定这个字符使用了多少字节，因此需要从字符串的开头开始计数。Go并不限定字符串一定使用UTF-8进行编码，但是强烈建议使用这种方式。我们在第4章会看到如何处理UTF-8编码的字符串。

有趣的事实：UTF-8是由Ken Thompson和Rob Pike在1992发明的，他们也是Go的缔造者。

相对于对字符串使用切片和索引表达式，使用标准库的strings和unicode/utf8库中的函数处理子字符串和码位是更好的选择。在下一章中，我们会看到如何使用for-range循环来遍历字符串中的码位。