初识C++ · string的使用(2)

1 Modifiers部分

1.1 assign的使用

1.2 insert的使用

1.3 erase的使用

1.4 replace的使用

2 capacity部分

2.1 max_size的使用

2.2 capacity的使用

2.3 reserve的使用

2.4 shrink_to_fit简介

2.5 resize的使用

2.6 clear的使用

3 String operations部分

3.1 c_str的使用

3.2 copy的使用

3.3 find和rfind的使用

3.4 substr的使用

3.5 find_first_of(not)和find_last_of(not)的使用

3.6 compare的使用

4 Non-member function overloads部分

4.1 operator+的使用

4.2 relational operators

4.3 operator<< 和 operator>>的使用

4.4 getline的使用

5 补充函数

6 有关编码

1 Modifiers部分

上文已经介绍了+=，append，push_back，pop_back，这里介绍assign，insert，erase，replace。

1.1 assign的使用

assign的使用类似于赋值，会完全覆盖原来的字符串，进行赋值：

int main()
{string s1("Hello world");s1.assign("xx");cout << s1;return 0;
}

但是查看文档就发现函数重载挺冗余的，实际上常用的也就是第三个了，类比的化，第二个也可以连蒙带猜的试一下：

int main()
{string s1("Hello world");string s2("123456789");s1.assign(s2,2,5);cout << s1;return 0;
}

1.2 insert的使用

insert在链表中使用过，当然是名字使用过，插入的意思，有意思的是string没有直接的支持头插，但是间接的支持了头插，可以使用insert进行实现：

int main()
{string s1("Hello world");string s3 = "123456";s3.insert(0,s1);cout << s3 << endl;return 0;
}

第一个重载的使用如上，pos位置插入数据，打印出来就是Hello world123456，类似的是第三个：

int main()
{string s3 = "123456";s3.insert(0,"132");cout << s3 << endl;return 0;
}

当然还有迭代器版本的，前四个函数挺类似的，不作介绍，这里介绍一下迭代器版本的：

int main()
{string s1("123456");string s2("Hello world");s1.insert(s1.end(), s2.begin(), s2.end());cout << s1 << endl;return 0;
}

第一个参数是选择插入的位置，后面是区间，但是注意的是这个区间是左闭右开的。

但是离谱的是insert不支持直接插入单个字符，要插入单个字符使用第四个函数重载：

int main()
{string s1("123456");s1.insert(0, 1, 'x');cout << s1 << endl;return 0;
}

有疑问了就，可以插入一个只有一个字符的字符串，但是这种情况只能这样写：

int main()
{string s1("123456");char ch = 'a';s1.insert(0, 1, ch);cout << s1 << endl;return 0;
}

但是不太推荐使用，因为它的时间复杂度是O(N)，底层的实现原理是移动每个数据到相应位置，时间复杂度即一个循环，是O(N)。

1.3 erase的使用

有插入就会有删除，erase即删除:

参数问题现在已经不大了，使用如下：

int main()
{string s1("abcdefg");s1.erase();//清空字符串cout << s1 << endl;string s2("abcdefg");s2.erase(0);//清空字符串cout << s2 << endl;return 0;
}

int main()
{string s3("abcdefg");s3.erase(0, 3);//abc清空cout << s3 << endl;string s4("abcdefg");s4.erase(s4.begin(), s4.begin() + 4);//abcd清空cout << s4 << endl;return 0;
}

迭代器和npos的使用如上，但是仍然不推荐使用，因为和insert是一样的，时间复杂度为O(N)。

因为缺省值是npos，所以删除的长度可以离谱但是下标不能离谱：

int main()
{string s5("abcdefg");s5.erase(2,100);cout << s5 << endl;return 0;
}

1.4 replace的使用

replace的英文是代替，顾名思义咯~

多吧？第一个函数重载使用如下：

int main()
{string s1("123456");s1.replace(2,2,"a");cout << s1 << endl;return 0;
}

从3开始把两个字节替换成a字符。

为什么说它坑呢？引入一道题，将一段字符串中的所有空格全部替换为x,用C语言就是:

int main()
{string s2("hello world hello Byte");for(int i = 0;i < s2.size();i++){if (s2[i] == ' '){s2[i] = 'x';}}cout << s2 << endl;return 0;
}

用C++的replace就是：

int main()
{string s3("hello world hello Byte");for (int i = 0; i < s2.size(); i++){if(s3[i] == ' '){s3.replace(i,1,"x");}}cout << s3 << endl;return 0;
}

看似没有差别？因为这里的空格刚好是一个字符，如果是还要涉及数据移动的问题，效率自然就低下了，所以慎用。

当然方法很多，多多选择。

2 capacity部分

上篇已经介绍了，size,length,本文介绍max_size,resize,capacity,reserve,clear,shrink_to_fit。

2.1 max_size的使用

这个函数实际上是一个冗余的设计，即一个字符串能开到多大：

int main()
{string s1("123456");cout << s1.size() << endl;cout << s1.max_size() << endl;return 0;
}

max_size()的结果是看64位还是32位情况，64位是：

32位是：

虽然结果不一样，但是大小都是挺惊人的，因为它只有这一个功能，实际上也没有哪个字符串会开这么大，就了解一下即可。

2.2 capacity的使用

由前面的学习可以得知capacity是容量的意思，所以当我们调试一个字符串的时候总会发现：

一个串里面有size,有capacity，有其他元素，那么空间不够了，capacity就会自动扩容，我们要了解的就是它的扩容规则：

int main()
{string s1("123456");cout << "Now capacity:" << s1.capacity() << endl;for (int i = 0; i < 200; i++){s1.push_back('x');if (s1.capacity() == s1.size()){cout << "Capacity Changed:" << s1.capacity() << endl;}}return 0;
}

尾插200个数据，使其扩容：

结果如下，我们可以发现扩容的方式很奇怪，一开始是约等于2倍，后面逐渐变成了1.5倍

这是Vs环境下的扩容，在Linux环境下就是标准的2倍扩容：

但是实际上呢，这里的capacity都是少了一个单位的，比如上面的应该是16，32，38，71，因为要给斜杠0预留一个空间。

可以看到不同的编译器实现扩容的时候有一定差异，Vs下的编译器的是clang，Linux环境下的编译器是g++，实现的时候都有差异，但是不管Vs还是Linux，capacity都是少了1的，因为斜杠0.

2.3 reserve的使用

reserve？reverse？傻傻分不清咯~

reverse是逆置，而reserve的中文意思是预存，保留，是用来开空间的：

它实际影响的只有capacity，不会影响size：

int main()
{string s1("123456");cout << s1.size() << " " << s1.capacity() <<endl;s1.reserve(100);cout << s1.size() << " " << s1.capacity() <<endl;return 0;
}

我们开了100个空间，但是实际上开了111个空间？

Linux环境下还是老老实实的要多少开多少。

所以reserve和capacity一样，平台直接有差异。

reserve还可以用来进行缩容,但是因为vs默认是不缩容的，所以这里呢给个结论：

如果缩容，最低只能缩容到15(实际是16)，因为string有一个成员是buff数组，如果string的长度不超过16就会存到buff数组上去，就不用在堆上单独开开空间了，因为数组的大小是定的，16，所以再怎么缩容，都不会比15小。

但是也不是一无用处这个函数，比如涉及到多次开空间的题目，我们可以提前开好，省略了一下开空间的步骤，效率稍微高一点。

2.4 shrink_to_fit简介

这个函数是缩容，但是是在C++11中引进的，虽然可以实现我们想要的功能，但是实际上内存越来越发达的时代，我们更多的追求的是效率，空间不够的情况是比较少见的，而且这个函数使用代价挺大的，我们大多数人以为的缩容是这样的:

有一块空间，释放到不需要的部分，但是在动态内存管理章节我们知道，释放空间不能一段一段的释放，只能一整块的释放，所以实际的缩容是把原来的空间释放掉，重新开一块我们想要的小空间，这个代价挺大的，所以不推荐使用。

2.5 resize的使用

前文提及，capacity的扩容只会影响capacity，不会影响size，但是resize两个都会影响到：

int main()
{string s1("123456");cout << s1.size() << " " << s1.capacity() << endl;s1.resize(100);cout << s1.size() << " " << s1.capacity() << endl;s1.resize(5);cout << s1.size() << " " << s1.capacity() << endl;return 0;
}

如果我们是resize100的话，6后面的就全是斜杠0了，但是如果我们缩容，就会删除一部分数据，比如这里的6就被删除了。

int main()
{string s2("hello world");s2.resize(20, 'x');cout << s2 << endl;return 0;
}

resize插入数据会扩容，这里就是在d后面插入x知道字符串长度为20。

也可以当删除使用，size小于原来的size就可以了。

2.6 clear的使用

clear清除，使用起来还是很简单的：

int main()
{string s1("123456");cout << s1 << endl;s1.clear();cout << s1 << endl;return 0;
}

清除完毕。

3 String operations部分

前文已经介绍了，，，前文没有介绍，嘿嘿，这里介绍c_str,copy,find,rfind,find_first_of,find_last_of,fin_first_not_of,find_last_not_of,substr,compare。

对于get_allocator简单掠过，它涉及到了配置器，就不多介绍了。

3.1 c_str的使用

c_str返回的是字符串的指针，c++和C语言混用的使用就可能有点坑：

int main()
{string file("Test.cpp");FILE* fout = fopen(file.c_str(), "r");char ch = fgetc(fout);while (ch != EOF){cout << ch;ch = fgetc(fout);}return 0;
}

比如这里的fopen不加file. 的话，那么c_str就读取不到了，但是在C语言里面这里都是直接放的指针，没有考虑其他的，C++考虑的还要多一些。

当然函数本身的使用还是很简单的，返回指针而已。

3.2 copy的使用

copy的本质是赋值，但是不是给string类的赋值，是给字符数组赋值，并且返回值是赋值过去的字符串长度，可以理解为返回的是len

int main()
{string s1("abcdefg");char str[20] = "123456";size_t ret = s1.copy(str, 3, 2);cout << s1 << endl;cout << str << endl;cout << ret << endl;return 0;
}

3.3 find和rfind的使用

find即寻找，rfind同理，倒过来寻找，也可以指定从哪里开始寻找，返回的就是找到的位置的下标，如果没有找到返回的就是npos，find可以用来找子串也可以用来寻找单个字符，这里我们试试分割后缀：

string file("string.cpp.zip");

3.4 substr的使用

戛然而止，因为要分割字符串，我们还需要了解一个函数叫做substr，这个函数有利于我们分割字符串，参数两个，一个是位置，一个是长度，如果不给长度，就是默认分割到字符串结束，所以有了find返回的下标，我们这里就可以实现分割.zip：

int main()
{string file("string.cpp.zip");size_t pos = file.rfind('.');string suffix = file.substr(pos);cout << suffix << endl;return 0;
}

那么为什么我们使用rfind呢？因为有两个.，我们使用find，找到的就是第一个.，所以我们应该倒过来寻找，找到之后久交给substr就可以了。

当然，我们想要分割一段区间也是可以的：

int main()
{string s1("I am the best");string s = s1.substr(5, 3);cout << s << endl;return 0;
}

给一个区间，然后分割了3个字符，the就被分割出来了。

3.5 find_first_of(not)和find_last_of(not)的使用

首先看一下函数的参数，没有什么特殊的地方，那就随便过了？不能，因为最大的误区在它的名字这里，find_first_of，一翻译就是，找最开始的什么什么，如果这样想就大错特错辣，构造和初始化有关系吗从名字上看，丝毫没有，这个也是同理的，这个的真正用法其实是：

int main()
{string str("Please, replace the vowels in this sentence by asterisks.");size_t found = str.find_first_of("aeiou");while (found != string::npos){str[found] = '*';found = str.find_first_of("aeiou", found + 1);}cout << str << endl;return 0;
}

这里介绍第二个重载的使用，其他的就可以类比了，这个函数的真正用法是找任意字符，即在一个字符串里面找参数中的任意字符，找到了就会返回下标，那么就可以对下标进行一些操作，比如修改，找到了也要记得修改找的位置。

last同理，只是last是从字符串末尾开始查找的，实际使用没啥区别：

void SplitFilename(const std::string& str)
{std::cout << "Splitting: " << str << '\n';std::size_t found = str.find_last_of("/\\");std::cout << " path: " << str.substr(0, found) << '\n';std::cout << " file: " << str.substr(found + 1) << '\n';
}
int main()
{std::string str1("/usr/bin/man");std::string str2("c:\\windows\\winhelp.exe");SplitFilename(str1);SplitFilename(str2);return 0;
}

只是根据不同的需求使用不同的函数罢了，比如我要分割一个网站，从末尾开始分割就可以了。

not的使用就不介绍了，有了前面两个函数的使用，这个看看也就会了。

3.6 compare的使用

compare的使用是字典序的比较，和strcmp是一样的，别看它参数多，比较我们使用第一个就可以了，其他重载要是一定要使用，看看文档也就会了：

int main()
{string s1("123456");string s2("321654");cout << s1.compare(s2) << endl;return 0;
}

int main()
{string s1("123456");string s2("321654");cout << (s1 < s2) << endl;return 0;
}

但是比较不仅可以用compare哦，还可以使用重载后的< >，就和cout能打印自定义类型一样。

4 Non-member function overloads部分

这部分呢就是非成员函数的部分了，重载为了全局函数，本文介绍operator+，operator>> ，operator<<，getline，relational operators。

4.1 operator+的使用

这个函数说来奇怪，重载为全局函数不是因为多特殊，只是为了支持某种形式，先看一般使用：

int main()
{string s1("123456");string s2("Hello world");cout << s1 + s2 << endl;cout << s1 + "xxx" << endl;cout << "xxx" + s1 << endl;cout << s1 + 'a' << endl;cout << 'b' + s1 << endl;return 0;
}

看起来也没什么奇怪的，那么特殊的原因是因为原来是想支持"xxx" + s1，但是发现重载为成员函数之后的第一个参数铁定是this指针，所以为了支持那种形式就重载成全局函数咯，当然不影响使用。

4.2 relational operators

compare的使用已经使用过了重载后的<，这里深入一点，我们看到相关的重载有很多个，实际上就是进行比较的，类比于日期类的多个比较，这里我们结合日期类的写法也就好理解了，当然，比较都是按照字典序进行比较的。

int main ()
{std::string foo = "alpha";std::string bar = "beta";if (foo==bar) std::cout << "foo and bar are equal\n";if (foo!=bar) std::cout << "foo and bar are not equal\n";if (foo< bar) std::cout << "foo is less than bar\n";if (foo> bar) std::cout << "foo is greater than bar\n";if (foo<=bar) std::cout << "foo is less than or equal to bar\n";if (foo>=bar) std::cout << "foo is greater than or equal to bar\n";return 0;
}

4.3 operator<< 和 operator>>的使用

这个就太简单辣：

int main()
{string s1("123456");cout << s1 << endl;return 0;
}

直接就过了。

4.4 getline的使用

我们先上一个实际例子：

int main()
{string s1;cin >> s1;cout << s1 << endl;return 0;
}

原本程序的意思是输入123 asd并进行打印的，但是>>重载了并不会打印完，这是因为空格，换行对于字符串的读取来说都是结束标志：

int main()
{string s1;cin >> s1;while (1){cin >> s1;cout << s1 << endl;}return 0;
}

这样就会更形象了，那么怎么结束这个程序呢？有两种方法，一种是ctrl + c，暴力杀进程，直接结束，第二种是ctrl + z。

回归正题，我们想要读取空格怎么办？
这里就需要用到getline了：

int main()
{string s2;getline(cin, s2);cout << s2 << endl;return 0;
}

这是第二个函数的重载，第一个的最后一个参数就是让你自己设置结束标志，有兴趣可以自己试试。

5 补充函数

对于string的学习不免遇到大数运算，这里提供一个函数，to_string和stoi，分别是整型转字符串，字符串转整型，但是不要用在大数运算上面，只能是说有一点点关系：

int main()
{string s2("111111");int ret1 = stoi(s2);cout << ret1 << endl;int ret2 = 112345648;string s3 = to_string(ret2);cout << s3 << endl;return 0;
}

相关的文档就不上图了，有兴趣自己看看。

6 有关编码

编码是一种文字的映射，最基本的是ASCII编码，这是美国科学家研究的，最初用来存储他们的相关语言，最特殊的就是$，这个是ASCII一个标志性符号：

那么就引入了一个问题，全世界的文字那么多，不同的语言几千种甚至上万，该如何存储呢？更不用说汉字常见的就有几千个，所以汉字加起来是近9万了，如果在计算机上表达自己的语言成为了一个难题：

int main()
{string s1("计算机");string s2("123456");return 0;
}

当我们存入了这样的字符串，我们在内存能看到计算机吗？

为什么会是？，编译器是如何打印计算机三个字的？这里我们不得不佩服计算机科学家们，引入了一个种新编码，叫做Unicode，称为万国码，发明出来就是为了保证计算机能打印绝大多数国家的语言的：

那么一台计算想要保证能打印不同的语言只靠一个ASCII可不够，所以引入了utf8编码，可以理解为utf8包含了Unicode和ASCIIm，与此同时还有utf16，utf32：

可以看到utf8通过一个字节的开头判断这个字属于哪个字节范围，所以计算打印的时候实际上是按照编码表去寻找最后打印的，那么16和32因为存储的成本变高了，所以不太推荐使用，目前很多机器都是使用的utf8，vs和Linux环境下使用的都是utf8。

那可能会问了，和string有什么关系？string是字符的集合：

看到这个basic了吗？我们学习的都是1个字节的字符串集合，通过编码的介绍不难猜出字符不止只有一个字节，比如：

还存在这种宽字节的字符，这就是编码的意义，存储更多的字符，使得计算机成为一门共同的语言！

感谢阅读！