初识C++ · string的使用(2)

server/2024/12/2 15:39:15/

目录

1 Modifiers部分

1.1 assign的使用

 1.2 insert的使用

1.3 erase的使用

1.4 replace的使用

2 capacity部分

2.1 max_size的使用

2.2 capacity的使用

2.3 reserve的使用

2.4 shrink_to_fit简介

2.5 resize的使用

2.6 clear的使用

3 String operations部分

3.1 c_str的使用

3.2 copy的使用

3.3 find和rfind的使用

3.4 substr的使用

3.5 find_first_of(not)和find_last_of(not)的使用

3.6 compare的使用

4 Non-member function overloads部分

4.1 operator+的使用

4.2 relational operators

4.3 operator<< 和 operator>>的使用

4.4 getline的使用

5 补充函数

6 有关编码


1 Modifiers部分

上文已经介绍了+=,append,push_back,pop_back,这里介绍assign,insert,erase,replace。

1.1 assign的使用

assign的使用类似于赋值,会完全覆盖原来的字符串,进行赋值:

int main()
{string s1("Hello world");s1.assign("xx");cout << s1;return 0;
}

但是查看文档就发现函数重载挺冗余的,实际上常用的也就是第三个了,类比的化,第二个也可以连蒙带猜的试一下:

int main()
{string s1("Hello world");string s2("123456789");s1.assign(s2,2,5);cout << s1;return 0;
}

 1.2 insert的使用

insert在链表中使用过,当然是名字使用过,插入的意思,有意思的是string没有直接的支持头插,但是间接的支持了头插,可以使用insert进行实现:

int main()
{string s1("Hello world");string s3 = "123456";s3.insert(0,s1);cout << s3 << endl;return 0;
}

第一个重载的使用如上,pos位置插入数据,打印出来就是Hello world123456,类似的是第三个:

int main()
{string s3 = "123456";s3.insert(0,"132");cout << s3 << endl;return 0;
}

当然还有迭代器版本的,前四个函数挺类似的,不作介绍,这里介绍一下迭代器版本的:

int main()
{string s1("123456");string s2("Hello world");s1.insert(s1.end(), s2.begin(), s2.end());cout << s1 << endl;return 0;
}

第一个参数是选择插入的位置,后面是区间,但是注意的是这个区间是左闭右开的。

但是离谱的是insert不支持直接插入单个字符,要插入单个字符使用第四个函数重载:

int main()
{string s1("123456");s1.insert(0, 1, 'x');cout << s1 << endl;return 0;
}

有疑问了就,可以插入一个只有一个字符的字符串,但是这种情况只能这样写:

int main()
{string s1("123456");char ch = 'a';s1.insert(0, 1, ch);cout << s1 << endl;return 0;
}

但是不太推荐使用,因为它的时间复杂度是O(N),底层的实现原理是移动每个数据到相应位置,时间复杂度即一个循环,是O(N)。


1.3 erase的使用

有插入就会有删除,erase即删除:

参数问题现在已经不大了,使用如下:

int main()
{string s1("abcdefg");s1.erase();//清空字符串cout << s1 << endl;string s2("abcdefg");s2.erase(0);//清空字符串cout << s2 << endl;return 0;
}
int main()
{string s3("abcdefg");s3.erase(0, 3);//abc清空cout << s3 << endl;string s4("abcdefg");s4.erase(s4.begin(), s4.begin() + 4);//abcd清空cout << s4 << endl;return 0;
}

迭代器和npos的使用如上,但是仍然不推荐使用,因为和insert是一样的,时间复杂度为O(N)。

因为缺省值是npos,所以删除的长度可以离谱但是下标不能离谱:

int main()
{string s5("abcdefg");s5.erase(2,100);cout << s5 << endl;return 0;
}

1.4 replace的使用

replace的英文是代替,顾名思义咯~

多吧?第一个函数重载使用如下:

int main()
{string s1("123456");s1.replace(2,2,"a");cout << s1 << endl;return 0;
}

从3开始把两个字节替换成a字符。

为什么说它坑呢?引入一道题,将一段字符串中的所有空格全部替换为x,用C语言就是:

int main()
{string s2("hello world hello Byte");for(int i = 0;i < s2.size();i++){if (s2[i] == ' '){s2[i] = 'x';}}cout << s2 << endl;return 0;
}

用C++的replace就是:

int main()
{string s3("hello world hello Byte");for (int i = 0; i < s2.size(); i++){if(s3[i] == ' '){s3.replace(i,1,"x");}}cout << s3 << endl;return 0;
}

看似没有差别?因为这里的空格刚好是一个字符,如果是还要涉及数据移动的问题,效率自然就低下了,所以慎用。

当然方法很多,多多选择。


2 capacity部分

上篇已经介绍了,size,length,本文介绍max_size,resize,capacity,reserve,clear,shrink_to_fit。

2.1 max_size的使用

这个函数实际上是一个冗余的设计,即一个字符串能开到多大:

int main()
{string s1("123456");cout << s1.size() << endl;cout << s1.max_size() << endl;return 0;
}

max_size()的结果是看64位还是32位情况,64位是:

32位是:

虽然结果不一样,但是大小都是挺惊人的,因为它只有这一个功能,实际上也没有哪个字符串会开这么大,就了解一下即可。


2.2 capacity的使用

由前面的学习可以得知capacity是容量的意思,所以当我们调试一个字符串的时候总会发现:

一个串里面有size,有capacity,有其他元素,那么空间不够了,capacity就会自动扩容,我们要了解的就是它的扩容规则:

int main()
{string s1("123456");cout << "Now capacity:" << s1.capacity() << endl;for (int i = 0; i < 200; i++){s1.push_back('x');if (s1.capacity() == s1.size()){cout << "Capacity Changed:" << s1.capacity() << endl;}}return 0;
}

尾插200个数据,使其扩容:

结果如下,我们可以发现扩容的方式很奇怪,一开始是约等于2倍,后面逐渐变成了1.5倍

这是Vs环境下的扩容,在Linux环境下就是标准的2倍扩容:

但是实际上呢,这里的capacity都是少了一个单位的,比如上面的应该是16,32,38,71,因为要给斜杠0预留一个空间。

可以看到不同的编译器实现扩容的时候有一定差异,Vs下的编译器的是clang,Linux环境下的编译器是g++,实现的时候都有差异,但是不管Vs还是Linux,capacity都是少了1的,因为斜杠0.


2.3 reserve的使用

reserve?reverse?傻傻分不清咯~

reverse是逆置,而reserve的中文意思是预存,保留,是用来开空间的:

它实际影响的只有capacity,不会影响size:

int main()
{string s1("123456");cout << s1.size() << " " << s1.capacity() <<endl;s1.reserve(100);cout << s1.size() << " " << s1.capacity() <<endl;return 0;
}

我们开了100个空间,但是实际上开了111个空间?

Linux环境下还是老老实实的要多少开多少。

所以reserve和capacity一样,平台直接有差异。

reserve还可以用来进行缩容,但是因为vs默认是不缩容的,所以这里呢给个结论:

如果缩容,最低只能缩容到15(实际是16),因为string有一个成员是buff数组,如果string的长度不超过16就会存到buff数组上去,就不用在堆上单独开开空间了,因为数组的大小是定的,16,所以再怎么缩容,都不会比15小。

但是也不是一无用处这个函数,比如涉及到多次开空间的题目,我们可以提前开好,省略了一下开空间的步骤,效率稍微高一点。


2.4 shrink_to_fit简介

这个函数是缩容,但是是在C++11中引进的,虽然可以实现我们想要的功能,但是实际上内存越来越发达的时代,我们更多的追求的是效率,空间不够的情况是比较少见的,而且这个函数使用代价挺大的,我们大多数人以为的缩容是这样的:

有一块空间,释放到不需要的部分,但是在动态内存管理章节我们知道,释放空间不能一段一段的释放,只能一整块的释放,所以实际的缩容是把原来的空间释放掉,重新开一块我们想要的小空间,这个代价挺大的,所以不推荐使用。


2.5 resize的使用

前文提及,capacity的扩容只会影响capacity,不会影响size,但是resize两个都会影响到:

int main()
{string s1("123456");cout << s1.size() << " " << s1.capacity() << endl;s1.resize(100);cout << s1.size() << " " << s1.capacity() << endl;s1.resize(5);cout << s1.size() << " " << s1.capacity() << endl;return 0;
}

如果我们是resize100的话,6后面的就全是斜杠0了,但是如果我们缩容,就会删除一部分数据,比如这里的6就被删除了。

int main()
{string s2("hello world");s2.resize(20, 'x');cout << s2 << endl;return 0;
}

resize插入数据会扩容,这里就是在d后面插入x知道字符串长度为20。

也可以当删除使用,size小于原来的size就可以了。


2.6 clear的使用

clear清除,使用起来还是很简单的:

int main()
{string s1("123456");cout << s1 << endl;s1.clear();cout << s1 << endl;return 0;
}

清除完毕。


3 String operations部分

前文已经介绍了,,,前文没有介绍,嘿嘿,这里介绍c_str,copy,find,rfind,find_first_of,find_last_of,fin_first_not_of,find_last_not_of,substr,compare。

对于get_allocator简单掠过,它涉及到了配置器,就不多介绍了。

3.1 c_str的使用

c_str返回的是字符串的指针,c++和C语言混用的使用就可能有点坑:

int main()
{string file("Test.cpp");FILE* fout = fopen(file.c_str(), "r");char ch = fgetc(fout);while (ch != EOF){cout << ch;ch = fgetc(fout);}return 0;
}

比如这里的fopen不加file. 的话,那么c_str就读取不到了,但是在C语言里面这里都是直接放的指针,没有考虑其他的,C++考虑的还要多一些。

当然函数本身的使用还是很简单的,返回指针而已。


3.2 copy的使用

copy的本质是赋值,但是不是给string类的赋值,是给字符数组赋值,并且返回值是赋值过去的字符串长度,可以理解为返回的是len

int main()
{string s1("abcdefg");char str[20] = "123456";size_t ret = s1.copy(str, 3, 2);cout << s1 << endl;cout << str << endl;cout << ret << endl;return 0;
}

3.3 find和rfind的使用

find即寻找,rfind同理,倒过来寻找,也可以指定从哪里开始寻找,返回的就是找到的位置的下标,如果没有找到返回的就是npos,find可以用来找子串也可以用来寻找单个字符,这里我们试试分割后缀:

string file("string.cpp.zip");

3.4 substr的使用

戛然而止,因为要分割字符串,我们还需要了解一个函数叫做substr,这个函数有利于我们分割字符串,参数两个,一个是位置,一个是长度,如果不给长度,就是默认分割到字符串结束,所以有了find返回的下标,我们这里就可以实现分割.zip:

int main()
{string file("string.cpp.zip");size_t pos = file.rfind('.');string suffix = file.substr(pos);cout << suffix << endl;return 0;
}

那么为什么我们使用rfind呢?因为有两个.,我们使用find,找到的就是第一个.,所以我们应该倒过来寻找,找到之后久交给substr就可以了。

当然,我们想要分割一段区间也是可以的:

int main()
{string s1("I am the best");string s = s1.substr(5, 3);cout << s << endl;return 0;
}

给一个区间,然后分割了3个字符,the就被分割出来了。


3.5 find_first_of(not)和find_last_of(not)的使用

首先看一下函数的参数,没有什么特殊的地方,那就随便过了?不能,因为最大的误区在它的名字这里,find_first_of,一翻译就是,找最开始的什么什么,如果这样想就大错特错辣,构造和初始化有关系吗从名字上看,丝毫没有,这个也是同理的,这个的真正用法其实是:

int main()
{string str("Please, replace the vowels in this sentence by asterisks.");size_t found = str.find_first_of("aeiou");while (found != string::npos){str[found] = '*';found = str.find_first_of("aeiou", found + 1);}cout << str << endl;return 0;
}

这里介绍第二个重载的使用,其他的就可以类比了,这个函数的真正用法是找任意字符,即在一个字符串里面找参数中的任意字符,找到了就会返回下标,那么就可以对下标进行一些操作,比如修改,找到了也要记得修改找的位置。

last同理,只是last是从字符串末尾开始查找的,实际使用没啥区别:

void SplitFilename(const std::string& str)
{std::cout << "Splitting: " << str << '\n';std::size_t found = str.find_last_of("/\\");std::cout << " path: " << str.substr(0, found) << '\n';std::cout << " file: " << str.substr(found + 1) << '\n';
}
int main()
{std::string str1("/usr/bin/man");std::string str2("c:\\windows\\winhelp.exe");SplitFilename(str1);SplitFilename(str2);return 0;
}

只是根据不同的需求使用不同的函数罢了,比如我要分割一个网站,从末尾开始分割就可以了。

not的使用就不介绍了,有了前面两个函数的使用,这个看看也就会了。


3.6 compare的使用

compare的使用是字典序的比较,和strcmp是一样的,别看它参数多,比较我们使用第一个就可以了,其他重载要是一定要使用,看看文档也就会了:

int main()
{string s1("123456");string s2("321654");cout << s1.compare(s2) << endl;return 0;
}
int main()
{string s1("123456");string s2("321654");cout << (s1 < s2) << endl;return 0;
}

但是比较不仅可以用compare哦,还可以使用重载后的< >,就和cout能打印自定义类型一样。


4 Non-member function overloads部分

这部分呢就是非成员函数的部分了,重载为了全局函数,本文介绍operator+,operator>> ,operator<<,getline,relational operators。

4.1 operator+的使用

这个函数说来奇怪,重载为全局函数不是因为多特殊,只是为了支持某种形式,先看一般使用:

int main()
{string s1("123456");string s2("Hello world");cout << s1 + s2 << endl;cout << s1 + "xxx" << endl;cout << "xxx" + s1 << endl;cout << s1 + 'a' << endl;cout << 'b' + s1 << endl;return 0;
}

看起来也没什么奇怪的,那么特殊的原因是因为原来是想支持"xxx" + s1,但是发现重载为成员函数之后的第一个参数铁定是this指针,所以为了支持那种形式就重载成全局函数咯,当然不影响使用。


4.2 relational operators

compare的使用已经使用过了重载后的<,这里深入一点,我们看到相关的重载有很多个,实际上就是进行比较的,类比于日期类的多个比较,这里我们结合日期类的写法也就好理解了,当然,比较都是按照字典序进行比较的。

int main ()
{std::string foo = "alpha";std::string bar = "beta";if (foo==bar) std::cout << "foo and bar are equal\n";if (foo!=bar) std::cout << "foo and bar are not equal\n";if (foo< bar) std::cout << "foo is less than bar\n";if (foo> bar) std::cout << "foo is greater than bar\n";if (foo<=bar) std::cout << "foo is less than or equal to bar\n";if (foo>=bar) std::cout << "foo is greater than or equal to bar\n";return 0;
}

4.3 operator<< 和 operator>>的使用

这个就太简单辣:

int main()
{string s1("123456");cout << s1 << endl;return 0;
}

直接就过了。


4.4 getline的使用

我们先上一个实际例子:

int main()
{string s1;cin >> s1;cout << s1 << endl;return 0;
}

原本程序的意思是输入123 asd并进行打印的,但是>>重载了并不会打印完,这是因为空格,换行对于字符串的读取来说都是结束标志:

int main()
{string s1;cin >> s1;while (1){cin >> s1;cout << s1 << endl;}return 0;
}

这样就会更形象了,那么怎么结束这个程序呢?有两种方法,一种是ctrl + c,暴力杀进程,直接结束,第二种是ctrl + z。

回归正题,我们想要读取空格怎么办?
这里就需要用到getline了:

int main()
{string s2;getline(cin, s2);cout << s2 << endl;return 0;
}

这是第二个函数的重载,第一个的最后一个参数就是让你自己设置结束标志,有兴趣可以自己试试。


5 补充函数

对于string的学习不免遇到大数运算,这里提供一个函数,to_string和stoi,分别是整型转字符串,字符串转整型,但是不要用在大数运算上面,只能是说有一点点关系:

int main()
{string s2("111111");int ret1 = stoi(s2);cout << ret1 << endl;int ret2 = 112345648;string s3 = to_string(ret2);cout << s3 << endl;return 0;
}

相关的文档就不上图了,有兴趣自己看看。


6 有关编码

编码是一种文字的映射,最基本的是ASCII编码,这是美国科学家研究的,最初用来存储他们的相关语言,最特殊的就是$,这个是ASCII一个标志性符号:

那么就引入了一个问题,全世界的文字那么多,不同的语言几千种甚至上万,该如何存储呢?更不用说汉字常见的就有几千个,所以汉字加起来是近9万了,如果在计算机上表达自己的语言成为了一个难题:

int main()
{string s1("计算机");string s2("123456");return 0;
}

当我们存入了这样的字符串,我们在内存能看到计算机吗?

为什么会是?,编译器是如何打印计算机三个字的?这里我们不得不佩服计算机科学家们,引入了一个种新编码,叫做Unicode,称为万国码,发明出来就是为了保证计算机能打印绝大多数国家的语言的:

那么一台计算想要保证能打印不同的语言只靠一个ASCII可不够,所以引入了utf8编码,可以理解为utf8包含了Unicode和ASCIIm,与此同时还有utf16,utf32:

可以看到utf8通过一个字节的开头判断这个字属于哪个字节范围,所以计算打印的时候实际上是按照编码表去寻找最后打印的,那么16和32因为存储的成本变高了,所以不太推荐使用,目前很多机器都是使用的utf8,vs和Linux环境下使用的都是utf8。

那可能会问了,和string有什么关系?string是字符的集合:

看到这个basic了吗?我们学习的都是1个字节的字符串集合,通过编码的介绍不难猜出字符不止只有一个字节,比如:

还存在这种宽字节的字符,这就是编码的意义,存储更多的字符,使得计算机成为一门共同的语言!


感谢阅读!


http://www.ppmy.cn/server/41800.html

相关文章

C# 快速把List<string>集合转换成一个字符串

在C#中&#xff0c;要将List<string>类型的集合转换成一个单一的字符串&#xff0c;其中各元素由特定的分隔符连接&#xff0c;通常推荐使用String.Join()方法。 简单的示例&#xff1a; 使用for循环 代码如下&#xff1a; using System; using System.Collections.G…

【Golang】 MySQL 在 Go 语言驱动程序中常用参数

文章目录 前言一、参数解释二、代码实现四、总结 前言 在 Go 语言中&#xff0c;我们使用数据库驱动程序来连接和操作数据库。对于 MySQL&#xff0c;我们通常使用 go-sql-driver/mysql 驱动程序。在使用这个驱动程序时&#xff0c;我们需要提供一个数据源名称&#xff08;DSN…

react配置@指向src目录

一、在vite.config.ts中添加配置 import path from "path";// https://vitejs.dev/config/ export default defineConfig({plugins: [react()],resolve: {alias: {"": path.resolve(__dirname, "./src")}} });这时候引入的会path模块报红&#…

Chatgpt的应用场景

文案创作类&#xff1a; 作为一名大型语言模型&#xff0c;ChatGPT可以为使用者提供多种文本处理和文字创作方面的服务&#xff0c;例如&#xff1a; 文本生成和创作 ChatGPT可以基于您提供的主题、关键词或文本段落&#xff0c;生成符合使用者要求的新文本。这些文本可以是文…

如何让Linux系统崩溃?

如何使 Linux 系统崩溃 警告 下面的代码行是 Bash shell 的一个简短而甜蜜的 fork 炸弹。分叉炸弹之所以有效&#xff0c;是因为它能够产生无限数量的进程。最终&#xff0c;Linux无法处理所有这些&#xff0c;并且会崩溃。 fork 炸弹的一大优点是你不需要 root 权限即可执行它…

【devops】Linux 日常磁盘清理 ubuntu 清理大文件 docker 镜像清理

日常磁盘清理 1、查找大文件 find / -type f -size 1G2、清理docker无用镜像&#xff08;drone产生的残余镜像文件&#xff09; docker system prune -a一、清理服务器磁盘 1、查找大文件 在Ubuntu系统中&#xff0c;你可以使用find命令来查找大文件。find命令是一个强大的…

数据可视化的艺术:使用Matplotlib和Seaborn揭示数据故事

引言 数据可视化是数据分析中的关键一环&#xff0c;它帮助我们理解数据模式、趋势和异常。在Python中&#xff0c;Matplotlib和Seaborn是两个流行的数据可视化库&#xff0c;它们提供了丰富的图表和图形选项&#xff0c;使数据的可视化变得简单而强大。 Matplotlib&#xff…

【论文阅读】<YOLOP: You Only Look Once for PanopticDriving Perception>

Abstract 全视驾驶感知系统是自动驾驶的重要组成部分。一个高精度的实时感知系统可以帮助车辆在驾驶时做出合理的决策。我们提出了一个全视驾驶感知网络&#xff08;您只需寻找一次全视驾驶感知网络&#xff08;YOLOP&#xff09;&#xff09;&#xff0c;以同时执行交通目标检…