目录
- 红黑树 hashtable
- STL
- STL定义
- 两大特点
- 两个层次
- STL构成
- 容器
- 容器概念
- 容器分类
- vector
- deque
- stack
- queue
- list
- set/multiset容器
- map/multimap容器
- 算法
- 常用的遍历算法
- 常用查找算法
- 常用排序算法
- 常用拷贝和替换算法
- 常用算数生成算法
- 常用集合算法
- 迭代器
- 仿函数
- 适配器
- 空间配置器
红黑树 hashtable
STL
STL定义
STL(Standard Template Library),即标准模板库。它在1994年被正式纳入C++标准,是 C++ 标准库的重要组成部分。它不仅仅是一个可复用的组件库,而且是一个包含了许多在计算机科学领域里常用的基本数据结构和基本算法的软件框架。
两大特点
STL的第一个比较重要的特点是数据结构和算法的分离。
虽然这只是个简单的概念,但这种分离确实使得STL变得非常通用。例如,由于STL的sort()函数是完全通用的,你可以用它来操作几乎任何数据集合,包括链表,容器和数组;
STL的另一个重要特性是它不是面向对象而是面向泛型编程的。
在STL是中找不到任何明显的类继承关系,这好像是一种倒退,但这正好是使得STL的组件具有广泛通用性的底层特征。另外,由于STL是基于模板,内联函数的使用使得生成的代码短小高效;
两个层次
首先从逻辑层次来看,在STL中体现了泛型化程序设计的思想,引入了诸多新的名词,比如像容器(container),算法(algorithmn),迭代器等等。与面向对象中的多态一样,泛型也是一种软件的复用技术;
从实现层次看,整个STL是以一种类型参数化的方式(也就是模板)来实现的。
STL构成
STL提供了六大组件,彼此之间可以组合套用,这六大组件分别是:容器、算法、迭代器、仿函数、适配器(配接器)、空间配置器。
容器
容器概念
谈到容器的话,我的理解是,其实任何特定的数据结构都是为了实现某种特定的算法,而STL容器就是把运用最广泛的一些数据结构实现出来,那么实现了之后就可以使用由容器里定义的迭代器来为了访问容器中的数据;
从实现角度来看,STL容器是一种class template。
容器分类
根据数据在容器中的排列特性,可以把一些常用的数据结构分为序列式容器和关联式容器两种。
序列式容器强调数据的排序,容器中的每个元素均有固定的位置,那么这个位置取决于插入的时机和地点,和元素的值无关。常见的序列式容器有vector、deque、list等等;
而关联式容器里元素的位置取决于特定的排序准则,和插入顺序无关。关联式容器另一个显著特点是:在值中选择一个值作为关键字key,这个关键字对值起到索引的作用,方便查找。常见的关联式容器有set、multiset、map、multimap等;
容器 | 特性 |
---|---|
vector | 可变大小数组。支持快速随机访问。在尾部之外的位置插入或删除元素可能很慢 |
deque | 双端队列。支持快速随机访问。在头尾位置插入/删除速度很快 |
list | 双向链表。只支持双向顺序访问。在list中任何位置进行插入/删除操作速度都很快 |
forward_list | 单向链表。只支持单向顺序访问。在链表任何位置进行插入/删除操作速度都很快 |
array | 固定大小数组。支持快速随机访问。不能添加或删除元素 |
string | 与vector相似的容器,但专门用于保存字符。随机访问快。在尾部插入/删除速度快 |
容器 | 使用场景 |
---|---|
vector | 比如软件历史操作记录的存储,我们经常要查看历史记录,比如上一次的记录,上上次的记录,但却不会去删除记录,因为记录是事实的描述。 |
deque | 比如排队购票系统,对排队者的存储可以采用deque,支持头端的快速移除,尾端的快速添加。如果采用vector,则头端移除时,会移动大量的数据,速度慢。 |
list | 比如公交车乘客的存储,随时可能有乘客下车,支持频繁的不确实位置元素的移除插入。 |
set | 比如对手机游戏的个人得分记录的存储,存储要求从高分到低分的顺序排列。 |
map | 比如按ID号存储十万个用户,想要快速要通过ID查找对应的用户。二叉树的查找效率,这时就体现出来了。如果是vector容器,最坏的情况下可能要遍历完整个容器才能找到该用户。 |
vector
vector概念
在讲vector之前我想先说一下array这个数据结构,因为vector的数据安排还有操作方式,与array非常相似,两者的唯一差别在于空间的运用的灵活性。
Array是静态空间,一旦配置了就不能改变,要换大一点或者小一点的空间,可以,一切工作得由自己来,首先配置一块新的空间,然后将旧空间的数据搬往新空间,再释放原来的空间。
而vector是动态空间,随着元素的加入,它的内部机制会自动扩充空间以容纳新元素,也就是重新配置、元素搬移、释放原空间的过程。因此相比于array来说,vector对于内存运用的灵活性是更好的。
vector的数据结构
vector所采用的数据结构非常简单:线性连续空间。它以两个迭代器start和finish分 别 指 向 配 置 得 来 的 连 续 空 间 中 目 前 已 被 使 用 的 范 围 , 并 以 迭 代 器end_of_storage指向整块连续空间(含备用空间)的尾端。它有一个容量(capacity)的观念,vector实际配置的大小可能比客端需求量更大一些,为将来可能的扩充作准备。所以一个 vector 的容量永远大于或等于它实际配置的大小。一旦容量等于大小,就是满载,下次再有新增元素,整个vector就得重新找空间安置。
deque
deque是一种双向开口的连续线性空间。所谓的双向开口,意思是可以在头尾两端分别做元素的插入和删除操作,它不论在尾部或头部插入元素,都十分迅速。而在中间插入元素则会比较费时,因为必须移动中间其他的元素。
虽然seque是连续线性空间,但其实我更愿意说它是连续分段空间。它实际上是由一段一段的连续空间构成的。一旦有必要在deque前端或者尾端增加新的空间,就再配置一段连续的空间,串接在deque的头端或者尾端。Deque最大的工作就是维护这些分段连续的内存空间的整体性的假象,并提供随机存取的接口,避开了重新配置空间,复制,释放的轮回,代价就是复杂的迭代器架构。
Deque采取一块所谓的map(注意,不是STL的map容器)作为主控,这里所谓的map是一小块连续的内存空间,其中每一个元素(此处成为一个结点)都是一个指针,指向另一段连续性内存空间,称作缓冲区。缓冲区才是deque的存储空间的主体。SGI STL允许我们指定缓冲区大小,默认值 0表示将使用 512 bytes缓冲区。
stack
stack是一种先进后出(First In Last Out)的数据结构,它只有一个出口。stack容器允许新增元素,移除元素,取得栈顶元素,但是除了最顶端外,没有任何其他方法可以存取stack的其他元素。换言之,stack不允许有遍历行为(也就是没有迭代器)。
queue
Queue是一种先进先出(First In First Out,FIFO)的数据结构,它有两个出口,queue容器允许从一端新增元素,从另一端移除元素。Queue所有元素的进出都必须符合”先进先出”的条件,只有queue的顶端元素,才有机会被外界取用。Queue不提供遍历功能,也不提供迭代器。
list
list容器内部其实就是一个双向链表,相较于vector的连续线性空间,它的好处是每次插入或者删除一个元素,就是配置或者释放一个元素的空间。因此,list对于空间的运用有绝对的精准,一点也不浪费。而且,对于任何位置的元素插入或元素的移除,list永远是常数时间。
list优势
采用动态存储分配,不会造成内存浪费和溢出
链表执行插入和删除操作十分方便,修改指针即可,不需要移动大量元素
链表灵活,但是空间和时间额外耗费较大
List容器不能像vector一样以普通指针作为迭代器,因为其节点不能保证在同一块连续的内存空间上。
List迭代器必须有能力指向list的节点,并有能力进行正确的递增、递减、取值、成员存取操作。所谓”list正确的递增,递减、取值、成员取用”是指,递增时指向下一个节点,递减时指向上一个节点,取值时取的是节点的数据值,成员取用时取的是节点的成员。
由于list是一个双向链表,迭代器必须能够具备前移、后移的能力,所以list容器提供的是Bidirectional Iterators.
List有一个重要的性质,插入操作和删除操作都不会造成原有list迭代器的失效。这在vector是不成立的,因为vector的插入操作可能造成记忆体重新配置,导致原有的迭代器全部失效,甚至List元素的删除,也只有被删除的那个元素的迭代器失效,其他迭代器不受任何影响。
set/multiset容器
Set的特性是:所有元素都会根据元素的键值自动被排序。Set的元素不像map那样可以同时拥有实值和键值,set的元素即是键值又是实值。Set不允许两个元素有相同的键值。
我们不可以通过set的迭代器改变set元素的值,因为set元素值就是其键值,关系到set元素的排序规则。如果任意改变set元素值,会严重破坏set组织。换句话说,set的iterator是一种const_iterator.
set拥有和list某些相同的性质,当对容器中的元素进行插入操作或者删除操作的时候,操作之前所有的迭代器,在操作完成之后依然有效,被删除的那个元素的迭代器必然是一个例外。
multiset
multiset特性及用法和set完全相同,唯一的差别在于它允许键值重复。set和multiset的底层实现是红黑树.
map/multimap容器
map的所有元素都是pair(也就是队组),所谓pair就是将2个数据组合成一组数据,同时拥有键值和实值。pair的第一个元素是键值,第二个元素是实值。
pair的实现是一个结构体,主要的两个成员变量first和second,分别存储两个数据, 因为是使用struct不是class,所以可以直接使用pair的成员变量。
Map的特性是,所有元素都会根据元素的键值自动排序。
Map所有的元素都是pair,同时拥有实值和键值,pair的第一元素被视为键值,第二元素被视为实值,map不允许两个元素有相同的键值。
我们不可以通过map的迭代器改变map的键值, 因为map的键值关系到map元素的排列规则,任意改变map键值将会严重破坏map组织。如果想要修改元素的实值,那么是可以的。
Map和list拥有相同的某些性质,当对它的容器元素进行新增操作或者删除操作时,操作之前的所有迭代器,在操作完成之后依然有效,当然被删除的那个元素的迭代器必然是个例外。
Multimap和map的操作类似,唯一区别multimap键值可重复。
Map和multimap都是以红黑树为底层实现机制。
算法
算法(Algorithm),是用来操作容器中的数据的模板函数。例如,STL用sort()来对一个vector中的数据进行排序,用find()来搜索一个list中的对象,函数本身与他们操作的数据的结构和类型无关,因此他们可以在从简单数组到高度复杂容器的任何数据结构上使用;从实现的角度来看,STL算法是一种function tempalte.
常用的遍历算法
for_each(iterator beg, iterator end, _callback); //遍历容器元素
transform(iterator beg1, iterator end1, iterator beg2, _callbakc) //将指定容器区间元素搬运到另一容器中
常用查找算法
find(iterator beg, iterator end, value)
adjacent_find(iterator beg, iterator end, _callback); //查找相邻重复元素
bool binary_search(iterator beg, iterator end, value); // 二分查找
count(iterator beg, iterator end, value); // 统计元素出现次数
常用排序算法
merge(iterator beg1, iterator end1, iterator beg2, iterator end2, iterator dest) //容器元素合并,并存储到另一容器中
sort(iterator beg, iterator end, _callback) //容器元素排序
random_shuffle(iterator beg, iterator end) //对指定范围内的元素随机调整次序
reverse(iterator beg, iterator end) // 反转指定范围的元素
常用拷贝和替换算法
copy(iterator beg, iterator end, iterator dest) //将容器内指定范围的元素拷贝到另一容器中
replace(iterator beg, iterator end, oldvalue, newvalue) //将容器内指定范围的旧元素修改为新元素
swap(container c1, container c2) //互换两个容器的元素
常用算数生成算法
accumulate(iterator beg, iterator end, value) //计算容器元素累计总和
fill(iterator beg, iterator end, value) // 向容器中填充元素
常用集合算法
set_intersection(iterator beg1, iterator end1, iterator beg2, iterator end2, iterator dest) //求两个set集合的交集
set_union(iterator beg1, iterator end1, iterator beg2, iterator end2, iterator dest) //求两个set集合的并集
set_difference(iterator beg1, iterator end1, iterator beg2, iterator end2, iterator dest) //求两个set集合的差集
迭代器
迭代器(iterator)是一种抽象的设计概念,现实程序语言中并没有直接对应于这个概念的实物。 在<<设计模式>>这本书里提供的23种设计模式中就有iterator模式的定义:提供一种方法,使用这种方法就能够依序遍历某个容器所含的各个元素,而且不会暴露这个容器的内部表示方式。我理解它其实就相当于容器和操纵容器的算法之间的中介
那么迭代器的设计思维也是STL的比较关键的地方,STL的中心思想在于将容器和算法分开,彼此独立设计,最后再一贴胶着剂将他们撮合在一起。
所以说迭代器提供了访问容器中对象的方法。那么举个例子,可以使用一对迭代器指定list或vector中的一定范围的对象。迭代器就如同一个指针。事实上,C++的指针也是一种迭代器。但是,迭代器也可以是那些定义了operator*()以及其他类似于指针的操作符地方法的类对象;从实现角度来看,迭代器是一种将operator* , operator-> , operator++,operator–等指针相关操作予以重载的class template. 所有STL容器都附带有自己专属的迭代器,只有容器的设计者才知道如何遍历自己的元素。原生指针(native pointer)也是一种迭代器。
迭代器 | 功能 |
---|---|
输入迭代器 | 提供对数据的只读访问,支持++、==、!= |
输出迭代器 | 提供对数据的只写访问,支持++ |
前向迭代器 | 提供读写操作,并能向前推进迭代器,支持++、==、!= |
双向迭代器 | 提供读写操作,并能向前和向后操作,支持++、–- |
随机访问迭代器 | 提供读写操作,并能以跳跃的方式访问容器的任意数据,是功能最强的迭代器,支持++、–-、[n]、-n、<、<=、>、>= |
仿函数
仿函数:行为类似函数,可作为算法的某种策略。从实现角度来看,仿函数是一种重载了operator()的class 或者class template
适配器
适配器:一种用来修饰容器或者仿函数或迭代器接口的东西。
空间配置器
空间配置器:负责空间的配置与管理。从实现角度看,配置器是一个实现了动态空间配置、空间管理、空间释放的class tempalte.