英文源地址
关于B树和二叉查找树的直觉
我们的第一个直觉来自于平衡二叉树(BST).二叉树是用于排序数据的常用数据结构.在插入或移除键后保持树的良好形状就是’平衡’的意思.如前一章所述, 为了利用"页"(IO的最小单元), 应该使用n叉树而不是二叉树.
b树可以由二叉查找树推广得到.b树的每个节点包含多个键和其他节点的多个链接.在节点中查找键时, 所有键都用于确定下一个子节点.
b树的平衡与二叉查找树不同, 流行的BST树比如红黑树或AVL树时在子树的高度上平衡的(通过旋转).虽然所有的b树叶节点的高度相同, 但b树通过节点的大小来平衡.
- 如果一个节点太大而无法放在一个页上, 则将其分为两个节点. 这将增加父节点的大小, 如果根节点被分割, 可能还会增加树的高度.
- 如果节点太小, 将尝试将其与兄弟节点合并
b树和嵌套数组
即使你对2-3tree不熟悉, 仍然可以使用嵌套数组获得一些直觉.
让我们从一个排好序的数组开始, 查询可以通过二分法来完成.但更新数组是O(n)的时间复杂度是我们需要解决的问题.更新一个大数组是很糟糕的, 所以我们把它分成更小的数组.假设我们将数组分成sqrt(n)个部分, 每个部分平均包含sqrt(n)个键.
要查询一个键, 我们必须首先确定哪个部分包含该键, 在sqrt(n)部分上的等分是O(logn).在这之后, 对这部分的键进行平分还是O(logn)-这不比之前差.而更新操作被改善为O(sqrt(n))
这是一个两层排序嵌套数组, 如果我们添加更多的层会怎么样?这是对b树的另一种直观理解.
b树的操作
查询一颗b树和查询一颗二分查找树是一样的.
更新b树更为复杂.从现在开始, 我们将使用b树的一种变体,成为b+树, b+树仅在叶子节点中存储值, 内存节点仅包含键.
从叶子节点开始键插入.叶节点就是键的排序列表.将键插入到叶子中是微不足道的.但是, 插入可能导致节点大小超过页面大小.在这种情况下, 我们需要将叶子节点拆分为2个节点, 每个节点包含一半的键, 以便两个叶子节点都适应一个页大小.
内部节点包含:
- 指向其子节点的指针列表
- 与指针列表配对的键列表.每个键都是对于子键的第一个键.
将一个叶子节点分成2个节点后, 父节点用新的指针和键替换旧的指针和键. 节点的大小会增加, 这可能会引发进一步的分裂.
根节点分裂后, 会添加一个新的根节点. 这就是b树的生成过程.
键删除与插入相反. 节点永远不会为空, 因为小节点将合并到它的左兄弟或右兄弟节点中去.
当一个非叶子节点的根节点被简化为一个键时, 这个根节点可以被它唯一的子节点取代. 这就是b树收缩的方式.
不可变数据结构
不可变意味着用韵不会就地更新数据.一些类似的术语是’仅追加’, ‘写时复制’和’持久数据结构’('持久’这个词与我们之前讨论的persistence没有任何关系).
例如,在向叶子节点插入键时, 不要就地修改节点, 而是使用来自待更新节点的所有键和新键创建一个新节点.现在, 还必须更新父节点以指向新节点.
同样, 父节点与新指针重复. 在到达根节点之前, 整个路径都被复制了. 这有效地创建了与旧版本共存的树的新版本.
不可变数据结构有几个优势:
1.避免数据损坏, 不可变数据结构不修改现有数据, 它们只是添加新数据, 因此即使更新中断, 旧版本数据也保持完整.
2.容易并发.读操作可以与写操作并发执行, 因为读取操作可以在旧版本上不受影响地工作.
持久化和并发性将在后面地章节中讨论.现在, 我们将首先编写一个不可变地B+树.