Thu, 25 Jan 2018 05:44:00 GMT

最�q�在公司有点旉��所以深入研�I�了下数据库索引btree/b+tree数据�l�构和原理，由此牵引��Z��好多问题�Q�请看如下带着问题研究�?br />
1�Q��ؓ什�?btree/b+tree 数据�l�构适合数据库烦引，它到底是怎么样一个原理和�l�构�Q?br />
btree/b+tree 数据�l�构�Q?br />
在之前的文章中我们介�l�过AVL树，�U�黑树，它们都属于二叉树�Q�即每个节点最多只能拥�?个子节点�Q�而B-tree�Q�B树）的每个节点可以拥�?个以上的子节点，所以我们简单概括一下：B-tree��是一颗多路��^衡查找树�Q�它�q�泛应用于数据库索引和文件系�l�中�?/span>

首先我们介绍一下一�?m 阶B-tree的特性，那么�q�个 m 阶是怎么定义的呢�Q�这里我们以一个节点能拥有的最大子节点数来表示�q�颗树的阶数。�D个例子，如果一个节�Ҏ��多有 n 个key�Q�那么这个节�Ҏ��多就会有 n+1 个子节点�Q�这��|��叫�?n+1�Q�m=n+1�Q�阶树。一�?m 阶B-tree包括以下5条特性：

每个节点最多有 m 个子节点
除根节点和叶子节点，其它每个节点臛_��?[m/2] �Q�向上取整的意思）个子节点
若根节点不是叶子节点�Q�则其至��有2个子节点
所有NULL节点到根节点的高度都一�?/li>
除根节点外，其它节点都包�?n 个key�Q�其�?[m/2] -1 <= n <= m-1

�q�些�Ҏ��可能看着不太好理解，下面我们会介�l�B-tree的插入，在插入节点的�q�程中我们就会慢慢理解这些特性了。B-tree的插入比较简单，��是一个节点至下而上的分裂过�E�。下面我们具体以一�?阶树来展�C�B-tree的插入过�E��?/p>

首先我们插入 200�Q?00�Q?00�Q�没有什么问题，直接插入��好�?/p>

| 200 | 300 | 400 |

现在我们接着插入500�Q�这个时候我们发现有炚w��题，�Ҏ��定义及特�?我们知道一�?阶B-tree的每个节�Ҏ��多只能有3个key�Q�插�?00后这个节点就�?个key了�?/p>

| 200 | 300 | 400 | 500 |

�q�个时候我们就需要分裂，��中间的key上移到父节点�Q�左边的作�ؓ左节点，双��的作为右节点�Q�如下图所�C�：

�q�个时候我们是不是��明白特�?了，如果根节点不是叶子节点，那么它肯定发生了分裂�Q�所以至��会�?个子节点。同��h��们接着插入600�Q?00�Q?00�Q?00插入�q�程如下图所�C�：

现在根节点也已经满了�Q�如果我们��l�插�?10�Q?20�Q�会怎样呢？根节点就会��l�分裂，树��l�向上生�ѝ��看下图�Q?/span>

通过整个的插入过�E�我们也会发玎ͼ�B-tree和二叉树的一个显著的区别��是�Q�B-tree是从下往上生长，而二叉树是从上往下生长的。现在我们想想特�?和特�?是�ؓ什么？首先我们知道子节点的个数是等于key的数�?1�Q�然后一个节点达到m个key后就会分裂，所以分裂后的节�Ҏ��能得到 m/2 - 1个key 。�ؓ啥还要减一呢？因�ؓ�q�要拿一个作为父节点。所以这个节�Ҏ��回拥有 m/2 - 1 + 1 = m/2 个子节点。同样得到特�?�Q�因为最��有m/2个子节点�Q�所以最��就含有m/2-1个key�Q�m 阶树�Q�每个节点存��C��m个key��׃��分裂�Q�所以最多就�?m-1个key�?/p>

�Ҏ��以上�Ҏ��我们能推出一��含有N个��d��键字数的m阶的B-tree树的最大高度h的�?

树的高度h: 1�Q?2�Q?3 �Q?4 �Q?......... �Q?h

节点个数s: 1�Q?2�Q?2*(m/2)�Q?2*(m/2)(m/2)�Q?........ �Q?*(m/2)的h-2�ơ方

s = 1 + 2(1 - )/(1- (m/2))

N = 1 + s * ((m/2) - 1) = 2 * () - 1

h = log┌m/2┐((N+1)/2 )+1

2�Q��ؓ什么btree/b+tree 为常用数据库索引�l�构�Q?br />

上文说过�Q�红黑树�{�数据结构也可以用来实现索引�Q�但是文件系�l�及数据库系�l�普遍采用B-/+Tree作�ؓ索引�l�构�Q�这一节将�l�合计算机组成原理相关知识讨论B-/+Tree作�ؓ索引的理论基��?/p>

一般来��_��索引本��n也很大，不可能全部存储在内存中，因此索引往往以烦引文件的形式存储的磁盘上。这��L��话，索引查找�q�程中就要��生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量��Q�所以评价一个数据结构作为烦引的优劣最重要的指标就是在查找�q�程中磁盘I/O操作�ơ数的渐�q�复杂度。换句话��_��索引的结构组�l�要��量减少查找�q�程中磁盘I/O的存取次数。下面先介绍内存和磁盘存取原理，然后再结合这些原理分析B-/+Tree作�ؓ索引的效率�?/p>

��d��存取原理

目前计算��Z��用的��d��基本都是随机��d��存储器（RAM�Q�，��C��RAM的结构和存取原理比较复杂�Q�这里本文抛却具体差别，抽象��Z��个十分简单的存取模型来说明RAM的工作原理�?/p>

�?

从抽象角度看�Q�主存是一�p�d��的存储单元组成的矩阵�Q�每个存储单元存储固定大��的数据。每个存储单元有唯一的地址�Q�现代主存的�~�址规则比较复杂�Q�这里将其简化成一个二�l�地址�Q�通过一个行地址和一个列地址可以唯一定位��C��个存储单元。图5展示了一�? x 4的主存模型�?/p>

��d��的存取过�E�如下：

当系�l�需要读取主存时�Q�则��地址信号攑ֈ�地址�ȝ��上传�l�主存，��d��d��地址信号后，解析信号�q�定位到指定存储单元�Q�然后将此存储单元数据放到数据�ȝ��上，供其它部件读取�?/p>

写主存的�q�程�c�M��Q�系�l�将要写入单元地址和数据分别放在地址�ȝ��和数据�ȝ��上，��d��d��两个�ȝ��的内容，做相应的写操作�?/p>

�q�里可以看出�Q�主存存取的旉��仅与存取�ơ数呈线性关�p�，因�ؓ不存在机械操作，两次存取的数据的“距离”不会�Ҏ��间有��M��影响�Q�例如，先取A0再取A1和先取A0再取D3的时间消耗是一��L��?/p>

��盘存取原理

上文说过�Q�烦引一般以文�g形式存储在磁盘上�Q�烦引检索需要磁盘I/O操作。与��d��不同�Q�磁盘I/O存在机械�q�动耗费�Q�因此磁盘I/O的时间消耗是巨大的�?/p>

�?是磁盘的整体�l�构�C�意图�?/p>

�?

一个磁盘由大小相同且同轴的圆�Ş盘片�l�成�Q�磁盘可以�{动（各个��盘必须同步转动�Q�。在��盘的一侧有��头支架�Q�磁头支架固定了一�l�磁��_��每个��头负责存取一个磁盘的内容。磁头不能�{动，但是可以沿磁盘半径方向运动（实际是斜切向�q�动�Q�，每个��头同一时刻也必��L��同��u的，即从正上方向下看�Q�所有磁头�Q何时候都是重叠的�Q�不�q�目前已�l�有多磁头独立技术，可不受此限制�Q��?/p>

�?是磁盘结构的�C�意图�?/p>

�?

盘片被划分成一�p�d��同心环，圆心是盘片中心，每个同心环叫做一个磁道，所有半径相同的��道�l�成一个柱面。磁道被沿半径线划分成一个个��的�D�，每个�D�叫做一个扇区，每个扇区是磁盘的最��存储单元。�ؓ了简单�v见，我们下面假设��盘只有一个盘片和一个磁头�?/p>

当需要从��盘��d��数据�Ӟ��pȝ��会将数据逻辑地址传给��盘�Q�磁盘的控制电�\按照��d��逻辑��逻辑地址��译成物理地址�Q�即��定要读的数据在哪个��道�Q�哪个扇区。�ؓ了读取这个扇区的数据�Q�需要将��头攑ֈ��q�个扇区上方�Q��ؓ了实现这一点，��头需要移动对准相应磁道，�q�个�q�程叫做寻道�Q�所耗费旉��叫做寻道旉��Q�然后磁盘旋转将目标扇区旋�{到磁头下�Q�这个过�E�耗费的时间叫做旋转时间�?/p>

局部性原理与��盘预读

�׃��存储介质的特性，��盘本��n存取��比��d��慢很多，再加上机械运动耗费�Q�磁盘的存取速度往往是主存的几百分分之一�Q�因此�ؓ了提高效率，要尽量减��磁盘I/O。�ؓ了达到这个目的，��盘往往不是严格按需��d��Q�而是每次都会预读�Q�即使只需要一个字节，��盘也会从这个位�|�开始，��序向后��d��一定长度的数据攑օ�内存。这样做的理��Z��据是计算机科学中著名的局部性原理：

当一个数据被用到�Ӟ��光��q�的数据也通常会马上被使用�?/p>

�E�序�q�行期间所需要的数据通常比较集中�?/p>

�׃��盘��序��d��的效率很高（不需要寻道时��_��只需很少的旋转时��_��Q�因此对于具有局部性的�E�序来说�Q�预��d��以提高I/O效率�?/p>

预读的长度一般�ؓ��（page�Q�的整倍数。页是计��机��理存储器的逻辑块，��g及操作系�l�往往��主存和��盘存储区分割�ؓ�q�箋的大��相�{�的块，每个存储块称��Z��（在许多操作系�l�中�Q�页得大��通常�?k�Q�，��d��和磁盘以��ؓ单位交换数据。当�E�序要读取的数据不在��d��中时�Q�会触发一个缺��异常，此时�pȝ��会向��盘发出�ȝ��信号�Q�磁盘会扑ֈ�数据的�v始位�|��ƈ向后�q�箋��d��一��|��几页载入内存中，然后异常�q�回�Q�程序��l�运行�?/p>

B-/+Tree索引的性能分析

到这里终于可以分析B-/+Tree索引的性能了�?/p>

上文说过一般��用磁盘I/O�ơ数评�h索引�l�构的优劣。先从B-Tree分析�Q�根据B-Tree的定义，可知��索一�ơ最多需要访问h个节炏V��数据库�pȝ��的设计者��y妙利用了��盘预读原理�Q�将一个节点的大小设�ؓ�{�于一个页�Q�这��h��个节点只需要一�ơI/O��可以完全蝲入。�ؓ了达到这个目的，在实际实现B- Tree�q�需要��用如下技巧：

每次新徏节点�Ӟ��直接甌��一个页的空��_��q�样��׃��证一个节点物理上也存储在一个页里，加之计算机存储分配都是按��对齐的�Q�就实现了一个node只需一�ơI/O�?/p>

B-Tree中一�ơ检索最多需要h-1�ơI/O�Q�根节点帔R��内存�Q�，渐进复杂度�ؓO(h)=O(logdN)�?/strong>一般实际应用中�Q�出度d是非常大的数字，通常��过100�Q�因此h非常��（通常不超�q?�Q��?/p>

�l�g��所�q�ͼ�用B-Tree作�ؓ索引�l�构效率是非帔R��的�?/p>

而红黑树�q�种�l�构�Q�h明显要深的多。由于逻辑上很�q�的节点�Q�父子）物理上可能很�q�，无法利用局部性，所以红黑树的I/O渐进复杂度也为O(h)�Q�效率明显比B-Tree差很多�?/p>

上文�q�说�q�，B+Tree更适合外存索引�Q�原因和内节点出度d有关。从上面分析可以看到�Q�d��大索引的性能��好�Q�而出度的上限取决于节点内key和data的大��：

dmax = floor(pagesize / (keysize + datasize + pointsize)) (pagesize – dmax >= pointsize)

�?/p>

dmax = floor(pagesize / (keysize + datasize + pointsize)) - 1 (pagesize – dmax < pointsize)

floor表示向下取整。由于B+Tree内节点去掉了data域，因此可以拥有更大的出度，拥有更好的性能�?/p>

�q�一章从理论角度讨论了与索引相关的数据结构与��法问题�Q�下一章将讨论B+Tree是如何具体实��CؓMySQL中烦引，同时��结合MyISAM和InnDB存储引擎介绍非聚集烦引和聚集索引两种不同的烦引实现�Ş式�?/p>

张钊�?/a> 2018-01-25 13:44 发表评论

亚洲欧洲视频在线,91久久久久,日本亚洲不卡

��d��存取原理

���盘存取原理

局部性原理与���盘预读

B-/+Tree索引的性能分析

��盘存取原理

局部性原理与��盘预读