网友自拍亚洲,久久久久亚洲综合,色综合视频在线观看

B+树的研究

Titan — Sun, 12 Feb 2006 15:12:00 GMT

1、B+树烦引的��M��l�构
①B⁺树烦引是一个多�U�烦引，但是其结构不同于多��序索引�Q?BR>②B⁺树烦引采用��^衡树�l�构�Q�即每个叶结点到根的路径长度都相同；
③每个非叶�l�点�?IMG height=14 src="http://www.nuist.edu.cn/courses/jsj/GD_jsj_013b/image/title/08/02.gif" width=29>到n个子奻I��n对特定的树是固定的；
④B⁺树的所有结点结构都相同�Q�它最多包含n-1个搜索码值K1、K2、…、Kn-1�Q�以及n个指针P1、P2、…、Pn�Q�每个结点中的搜索码值按�ơ序存放�Q�即如果i�?-3-1所�C��?BR>

�?-3-1�Q�B⁺树的�l�点�l�构

2、B⁺树烦引的叶结�?/SPAN>
①指针Pi(i=1,2,�?n-1)指向��h��搜烦码值Ki的一个文件记录或一个指针（存储�Q�桶�Q�桶中的每个指针指向��h��搜烦码值Ki的一个文件记录。指针桶只在文�g不按搜烦码顺序物理存储时才��用。指针Pn��h��Ҏ��的作用；
②每个叶结�Ҏ��多可有n-1个搜索码��|��最��也要有个搜索码倹{��各个叶�l�点中搜索码值的范围互不�怺�。要使B+树烦引成为稠密烦引，数据文�g中的各搜索码值都必须出现在某个叶�l�点中且只能出现一�ơ；
③�׃��各叶�l�点按照所含的搜烦码值有一个线性顺序，所以就可以利用各个叶结点的指针Pn��叶�l�点按搜索码��序链接在一赗��这�U�排序能够高效地�Ҏ��件进行顺序处理，而B⁺树烦引的其他�l�构能够高效地对文�g�q�行随机处理�Q�如�?-3-2所�C��?BR>

�?-3-2�Q�B+树烦引的叶结点结构示�?/SPAN>

3、B⁺树烦引的非叶�l�点
①B⁺树烦引的非叶�l�点形成叶结点上的一个多�U�（�E�疏）索引�Q?BR>②非叶�l�点的结构和叶结点的�l�构相同�Q�即含有能够存储n-1个搜索码值和n个指针的存储单元的数据结构。只不过非叶�l�点中的所有指针都指向树中的结点；
③如果一个非叶结�Ҏ��m个指针，�?IMG height=14 src="http://www.nuist.edu.cn/courses/jsj/GD_jsj_013b/image/title/08/02.gif" width=29>≤m≤n。若m�?-3-3所�C�；

�?-3-3�Q�B+树烦引的非叶�l�点�l�构

④在一个含有m个指针的非叶�l�点中，指针Pi(i=2,�?m-1)指向一��子树，该子树的所有结点的搜烦码值大于等于Ki-1而小于Ki。指针Pm指向子树中所含搜索码值大于等于Km-1的那一部分�Q�而指针P1指向子树中所含搜索码值小于K1的那一部分�Q�如�?-3-4所�C��?BR>

�?-3-4�Q�B⁺树烦引的非叶�l�点中指针Pi的指�?BR>

4、B⁺树烦引的根结�?/SPAN>
①根结点的�l�构也与叶结点相同；
②根结点包含的指针数可以小�?IMG height=14 src="http://www.nuist.edu.cn/courses/jsj/GD_jsj_013b/image/title/08/02.gif" width=29>。但是，除非整棵树只有一个结点，否则根结点必��至��包含两个指针�?SPAN class=part>�?-3-5�l�出一个B⁺树结构的�C�意图。�?BR>

�?-3-5�Q�account关系的B⁺树烦引结�?

Titan 2006-02-12 23:12 发表评论

��Z��索引的SQL语句优化之降龙十八掌

Titan — Tue, 03 Jan 2006 12:26:00 GMT

摘要: 1 前言... 2 2 �ȝ��... 2 3 降龙十八�?.. 3 �W�一�?避免对列的操�?.. 3 �W�二�?避免不必要的�c�d��转换... 4 �W�三�?增加查询的范围限�?.. 4 �W�四�?��量��L��"IN"�?OR" 4 �W�五�?��量��L�� "&l... 阅读全文

Titan 2006-01-03 20:26 发表评论

[转]B-tree algorithms

Titan — Tue, 03 Jan 2006 12:24:00 GMT

B-tree algorithms

A B-tree is a data structure that maintains an ordered set of data and allows efficient operations to find, delete, insert, and browse the data. In this discussion, each piece of data stored in a B-tree will be called a "key", because each key is unique and can occur in the B-tree in only one location.

A B-tree consists of "node" records containing the keys, and pointers that link the nodes of the B-tree together.

Every B-tree is of some "order n", meaning nodes contain from n to 2n keys, and nodes are thereby always at least half full of keys. Keys are kept in sorted order within each node. A corresponding list of pointers are effectively interspersed between keys to indicate where to search for a key if it isn't in the current node. A node containing k keys always also contains k+1 pointers.

For example, here is a portion of a B-tree with order 2 (nodes have at least 2 keys and 3 pointers). Nodes are delimited with [square brackets]. The keys are city names, and are kept sorted in each node. On either side of every key are pointers linking the key to subsequent nodes:

           Start here
           | 
           v 
           [ Chicago Hoboken ]  
            |       |       | 
+-----------+       |       +------------+
|                   |                    |
v                   v                    v
[ Aptos Boston ]    [ Denver Detroit ]   [ San-Jose Seattle ]
 |     |      |      |      |       |     |        |       |
 v     v      v      v      v       v     v        v       v
                     X

To find the key "Dallas", we begin searching at the top "root" node. "Dallas" is not in the node but sorts between "Chicago" and "Hoboken", so we follow the middle pointer to the next node. Again, "Dallas" is not in the node but sorts before "Denver", so we follow that node's first pointer down to the next node (marked with an "X"). Eventually, we will either locate the key, or encounter a "leaf" node at the bottom level of the B-tree with no pointers to any lower nodes and without the key we want, indicating the key is nowhere in the B-tree.

Below is another fragment of an order 1 B-tree (nodes have at least 1 key and 2 pointers). Searching for the key "Chicago" begins at "Marin", follows the first pointer to "Aptos" (since Chicago sorts before Marin), then follows that node's second pointer down to the next level (since Chicago sorts after Aptos), as marked with an "X".

          | 
          v 
      [ Marin ]  
       |     |
    +--+     +---+
    |            |
    v            v
[ Aptos ]   [ Seattle ]
 |     |     |       |
 v     v     v       v 
       X

Searching a B-tree for a key always begins at the root node and follows pointers from node to node until either the key is located or the search fails because a leaf node is reached and there are no more pointers to follow.

B-trees grow when new keys are inserted. Since the root node initially begins with just one key, the root node is a special exception and the only node allowed to have less than n keys in an order n B-tree.

Here is an order 2 B-tree with integer keys. Except for the special root node, order 2 requires every node to have from 2 to 4 keys and 3 to 5 pointers. Empty slots are marked with ".", showing where future keys have not yet been stored in the nodes:

                       [ 57 . . .]
                        |  |
        +---------------+  +---------------------+
        |                                        |
        v                                        v
        [ 14 40 . .]                             [ 72 84 . .]
         |  |  |                                  |  |  |
+--------+  |  +----------+            +----------+  |  +-----------+
|           |             |            |             |              |
v           v             v            v             v              v
[01 12 . .] [15 16 17 .]  [47 56 . .]  [58 60 61 .]  [74 75 76 78]  [85 86 99 .]

To insert the key "59", we first simply search for that key. If 59 is found, the key is already in the tree and the insertion is superfluous. Otherwise, we must end up at a leaf node at the bottom level of the tree where 59 would be stored. In the above case, the leaf node contains 58, 60, 61, and room for a fourth key, so 59 is simply inserted in the leaf node in sorted order:

[58 59 60 61]

Now we'll insert the key "77". The initial search leads us to the leaf node where 77 would be inserted, but the node is already full with 4 keys: 74, 75, 76, and 78. Adding another key would violate the rule that order 2 B-trees can't have more than 4 keys. Because of this "overflow" condition, the leaf node is split into two leaf nodes. The leftmost 2 keys are put in the left node, the rightmost 2 keys are put in the right node, and the middle key is "promoted" by inserting it into the parent node above the leaf. Here, inserting 77 causes the 74-75-76-78 node to be split into two nodes, and 76 is moved up to the parent node that contained 72 and 84:

Before inserting 77           After inserting 77

[ 72 84 . .]                    [ 72 76 84 .]
 |  |  |                         |  |  |  |
-+  |  +-                      --+  |  |  +--
    |                               |  |
    |                          +----+  +------+
    |                          |              |
    v                          v              v
    [74 75 76 78]              [74 75 . .]    [77 78 . .]

In this case, the parent node contained only 2 keys (72 and 84), leaving room for 76 to be promoted and inserted. But if the parent node was also already full with 4 keys, then it too would have to split. Indeed, splitting may propagate all the way up to the root node. When the root splits, the B-tree grows in height by one level, and a new root with a single promoted key is formed. (A situation when an order n root node sometimes has fewer than n keys, just like the situation described earlier when the root node stores the very first key placed in the B-tree.)

B-trees shrink when keys are deleted. To delete a key, first perform the usual search operation to locate the node containing the key. (If the key isn't found, it isn't in the tree and can't be deleted.)

If the found key is not in a leaf, move it to a leaf by swapping the key with the logical "next" key. In a B-tree, the "next" key is always the first key in the leftmost leaf of the right subtree.

For example, in this B-tree we want to delete "37", which is not in a leaf. "xx" indicates key values that don't matter:

[ xx 37 xx xx ]
       |
       |
       +->[ xx xx xx xx ]
           |
           |
           +->[ xx xx xx xx ]
               |
               |
               +->[41 43 . .]

We follow the pointer immediately to the right of 37 to find 37's right subtree, then follow the leftmost pointers in each subnode until we reach a leaf. The first key in the leaf is "41", the logical "next" key after 37 in the list of all keys in the tree. By swapping 37 and 41, we can move 37 to a leaf node to set up a deletion without violating the key order or pointer order of the overall B-tree.

Once the key we want is in a leaf, we can delete it. If at least n keys remain in the node, we're done, otherwise it is an "underflow", since every node (except the root) must have at least n keys.

If a node underflows, we may be able to "redistribute" keys by borrowing some from a neighboring node. For example, in the order 3 B-tree below, the key 67 is being deleted, which causes a node to underflow since it only has keys 66 and 88 left. So keys from the neighbor on the left are "shifted through" the parent node and redistributed so both leaf nodes end up with 4 keys:

   Before deleting 67                         After deleting 67

     [ xx 55 xx ]                               [ xx 33 xx ]
         |  |                                       |  |
+--------+  +--------+                     +--------+  +------+
|                    |                     |                  |
v                    v                     v                  v
[22 24 26 28 33 44]  [66 67 88 . . .]      [22 24 26 28 . .]  [44 55 66 88 . .]

But if the underflow node and the neighbor node have less than 2n keys to redistribute, the two nodes will have to be combined. For example, here key 52 is being deleted from the B-tree below, causing an underflow, and the neighbor node can't afford to give up any keys for redistribution. So one node is discarded, and the parent key moves down with the other keys to fill up a single node:

Before deleting 52          After deleting 52

  [ 35 45 55 . ]              [ 35 55 . . ]
   |  |  |  |                  |  |  |
  -+  |  |  +-                -+  |  +-
      |  |                        |
+-----+  +---+                    |
|            |                    |
v            v                    v
[40 42 . .]  [50 52 . .]          [40 42 45 50]

In the above case, moving the key 45 out of the parent node left two keys (35 and 55) remaining. But if the parent node only had n keys to begin with, then the parent node also would underflow when the parent key was moved down to combine with the leaf key. Indeed, underflow and the combining of nodes may propagate all the way up to the root node. When the root underflows, the B-tree shrinks in height by one level, and the nodes under the old root combine to form a new root.

The payoff of the B-tree insert and delete rules are that B-trees are always "balanced". Searching an unbalanced tree may require traversing an arbitrary and unpredictable number of nodes and pointers.

An unbalanced tree of 4 nodes              A balanced tree of 4 nodes

[ x x ]                                             [ x x ]
    |                                                | | |
    [ x x ]                                   +------+ | +------+
        |                                     |        |        |
        [ x x ]                               [ x x ]  [ x x ]  [ x x ]
            |
            [ x x ]

Searching a balanced tree means that all leaves are at the same depth. There is no runaway pointer overhead. Indeed, even very large B-trees can guarantee only a small number of nodes must be retrieved to find a given key. For example, a B-tree of 10,000,000 keys with 50 keys per node never needs to retrieve more than 4 nodes to find any key.

Titan 2006-01-03 20:24 发表评论

ORACLE索引与高性能SQL介绍

Titan — Sat, 17 Dec 2005 16:09:00 GMT

　　什么是索引
　　
　　索引是徏立在表的一列或多个列上的辅助对象，目的是加快访问表中的数据�Q?BR>　　
　　Oracle存储索引的数据结构是B*树，位图索引也是如此�Q�只不过是叶子节点不同B*数烦引；
　　
　　索引由根节点、分支节点和叶子节点�l�成�Q�上�U�烦引块包含下��索引块的索引数据�Q�叶节点包含索引数据和确定行实际位置的rowid�?BR>　　
　　使用索引的目�?BR>　　加快查询速度
　　减少I/O操作
　　消除��盘排序
　　
　　何时使用索引
　　查询�q�回的记录数
　　排序�?lt;40%
　　非排序表 <7%
　　表的��片较多�Q�频�J�增加、删除）
　　
　　索引的种�c?BR>　　非唯一索引�Q�最常用�Q?BR>　　唯一索引
　　位图索引
　　局部有前缀分区索引
　　局部无前缀分区索引
　　全局有前�~�分区索引
　　散列分区索引
　　��Z��函数的烦�?BR>　　
　　��理索引的准�?BR>　　
　　在表中插入数据后创徏索引
　　
　　。在用SQL*Loader或import工具插入或装载数据后�Q�徏立烦引比较有效；
　　
　　索引正确的表和列
　　
　　。经常检索排序大表中40%或非排序�?%的行�Q�徏议徏索引�Q?BR>　　。�ؓ了改善多表关联，索引列用于联�l�；
　　。列中的值相�Ҏ��较唯一�Q?BR>　　。取��D��_��大：B*树烦引，��：位图索引�Q�；
　　。Date型列一般适合��Z��函数的烦引；
　　。列中有许多�I��|��不适合建立索引
　　
　　为性能而安排烦引列
　　
　　。经�怸�起��用多个字�D�|��索记录，�l�合索引比单索引更有效；
　　。把最常用的列攑֜�最前面�Q�例�Q�dx_groupid_serv_id(groupid,serv_id)�Q�在where条�g中��用groupid或groupid,serv_id�Q�查询将使用索引�Q�若仅用到serv_id字段�Q�则索引无效�Q?BR>　　。合�q?拆分不必要的索引�?BR>　　
　　限制每个表烦引的数量
　　
　　。一个表可以有几百个索引�Q�你会这样做吗？�Q�，但是对于频繁插入和更新表�Q�烦引越多系�l�CPU�Q�I/O负担��p��重；
　　。徏议每张表不超�q?个烦引�?BR>　　
　　删除不再需要的索引
　　
　　。烦引无效，集中表现在该使用��Z��函数的烦引或位图索引�Q�而��用了B*树烦引；
　　。应用中的查询不使用索引�Q?BR>　　。重建烦引之前必��d��删除索引�Q�若用alter index �?rebuild重徏索引�Q�则不必删除索引�?BR>　　
　　索引数据块空间��?/B>
　　
　　。创建烦引时指定表空��_��特别是在建立主键�Ӟ��应明��指定表�I�间�Q?BR>　　。合理设定pctfress�Q�注意：不能�l�烦引指定pctused�Q?BR>　　。估计烦引的大小和合理地讄��存储参数�Q�默认�ؓ表空间大��，或initial与next讄��成一样大�?BR>　　
　　考虑�q�行创徏索引
　　
　　。对大表可以采用�q�行创徏索引�Q�在�q�行创徏索引�Ӟ��存储参数被每个查询服务器�q�程分别使用�Q�例如：initial�?M�Q��ƈ行度�?�Q�则创徏索引期间臛_��要消�?M�I�间�Q?BR>　　
　　考虑用nologging创徏索引
　　
　　。对大表创徏索引可以使用nologging来减��重做日志；
　　。节省重做日志文件的�I�间�Q?BR>　　。羃短创建烦引的旉��Q?BR>　　。改善了�q�行创徏大烦引时的性能�?BR>　　
　　怎样建立最佳烦�?/B>
　　
　　明确地创建烦�?BR>　　create index index_name on table_name(field_name)
　　tablespace tablespace_name
　　pctfree 5
　　initrans 2
　　maxtrans 255
　　storage
　　(
　　minextents 1
　　maxextents 16382
　　pctincrease 0
　　);
　　
　　创徏��Z��函数的烦�?/B>
　　
　　。常用与UPPER、LOWER、TO_CHAR(date)�{�函数分�c�M��Q�例�Q?BR>　　create index idx_func on emp (UPPER(ename)) tablespace tablespace_name;
　　
　　创徏位图索引
　　
　　。对基数较小�Q�且基数相对�E�_��的列建立索引�Ӟ��首先应该考虑位图索引�Q�例�Q?BR>　　create bitmap index idx_bitm on class (classno) tablespace tablespace_name;
　　
　　明确地创建唯一索引
　　
　　。可以用create unique index语句来创建唯一索引�Q�例�Q?BR>　　create unique index dept_unique_idx on dept(dept_no) tablespace idx_1;
　　
　　创徏与约束相关的索引
　　
　　。可以用using index字句�Q��ؓ与unique和primary key�U�束相关的烦引，例如�Q?BR>　　alter table table_name
　　add constraint PK_primary_keyname primary key (field_name)
　　using index tablespace tablespace_name�Q?BR>　　
　　如何创徏局部分区烦�?/B>
　　
　　。基��表必��L��分区表；
　　。分区数量与基础表相同；
　　。每个烦引分区的子分区数量与相应的基��表分区相同；
　　。基��表的子分��Z��的行的烦引项�Q�被存储在该索引的相应的子分��Z��,例如:
　　Create Index TG_CDR04_SERV_ID_IDX On TG_CDR04(SERV_ID)
　　Pctfree 5
　　Tablespace TBS_AK01_IDX
　　Storage (
　　MaxExtents 32768
　　PctIncrease 0
　　FreeLists 1
　　FreeList Groups 1
　　)
　　local
　　/
　　
　　如何创徏范围分区的全局索引
　　
　　。基��表可以是全局表和分区表�?BR>　　create index idx_start_date on tg_cdr01(start_date)
　　global partition by range(start_date)
　　(partition p01_idx vlaues less than (�?106�?
　　partition p01_idx vlaues less than (�?111�?
　　�?BR>　　partition p01_idx vlaues less than (�?401�?))
　　/
　　
　　重徏现存的烦�?/B>
　　
　　重徏现存的烦引的当前时刻不会影响查询�Q?BR>　　
　　重徏索引可以删除额外的数据块�Q?BR>　　
　　提高索引查询效率�Q?BR>　　alter index idx_name rebuild nologging;
　　
　　对于分区索引�Q?BR>　　alter index idx_name rebuild partition partiton_name nologging;
　　
　　要删除烦引的原因
　　
　　。不再需要的索引�Q?BR>　　。烦引没有针对其相关的表所发布的查询提供所期望的性能改善�Q?BR>　　。应用没有用该烦引来查询数据�Q?BR>　　。该索引无效�Q�必��d��重徏之前删除该烦引；
　　。该索引已经变的太碎了，必须在重��Z��前删除该索引�Q?BR>　　。语句：drop index idx_name;drop index idx_name drop partition partition_name;
　　
　　建立索引的代�?/B>
　　
　　基础表维护时�Q�系�l�要同时�l�护索引�Q�不合理的烦引将严重影响�pȝ��资源�Q�主要表现在CPU和I/O上；
　　
　　插入、更新、删除数据��生大量db file sequential read锁等待；
　　
　　SQL优化器简�?BR>　　
　　��Z��规则的优化器
　　
　　。��L��使用索引
　　。��L��从驱动表开始（from子句最双��的表�Q?BR>　　。只有在不可避免的情况下�Q�才使用全表扫描
　　。�Q何烦引都可以
　　
　　��Z��成本的优化器
　　
　　。需要表、烦引的�l�计资料
　　Analyze table customer compute statistics;
　　Analyze table customer estimate statistics sample 5000 rows;
　　。表中设�|��ƈ行度、表分区
　　
　　优化器模�?BR>　　
　　rule模式
　　
　　。��d��略CBO和统计信息而基于规�?BR>　　choose模式
　　
　　。Oracle�Ҏ��情况选择rule or first_rows or all_rows
　　first_rows 模式
　　
　　。基于成本，以最快的速度�q�回记录�Q�会造成��M��查询速度的下降或消耗更多的资源�Q�們֐�索引扫描�Q�适合OLTP�pȝ��
　　all_rows模式
　　
　　。基于成本，��保��M��查询旉��最短，們֐��q�行全表扫描
　　
　　例如�Q?BR>　　Select last_name from customer order by last_name;用first_rows�Ӟ��q�速返回记录，但I/O量大�Q�用all_rows�Ӟ��q�回记录慢，但��用资源少�?BR>　　
　　调整SQL表访�?/B>
　　
　　全表扫描
　　
　　。返回记录：未排序表>40%�Q�排序表>7%�Q�徏议采用�ƈ行机制来提高讉K��速度�Q�DDS�Q?BR>　　
　　索引讉K��
　　
　　。最常用的方法，包括索引唯一扫描和烦引范围扫描，OLTP�Q?BR>　　
　　快速完全烦引扫�?BR>　　
　　。访问烦引中所有数据块�Q�结果相当于全表扫描�Q�可以用索引扫描代替全表扫描�Q�例如：
　　
　　Select serv_id,count(* ) from tg_cdr01 group by serv_id;
　　
　　评估全表扫描的合法�?BR>　　
　　如何实现�q�行扫描
　　
　　。永久�ƈ行化�Q�不推荐�Q?BR>　　alter table customer parallel degree 8;
　　
　　。单个查询�ƈ行化
　　select /*+ full(emp) parallel(emp,8)*/ * from emp;
　　
　　分区表效果明�?BR>　　
　　优化SQL语句排序
　　
　　排序的操作：
　　
　　。order by 子句
　　。group by 子句
　　。select distinct子句
　　。创建烦引时
　　。union或minus
　　。排序合�q�连�?BR>　　
　　如何避免排序
　　
　　。添加烦�?BR>　　。在索引中��用distinct子句
　　。避免排序合�q�连�?BR>　　
　　使用提示�q�行调整
　　
　　使用提示的原�?BR>　　
　　。语法：/*+ hint */
　　。��用表别名:select /*+ index(e dept_idx)*/ * from emp e
　　。检验提�C?BR>　　
　　常用的提�C?BR>　　
　　。rule
　　。all_rows
　　。first_rows
　　。use_nl
　　。use_hash
　　。use_merge
　　。index
　　。index_asc
　　。no_index
　　。index_desc�Q�常用于使用max内置函数�Q?BR>　　。index_combine(强制使用位图索引)
　　。index_ffs�Q�烦引快速完全扫描）
　　。use_concat(��查询中所有or条�g使用union all)
　　。parallel
　　。noparallel
　　。full
　　。ordered�Q�基于成本）
　　
　　调整表连�?/B>
　　
　　表连接的�c�d��
　　
　　。等�q�接
　　where 条�g中用�{�式�q�接�Q?BR>　　。外部连接（左、右�q�接�Q?BR>　　
　　在where条�g子句的等式谓词放�|�一�?+)来实玎ͼ�例如�Q?BR>　　select a.ename,b.comm from emp a,bonus b where a.ename=b.ename(+);
　　
　　该语句返回所有emp表的记录�Q?BR>　　。自�q�接
　　　Select a.value total, B.value hard, (A.value - b.value) soft ,
　　Round((b.value/a.value)*100,1) perc
　　From v$sysstat a,v$sysstat b
　　Where a.statistic# = 179
　　and B.statistic# = 180;
　　
　　反连�?BR>　　
　　反连接常用于not in or not exists中，是指在查询中扑ֈ�的�Q何记录都不包含在�l�果集中的子查询�Q�不��使用not in or not exists;
　　
　　。半�q�接
　　
　　查询中��用exists�Q�含义：即��在子查询中返回多条重复的记录�Q�外部查询也只返回一条记录�?BR>　　
　　嵌套循环�q�接
　　
　　。被�q�接表中存在索引的情况下使用�Q?BR>　　。��用use_nl�?BR>　　
　　hash�q�接
　　
　　。Hash�q�接��驱动表加蝲在内存中�Q��ƈ使用hash技术连接第二个表，提高�{�连接速度�?BR>　　。适合于大表和��表�q�接�Q?BR>　　。��用use_hash�?BR>　　
　　排序合�ƈ�q�接
　　
　　。排序合�q�连接不使用索引
　　。��用原则：
　　
　　�q�接表子�D�中不存在可用烦引；
　　
　　查询�q�回两个表中大部分的数据快；
　　
　　CBO认�ؓ全表扫描比烦引扫描执行的更快�?BR>　　
　　。��用use_merge
　　
　　使用临时/中间�?/B>
　　
　　多个大表兌��Ӟ��可以分别把满��x��件的�l�果集存攑ֈ�中间表，然后用中间表兌��Q?BR>　　
　　SQL子查询的调整
　　
　　兌��与非兌��子查�?BR>　　
　　。关联：子查询的内部引用的是外部表，每行执行一�ơ；
　　。非兌��Q�子查询只执行一�ơ，存放在内存中�?BR>　　
　　调整not in 和not exists语句
　　
　　。可以��用外部连接优化not in子句�Q�例如：
　　select ename from emp where dept_no not in
　　(select dept_no from dept where dept_name =‘Math�?;
　　
　　改�ؓ�Q?BR>　　select ename from emp,dept
　　where emp.dept_no=dept.dept_no
　　and dept.dept_name is null;
　　
　　使用索引调整SQL
　　
　　Oracle ��Z��么不使用索引
　　
　　。检查被索引的列或组合烦引的首列是否出现在PL/SQL语句的WHERE子句中，�q�是“执行计划”能用到相关索引的必要条件�?BR>　　
　　。看采用了哪�U�类型的�q�接方式。ORACLE的共有Sort Merge Join�Q�SMJ�Q�、Hash Join�Q�HJ�Q�和Nested Loop Join�Q�NL�Q�。在两张表连接，且内表的目标列上建有索引�Ӟ��只有Nested Loop才能有效地利用到该烦引。SMJ即��相关列上建有索引�Q�最多只能因索引的存在，避免数据排序�q�程。HJ�׃��d��HASH�q�算�Q�烦引的存在�Ҏ��据查询速度几乎没有影响�?BR>　　
　　。看�q�接��序是否允许使用相关索引。假设表emp的deptno列上有烦引，表dept的列deptno上无索引�Q�WHERE语句有emp.deptno=dept.deptno条�g。在做NL�q�接�Ӟ��emp做�ؓ外表�Q�先被访问，�׃��q�接机制原因�Q�外表的数据讉K��方式是全表扫描，emp.deptno上的索引昄��是用不上�Q�最多在其上做烦引全扫描或烦引快速全扫描�?BR>　　
　　。是否用到系�l�数据字典表或视图。由于系�l�数据字典表都未被分析过�Q�可能导致极差的“执行计划”。但是不要擅自对数据字典表做分析�Q�否则可能导致死锁，或系�l�性能下降�?BR>　　
　　。烦引列是否函数的参数。如是，索引在查询时用不上�?BR>　　
　　。是否存在潜在的数据�c�d��转换。如��字�W�型数据与数值型数据比较�Q�ORACLE会自动将字符型用to_number()函数�q�行转换�Q�从而导致上一�U�现象的发生�?BR>　　
　　。是否�ؓ表和相关的烦引搜集��够的�l�计数据。对数据�l�常有增、删、改的表最好定期对表和索引�q�行分析�Q�可用SQL语句“analyze table xxxx compute statistics for all indexes;”。ORACLE掌握了充分反映实际的�l�计数据�Q�才有可能做出正��的选择�?BR>　　
　　。烦引列的选择性不高�?　　我们假设典型情况�Q�有表emp�Q�共有一百万行数据，但其中的emp.deptno列，数据只有4�U�不同的��|��?0�?0�?0�?0。虽然emp数据行有很多�Q�ORACLE�~�省认定表中列的值是在所有数据行均匀分布的，也就是说每种deptno值各�?5万数据行与之对应。假设SQL搜烦条�gDEPTNO=10�Q�利用deptno列上的烦引进行数据搜索效率，往往不比全表扫描的高�?BR>　　
　　。烦引列值是否可为空�Q�NULL�Q�。如果烦引列值可以是�I��|��在SQL语句中那些要�q�回NULL值的操作�Q�将不会用到索引�Q�如COUNT�Q?�Q�，而是用全表扫描。这是因为烦引中存储��g��能�ؓ全空�?BR>　　
　　。看是否有用到�ƈ行查询（PQO�Q�。�ƈ行查询将不会用到索引�?BR>　　
　　。如果从以上几个斚w��都查不出原因的话�Q�我们只好用采用在语句中加hint的方式强制ORACLE使用最优的“执行计划”�?　hint采用注释的方式，有行注释和段注释两种方式�?　如我们想要用到A表的IND_COL1索引的话�Q�可采用以下方式�Q?　“SELECT /*+ INDEX�Q�A IND_COL1�Q?/ * FROM A WHERE COL1 = XXX;"
　　
　　如何屏蔽索引
　　
　　语句的执行计划中有不良烦引时�Q�可以�h为地屏蔽该烦引，�Ҏ��Q?BR>　　
　　。数值型�Q�在索引字段上加0�Q�例�?BR>　　select * from emp where emp_no+0 = v_emp_no;
　　
　　。字�W�型�Q�在索引字段上加‘’，例如
　　select * from tg_cdr01 where msisdn||’�?v_msisdn;

Titan 2005-12-18 00:09 发表评论

关于三种JOIN的理�?

Titan — Sat, 17 Dec 2005 16:06:00 GMT
　　Nested loop join:
　　
　　步骤�Q�确定一个驱动表(outer table)�Q�另一个表为inner table�Q�驱动表中的每一行与inner表中的相应记录JOIN。类��g��个嵌套的循环。适用于驱动表的记录集比较��（<10000�Q�而且inner表需要有有效的访问方法（Index�Q�。需要注意的是：JOIN的顺序很重要�Q�驱动表的记录集一定要��，�q�回�l�果集的响应旉��是最快的�?BR>　　
　　cost　= outer access cost + (inner access cost * outer cardinality)
　　
　　|　 2 |　 NESTED LOOPS　　　　　　　　|　　　　　　　|　　 3 |　 141 |　　 7　(15)|
　　|　 3 |　　TABLE ACCESS FULL　　　　　| EMPLOYEES　　|　　 3 |　　60 |　　 4　(25)|
　　|　 4 |　　TABLE ACCESS BY INDEX ROWID| JOBS　　　　 |　　19 |　 513 |　　 2　(50)|
　　|　 5 |　　 INDEX UNIQUE SCAN　　　　 | JOB_ID_PK　　|　　 1 |　　　 |　　　　　　|
　　
　　EMPLOYEES为outer table, JOBS为inner table.
　　
　　Hash join
　　
　　步骤�Q�将两个表中较小的一个在内存中构造一个HASH表（对JOIN KEY�Q�，扫描另一个表�Q�同样对JOIN KEY�q�行HASH后探��是否可以JOIN。适用于记录集比较大的情况。需要注意的是：如果HASH表太大，无法一�ơ构造在内存中，则分成若�q�个partition�Q�写入磁盘的temporary segment�Q�则会多一个写的代��P��会降低效率�?BR>　　
　　cost = (outer access cost * # of hash partitions) + inner access cost
　　--------------------------------------------------------------------------
　　| Id　| Operation　　　　　　|　Name　　　　| Rows　| Bytes | Cost (%CPU)|
　　--------------------------------------------------------------------------
　　|　 0 | SELECT STATEMENT　　 |　　　　　　　|　 665 | 13300 |　　 8　(25)|
　　|　 1 |　HASH JOIN　　　　　 |　　　　　　　|　 665 | 13300 |　　 8　(25)|
　　|　 2 |　 TABLE ACCESS FULL　| ORDERS　　　 |　 105 |　 840 |　　 4　(25)|
　　|　 3 |　 TABLE ACCESS FULL　| ORDER_ITEMS　|　 665 |　7980 |　　 4　(25)|
　　--------------------------------------------------------------------------
　　
　　ORDERS为HASH TABLE�Q�ORDER_ITEMS扫描
　　
　　Sort merge join
　　
　　步骤�Q�将两个表排序，然后��两个表合�ƈ。通常情况下，只有在以下情况发生时�Q�才会��用此�U�JOIN方式�Q?BR>　　
　　1.RBO模式
　　
　　2.不等价关�?>,<,>=,<=,<>)
　　
　　3.HASH_JOIN_ENABLED=false
　　
　　4.数据源已排序
　　
　　cost = (outer access cost * # of hash partitions) + inner access cost

Titan 2005-12-18 00:06 发表评论

Titan — Sat, 17 Dec 2005 15:56:00 GMT
SQL语句主要的连接方�?BR>
a) Nested-loop join
适合于小�?几千条，几万条记�?与大表做联接
在联接列上有索引�?BR>
分内表和外表(驱动�?�Q�靠�q�from子句的是内表。从效率上讲�Q�小表应该作外表�Q�大表应该作内表�Q�即大表查询时走索引�?BR>
COST= Access cost of A(驱动�? + (access cost of B * number of rows from A)

成本计算�Ҏ��Q?BR>讑ְ��?00行，大表100000行�?BR>
两表均有索引�Q?BR>如果��表在内�Q�大表在�?驱动�?的话�Q�则扫描�ơ数为：
100000+100000*2 (其中2表示IO�ơ数�Q�一�ơ烦引，一�ơ数�?
如果大表在内�Q�小表在�?驱动�?的话�Q�则扫描�ơ数为：
100+100*2.

两表均无索引�Q?BR>如果��表在内�Q�大表在外的话，则扫描次��Cؓ�Q?BR>100000+100*100000
如果大表在内�Q�小表在外的话，则扫描次��Cؓ�Q?BR>100+100000*100

注意�Q�如果一个表有烦引，一个表没有索引�Q�ORACLE会将没有索引的表作驱动表。如果两个表都有索引�Q�则外表作驱动表。如果两个都没烦引的话，则也是外表作驱动表�?BR>
基本的执行计划如下所�C�：
NESTED LOOPS
           TABLE ACCESS (BY ROWID)  OF  our_outer_table
                   INDEX (..SCAN) OF outer_table_index(�?)
           TABLE ACCESS (BY ROWID)  OF  our_inner_table
             INDEX (..SCAN) OF inner_table_index(�?)

b) Hash join

适合于大表与大表�Q�小�?几十万，几百�?与大表之间的联连�?BR>联接列上不需要烦引�?BR>
基本执行计划如下�Q?BR>HASH JOIN
              TABLE ACCESS (�?)  OF  tableA
              TABLE ACCESS (�?)  OF  tableB

cost= (access cost of A * number of hash partitions of B) + access cost of B

可以看出主要成本在于A表是否可以被Cache。Hash_area_size的大��将军_��Hash Join的主要成本。可以看出Hash Join的成本和�q�回集合�q�没有直接的关系�Q�所以当�q�回�l�果集比较大的时候一般具有较好的性能�?BR>
��Z��加快hash join的速度�Q�可以调大hash_area_size和pga_aggregate_target�Q�默认�ؓ25M�Q�的倹{�?BR>

c) Sort Merge join

每一个Row Source在Join列上均排序�?BR>然后两个排序后的Row Source合�ƈ后，作一个结果集�q�回�?BR>Sort/Merge Join仅仅对equal Join有效�?BR>
基本执行计划
MERGE (JOIN)
        SORT (JOIN)
                 TABLE ACCESS (�?)  OF  tableA
        SORT (JOIN)
                 TABLE ACCESS (�?)  OF  tableB

cost= access cost of A + access cost of B +(sort cost of A + sort cost of B)

可以看出Sort的成本是Merge Join的主要构成部分。这样sort_area_size的大��将很大�E�度军_��Merge Join的大��。同样如果A表或者B表已�l�经�q�排序的�Q�那么Merge Join往往��h��很好的性能。其不会走烦引�?BR>
没有驱动表的概念�Q�即时响应能力较差�?BR>

Titan 2005-12-17 23:56 发表评论

[转蝲]Effective SQL

Titan — Mon, 28 Nov 2005 15:06:00 GMT

前言�Q?
Effective SQL
��览了一遍EFFECTIVE�p�d��书名�Q�似乎缺��Effective SQL,所以有了一�U�莫名的冲动吧�?
参考CSDN和博客堂的文档，加上以自��q��切��n体会�ȝ��出的一些Effective�Q�希望能够给大家带来一些帮助�?
�׃��转蝲,整理的文章比较多,所以不一一指出出处,请原文作者多多谅�?
�{�于作者水�q�x��限，所以可能于实际中有较大出入�Q�望见谅�?
如有不正之处�Q�请及时与作者本��p�R��谢谢！

正文�Q?

一.名词解释�Q?
0。SQL �l�构化查询语�a�(Structured Query Language)

1。非关系型数据库�pȝ��
做�ؓ�W�一代数据库�pȝ��的�ȝ��Q�其包括2�U�类型：“层�ơ”数据库与“网状”数据库

“层�ơ”数据库��理�pȝ�� eg:IBM&IMS (Information Management System)
特点:数据按层�ơ模型组�l?

"�|�状"数据�?
特点�Q�数据按�|�状模型�l�织

2。关�p�d��数据库系�l?
关系性数据库��理�pȝ�� (RDBMS)
eg:SQL/DS , DB2, Oracle ,Informix ,Unity,dBASE�{?
特点�Q�数据按二维的表格组�l��?

3。数据库(DataBase)
按一定结构存储在计算��Z��怺�兌��的数据的集合�?

4。数据库��理�pȝ��DBMS(Database Management System)
一个通用的��Y件系�l�。就是让你怎么��理你的数据库。其中包括存储，安全�Q�完整性管理等�?

5。数据库应用�pȝ��DBAS �Q�Database Application System�Q?
数据库应用程序系�l�，建立在DBMS基础之上的。就是一个面向用��L��软�g�pȝ��?

6。ANSI标准 �Q�American National Standards Institute�Q�美国国家标准委员会
因�ؓ1999�q�第2�ơ更新SQL�Q�所以SQL又称为SQL99或SQL3�Q�第3版，�?个版本分别�ؓ1986�q�的sql ,1992 �q�的sql2/sql92�Q��?

7。SQL语句�?�U�类�?
数据操作语句(Data Manipulation Language ) DML 关于数据操作命��o�?nbsp; eg:select,insert,update,delete
数据定义语句(Data Definition Language ) DDL     关于数据对象讉K��?nbsp; eg:create�Q?drop
数据控制语句(Data Control Language) DCL         关于权限�?nbsp; eg:grant �Q�revoke

8。PL/SQL Procedural Language/sql
用于oracle的语�a�

9.T-SQL transact-sql
用于 microsoft sql server 和sybase adaptive server

10。E.F.Codd关于关系型数据库12条检验原则（MYSQL�Q�不支持视图和原子事物处理，所以排除）
内容�Q�暂�?

11。数据库设计之新奥尔良方法�?
需求分�?=》概念设�?=》逻辑设计==》物理设�?
4个步骤的具体中以需求分析最重要.
需求分析的内容:暂略
概念设计的内�?暂略
逻辑设计的内�?暂略
物理设计的内�?暂略

�?数据库优化方�?
1.索引
一概述

   可以利用索引快速访问数据库表中的特定信息。烦引是�Ҏ��据库表中一个或多个列的��D��行排序的�l�构�?
   索引提供指针以指向存储在表中指定列的数据��|��然后�Ҏ��指定的排序次序排列这些指针�?
   数据库��用烦引的方式与��用书的目录很�怼��Q�通过搜烦索引扑ֈ�特定的��|��
   然后跟随指针到达包含该值的�?

索引是一个单独的、物理的数据库结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识�q�些值的数据��늚�逻辑指针清单�?

一个表的存储是�׃��部分�l�成的，一部分用来存放表的数据��面�Q�另一部分存放索引��面。烦引就存放在烦引页面上

�?索引的两�U�类型：

聚集索引=��集索引

聚集索引��Z��数据行的键值在表内排序和存储这些数据行。由于数据行按基于聚集烦引键的排序次序存储，
因此聚集索引�Ҏ��找行很有效。每个表只能有一个聚集烦引，因�ؓ数据行本�w�只能按一个顺序存储�?
数据行本�w�构成聚集烦引的最低��别�?

只有当表包含聚集索引�Ӟ��表内的数据行才按排序�ơ序存储。如果表没有聚集索引�Q?
则其数据行按堆集方式存储�?

聚集索引对于那些�l�常要搜索范围值的列特别有效。��用聚集烦引找到包含第一个值的行后�Q?
便可以确保包含后�l�烦引值的行在物理盔R��。例如，如果应用�E�序执行的一个查询经常检索某一日期范围
内的记录�Q�则使用聚集索引可以�q�速找到包含开始日期的行，然后��索表中所有相�ȝ��行，
直到到达�l�束日期。这��h��助于提高此类查询的性能。同��P��如果对从表中��索的数据�q�行排序�?
�l�常要用到某一列，则可以将该表在该列上聚集�Q�物理排序）�Q�避免每�ơ查询该列时都进行排序，
从而节省成�?

非聚集烦�?

非聚集烦引具有完全独立于数据行的�l�构。非聚集索引的最低行包含非聚集烦引的键��|��
�q�且每个键值项都有指针指向包含该键值的数据行。数据行不按��Z��非聚集键的次序存储�?

在非聚集索引内，从烦引行指向数据行的指针�U�Cؓ行定位器�?
行定位器的结构取决于数据��늚�存储方式是堆集还是聚集。对于堆集，行定位器是指向行的指针�?
对于有聚集烦引的表，行定位器是聚集烦引键�?
只有在表上创��Z��聚集索引�Ӟ��表内的行才按特定的顺序存储。这些行��基于聚集烦引键按顺序存储�?
如果一个表只有非聚集烦引，它的数据行将按无序的堆集方式存储
非聚集烦引可以徏多个,两者都能改善查询性能

非聚集烦引与聚集索引一��h�� B 树结构，但是有两个重大差别：
数据行不按非聚集索引键的��序排序和存储�?
非聚集烦引的叶层不包含数据页�?
相反�Q�叶节点包含索引行。每个烦引行包含非聚集键��g��及一个或多个行定位器�Q?
�q�些行定位器指向有该键值的数据行（如果索引不唯一�Q�则可能是多行）�?
非聚集烦引可以在有聚集烦引的表、堆集或索引视图上定�?

聚集索引-->��序表结�?其物理数据和逻辑排序紧邻.
非聚集烦�?->单链表结�?��L��理和逻辑排序不按��序排列.

打个比方.
一本字�?你现在查一个陈�?你有2�U�方�?首先,你在知道他念chen的情况下��L��照拼韛_��母去查找.他是排在字母A,B
于是你很�Ҏ��的就扑ֈ�"�?�?�W?�U�方法则是按�~�旁查找,先找到��x��?��L��C��个��时的�~�旁表在��L��"�?�q�个�?然后按照�l�出�?
��|��扑ֈ�相应的位�|?
昄��,�W�一�U�方法就是聚集烦�?按照物理位置�Ҏ��排序来查�?
�W?�U�方法则是非聚集索引,按照一个��时烦引来查找.

另外
唯一索引

唯一索引可以��保索引列不包含重复的倹{��在多列唯一索引的情况下�Q�该索引可以��保索引列中每个值组
合都是唯一的。唯一索引既是索引也是�U�束�?

复合索引
索引��Ҏ��多个的就叫组合烦引，也叫复合索引。复合烦引��用时需要注意烦引项的次序�?

�?索引的创�?/P>
有两�U�方法可以在 SQL Server 内定义烦�? CREATE INDEX 语句和CREATE TABLE 语句

CREATE TABLE支持在创建烦引时使用下列�U�束�Q?/P>
PRIMARY KEY 创徏唯一索引来强制执行主�?
UNIQUE 创徏唯一索引
CLUSTERED 创徏聚集索引
NONCLUSTERED 创徏非聚集烦�?

�? 1 定义索引�Ӟ��可以指定每列的数据是按升序还是降序存储。如果不指定�Q�则默认为升�?
    2 支持在计��列上创建烦�?
    3 为烦引指定填充因�?
      可标识填充因子来指定每个索引��늚�填满�E�度。烦引页上的�I�Z��I�间量很重要�Q?
      因�ؓ当烦引页填满�Ӟ��pȝ��必须花时间拆分它以便为新行腾出空间�?

�?索引的维护语�?

DBCC DBREINDEX    重徏指定数据库中表的一个或多个索引
DBCC INDEXFRAG　　整理指定的表或视囄��聚集索引和辅助烦引碎�?

比较

             速度    兼容�?nbsp;    日志影响      数据讉K��影响       额外��盘�I�间
DBCC        最�?nbsp;     最�?nbsp;    �?但能通过�?nbsp; 操作�q�程中数据不   需要大
DBREINDEX             可以�?nbsp; 故障�q�原模型�?nbsp; 能访问，影响�?
                      建所�?nbsp; 为简单减��日�?nbsp;
                      有烦�?

DBCC        �?nbsp;      但可   必须�?nbsp; ��?nbsp;             数据未被锁定        需要小
INDEXDEFRAG          随时�l?别指�?
                     止执�?nbsp;


drop index    中等必须�?nbsp; �?但能通过�?nbsp;   仅在操作执行�?nbsp;   中等�Q�操作在
create index        别指�?nbsp; 故障�q�原模型�?nbsp; 锁定数据          tempdb中进�?
                             为简单减��日�?

�?查看索引的方�?

sp_indexes        �q�回指定�q�程表的索引信息
INDEXKEY_PROPERTY �q�回有关索引键的信息
sysindexes�pȝ��?nbsp; 数据库中的每个烦引和表在表中各占一行，该表存储在每个数据库�?

�?可以通过执行计划
   查看sql语句执行时是否徏立在索引之上

比如
CREATE TABLE Test
(Field_1 int NOT NULL,
Field_2 int CONSTRAINT PK_Test
PRIMARY KEY CLUSTERED (Field_1))

CREATE index IX_Test ON Test (Field_2)

1 SELECT * FROM Test WHERE Field_2 =408
执行计划可以看出使用了IX_Test索引
2 SELECT * FROM Test WHERE Field_1 =1
执行计划可以看出使用了PK_Test
3 但如果是SELECT * FROM Test with (index(IX_Test)) WHERE Field_1 =1
则指定��用烦�?

�?索引的具体��?

1�Q?索引的设�?
A:��量避免表扫�?
��查你的查询语句的where子句�Q�因��是优化器重要��x��的地斏V��包含在where里面的每一列（column)都是可能的侯选烦引，��辑ֈ�最优的性能�Q�考虑在下面给出的例子�Q�对于在where子句中给��Z��column1�q�个列�?
下面的两个条件可以提高烦引的优化查询性能�Q?
�W�一�Q�在表中的column1列上有一个单索引
�W�二�Q�在表中有多索引�Q�但是column1是第一个烦引的�?
避免定义多烦引而column1是第二个或后面的索引�Q�这��L��索引不能优化服务器性能
例如�Q�下面的例子用了pubs数据库�?
SELECT au_id, au_lname, au_fname FROM authors
WHERE au_lname = ’White�?
按下面几个列上徏立的索引��会是对优化器有用的索引
?au_lname
?au_lname, au_fname
而在下面几个列上建立的烦引将不会对优化器起到好的作用
?au_address
?au_fname, au_lname
考虑使用�H�的索引在一个或两个列上�Q�窄索引比多索引和复合烦引更能有效。用�H�的索引�Q�在每一��上
��会有更多的行和更少的烦引��别（相对与多索引和复合烦引而言�Q�，�q�将推进�pȝ��性能�?
对于多列索引�Q�SQL Server�l�持一个在所有列的烦引上的密度统计（用于联合�Q�和在第一个烦引上�?
histogram�Q�柱状图�Q�统计。根据统计结果，如果在复合烦引上的第一个烦引很��被选择使用�Q�那么优化器对很多查询请求将不会使用索引�?
有用的烦引会提高select语句的性能�Q�包括insert,uodate,delete�?
但是�Q�由于改变一个表的内容，��会影响索引。每一个insert,update,delete语句��会使性能下降一些。实验表明，不要在一个单表上用大量的索引�Q�不要在�׃�n的列上（指在多表中用了参考约束）使用重叠的烦引�?
在某一列上��查唯一的数据的个数�Q�比较它与表中数据的行数做一个比较。这��是数据的选择性，�q�比较结果将会帮助你军_��是否��某一列作��Z��选的索引列，如果需要，建哪一�U�烦引。你可以用下面的查询语句�q�回某一列的不同值的数目�?
select count(distinct cloumn_name) from table_name
假设column_name是一�?0000行的表，则看column_name�q�回值来军_��是否应该使用�Q�及应该使用什么烦引�?
Unique values Index

5000 Nonclustered index
20 Clustered index
3 No index

2) 镞烦引和非镞索引的选择

<1:>镞烦引是行的物理��序和烦引的��序是一致的。页�U�，低层�{�烦引的各个�U�别上都包含实际的数据页。一个表只能是有一个镞索引。由于update,delete语句要求相对多一些的��L��作，因此镞烦引常常能加速这��L��操作。在臛_��有一个烦引的表中�Q�你应该有一个镞索引�?
在下面的几个情况下，你可以考虑用镞索引�Q?
例如�Q?某列包括的不同值的个数是有限的�Q�但是不是极��的�Q?
��֮�表的州名列有50个左右的不同州名的羃写��|��可以使用镞烦引�?
例如�Q?对返回一定范围内值的列可以��用镞索引�Q�比如用between,>,>=,<,<=�{�等来对列进行操作的列上�?
select * from sales where ord_date between �?/1/93�?and �?/1/93�?
例如�Q?�Ҏ��询时�q�回大量�l�果的列可以使用镞烦引�?
SELECT * FROM phonebook WHERE last_name = ’Smith�?

当有大量的行正在被插入表中时�Q�要避免在本表一个自然增长（例如�Q�identity列）的列上徏立镞索引。如果你建立了镞的烦引，那么insert的性能��׃��大大降低。因为每一个插入的行必��d��表的最后，表的最后一个数据页�?
当一个数据正在被插入�Q�这时这个数据页是被锁定的）�Q�所有的其他插入行必��ȝ��待直到当前的插入已经�l�束�?
一个烦引的叶��中包括实际的数据页�Q��ƈ且在��盘上的数据��늚��ơ序是跟镞烦引的逻辑�ơ序一��L��?

<2:>一个非镞的索引��是行的物理�ơ序与烦引的�ơ序是不同的。一个非镞烦引的叶��包含了指向行数据��늚�指针�?
在一个表中可以有多个非镞索引�Q�你可以在以下几个情况下考虑使用非镞索引�?
在有很多不同值的列上可以考虑使用非镞索引
例如�Q�一个part_id列在一个part表中
select * from employee where emp_id = ’pcm9809f�?
查询语句中用order by 子句的列上可以考虑使用镞烦�?

3) 一个表列如果设��Z��?primary key),它会自动生成一个聚��烦�?
�q�时不能直接使用Drop index Table1.Tableindex1语句
必须删除主键�U�束�Q�用语句:alter table table1 drop constraint �U�束�?如pk_xxx)

�?全文索引
use pubs
　　go

　　--打开数据库全文烦引的支持

　execute sp_fulltext_database 'enable'
　go

　　--建立全文目录ft_titles

　　execute sp_fulltext_catalog 'ft_titles', 'create'
　　go

　　--为titles表徏立全文烦引数据元�Q�UPKCL_titleidind是主键所建立的唯一索引�Q�可由sp_help titles得知

　　execute sp_fulltext_table 'titles','create', 'ft_titles', 'UPKCL_titleidind'
　　go

　　--讄��全文索引列名

　　exec sp_fulltext_column 'titles', 'title', 'add'
　　go
　　exec sp_fulltext_column 'titles', 'notes', 'add'
　　go

　　--建立全文索引

　　exec sp_fulltext_table 'titles', 'activate'
　　go

　　--填充全文索引目录

　　exec sp_fulltext_catalog 'ft_titles', 'start_full'
　　go

　　--使用contains和freetext

　　select title, notes from titles
　　where contains(title, '"computer Cooking"')
　　go
　　select title, notes from titles
　　where freetext(title, 'computer Cooking')
　　go
　　select title, notes from titles
　　where freetext(title, '"computer Cooking"')
　　go
　　select title, notes from titles
　　where contains(title, 'computer')
　　go
　　select title, notes from titles
　　where freetext (*, 'computer')
　　go

�q�里提一下google的搜索引擎的原理.
他把每个字词都做为单元去查询.
打个比方:我在字典里查�?现在我要搜烦"树型"�q�个�?他会把这个树型这个词全文扫描一�?生成一个二叉树.�q�记下他的页�?
然后当我�W?�ơ查扄��时候显然这�?记忆"提示,然后"提取".如果你对某一个字�D�做了全文烦引的话，他会全文扫描表一�?然后�U�录�?
相应的纪�?生成二叉�?
如果我要查找"树叶",同理也可以得出页�?但当我们��L��找一�?树型�l�构"他则会把"树型"�?树型�l�构"�?�U�录"下来.

�?巧妙的��用烦�?
SELECT SUM(quantity) AS quantity FROM test WHERE...
1.若WHERE 里用的是字段与常量比较，MSSQL会自动引用该字段上的索引�Q�若用的是变量，MSSQL不会自动引用该字�D�上的烦引而是�Ҏ��聚集索引�q�行扫描
2.加上with(index(索引�?)指定索引�Q�即�Q?
SELECT SUM(quantity) AS quantity FROM with(index(索引�?) test WHERE...
指定索引后，WHERE 里不论是帔R��q�是变量�Q�MSSQL都根据指定的索引�q�行扫描
3.DBCC DBREINDEX执行�q�不一定能优化MSSQL性能�Q�慎�?
4.如果在pub_id上徏立烦引的�?
select * from titles where pub_id-500 >1000   ---------(a)
select * from titles where pub_id >1000+500 -----------(b)
请选用(b)语句,�q�样的话�Q�他会利用烦�?�?a)的话�׃��对字�D�|��作了,所以不会利用烦�?
5.��量避免用like语句,
如果��L��找baa%,caa%的话
如果是like '%aa%','_aa%','[m-z]o%' 则根本不会用到烦�?
替换�Ҏ��.columns like 'baa%' or columns like 'caa %'
6什么情况下应不建或��徏索引
a.表记录太��?.因�ؓ索引的话�Q�要�Ҏ��据库往�q?�ơ操�?如果1个表只有几行字段的话�Q�数据库会对他的�U�录一�ơ性全部取出来,�q�样的效率要�q�远高于索引.
b.�l�常insert,delete,update的表对一些经常处理的业务表应在查询允许的情况下尽量减��烦�?
c.数据重复且分布��^均的表字�D?�?性别字段,各占50%的话�Q�你即��Z��,也�v不到明显的作�?
d.�l�常和主字段一块查询但��d��D늃�引值比较多的表字段
表经常按收费序号、户标识�~�号、抄表日期、电费发生年月、操作标志来具体查询某一�W�收�Ƅ��情况�Q�如果将所有的字段都徏在一个烦引里那将会增加数据的修改、插入、删除时��_��从实际上分析一�W�收�Ƒ֦�果按收费序号索引��已�l�将记录减少到只有几条，如果再按后面的几个字�D늃�引查询将�Ҏ��能不��生太大的影响�?
e.如果一个表的记录达�?00万以上的话，要对其中一个字�D�徏索引可能要花很长的时��_��甚至��D��服务器数据库��L��Q�因为在建烦引的时候ORACLE要将索引字段所有的内容取出�q�进行全面排序，数据量大的话可能��D��服务器排序内存不��引用磁盘交换空间进行，�q�将严重影响服务器数据库的工作。解��x��法是增大数据库启动初始化中的排序内存参数�Q�如果要�q�行大量的烦引修改可以设�|?0M以上的排序内存（ORACLE�~�省大小�?4K�Q�，在烦引徏立完成后应将参数修改回来�Q�因为在实际OLTP数据库应用中一般不会用到这么大的排序内存�?

以下转蝲
great_domino �?Blog

探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分��c��以下代码说明了我们实例中数据库的“红头文件”一表的部分数据�l�构�Q?/P>
CREATE TABLE [dbo].[TGongwen] (    --TGongwen是红头文件表�?/P>
   [Gid] [int] IDENTITY (1, 1) NOT NULL ,
--本表的id��P��也是主键

   [title] [varchar] (80) COLLATE Chinese_PRC_CI_AS NULL ,
--�U�头文�g的标�?

   [fariqi] [datetime] NULL ,
--发布日期

   [neibuYonghu] [varchar] (70) COLLATE Chinese_PRC_CI_AS NULL ,
--发布用户

   [reader] [varchar] (900) COLLATE Chinese_PRC_CI_AS NULL ,

--需要浏览的用户。每个用户中间用分隔�W��?”分开

) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY]

GO

　　下面�Q�我们来往数据库中��d��1000万条数据�Q?

declare @i int

set @i=1

while @i<=250000

begin

    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-2-5','通信�U?,'通信�U?办公�?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l�侦支队,��h��U?��d��支队,外事�U?,'�q�是最先的25万条记录')

    set @i=@i+1

end

GO

declare @i int

set @i=1

while @i<=250000

begin

    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-9-16','办公�?,'办公�?通信�U?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l�侦支队,��h��U?外事�U?,'�q�是中间�?5万条记录')

    set @i=@i+1

end

GO

declare @h int

set @h=1

while @h<=100

begin

declare @i int

set @i=2002

while @i<=2003

begin

declare @j int

        set @j=0

        while @j<50

            begin

declare @k int

            set @k=0

            while @k<50

            begin

    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values(cast(@i as varchar(4))+'-8-15 3:'+cast(@j as varchar(2))+':'+cast(@j as varchar(2)),'通信�U?,'办公�?通信�U?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l�侦支队,��h��U?外事�U?,'�q�是最后的50万条记录')

            set @k=@k+1

            end

set @j=@j+1

        end

set @i=@i+1

end

set @h=@h+1

end

GO

declare @i int

set @i=1

while @i<=9000000

begin

    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-5-5','通信�U?,'通信�U?办公�?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l�侦支队,��h��U?��d��支队,外事�U?,'�q�是最后添加的900万条记录')

    set @i=@i+1000000

end

GO

通过以上语句�Q�我们创��Z��25万条�׃��2004�q?�?日发布的记录�Q?5万条由办公室�?004�q?�?日发布的记录�Q?002�q�和2003�q�各100�?500条相同日期、不同分�U�的记录�Q�共50万条�Q�，�q�有由通信�U�于2004�q?�?日发布的900万条记录�Q�合�?000万条�?/P>
何时使用聚集索引或非聚集索引

　　下面的表�ȝ��了何时��用聚集烦引或非聚集烦引（很重要）�?/P>
　　动作描述
　　　使用聚集索引
　　　使用非聚集烦�?

　　列经常被分组排序
　　　�?
　　　�?

　　�q�回某范围内的数�?
　　　�?
　　　不应

　　一个或极少不同�?
　　　不应
　　　不应

　　��数目的不同�?
　　　�?
　　　不应

　　大数目的不同�?
　　　不应
　　　�?

　　频繁更新的列
　　　不应
　　　�?

　　外键�?
　　　�?
　　　�?

　　主键�?
　　　�?
　　　�?

　　频繁修改索引�?
　　　不应
　　　�?

　　事实上，我们可以通过前面聚集索引和非聚集索引的定义的例子来理解上表。如�Q�返回某范围内的数据一��V��比如您的某个表有一个时间列�Q�恰好您把聚合烦引徏立在了该列，�q�时您查�?004�q?�?日至2004�q?0�?日之间的全部数据�Ӟ��q�个速度��将是很快的�Q�因为您的这本字典正文是按日期进行排序的�Q�聚�cȝ��引只需要找到要��索的所有数据中的开头和�l�尾数据卛_��Q�而不像非聚集索引�Q�必��d��查到目录中查到每一��Ҏ��据对应的��늠��Q�然后再�Ҏ��늠�查到具体内容�?/P>
�Q�三�Q�结合实际，谈烦引��用的误区

　　理论的目的是应用。虽然我们刚才列��Z��何时应��用聚集烦引或非聚集烦引，但在实践中以上规则却很容易被忽视或不能根据实际情况进行综合分析。下面我们将�Ҏ��在实践中遇到的实际问题来谈一下烦引��用的误区�Q�以便于大家掌握索引建立的方法�?/P>
　　1、主键就是聚集烦�?/P>
　　�q�种��x��W�者认为是极端错误的，是对聚集索引的一�U�浪贏V��虽然SQL SERVER默认是在主键上徏立聚集烦引的�?/P>
　　通常�Q�我们会在每个表中都建立一个ID列，以区分每条数据，�q�且�q�个ID列是自动增大的，步长一般�ؓ1。我们的�q�个办公自动化的实例中的列Gid��是如此。此�Ӟ��如果我们��这个列设�ؓ主键�Q�SQL SERVER会将此列默认��集烦引。这样做有好处，��是可以让您的数据在数据库中按照ID�q�行物理排序�Q�但�W�者认��样做意义不大�?/P>
　　显而易见，聚集索引的优势是很明昄��Q�而每个表中只能有一个聚集烦引的规则�Q�这使得聚集索引变得更加珍贵�?/P>
　　从我们前面谈到的聚集索引的定义我们可以看出，使用聚集索引的最大好处就是能够根据查询要求，�q�速羃��查询范��_��避免全表扫描。在实际应用中，因�ؓID��h��自动生成的，我们�q�不知道每条记录的ID��P��所以我们很隑֜�实践中用ID��h��q�行查询。这��׃��让ID可��个主键作��集烦引成��Z��U�资源浪贏V��其�ơ，让每个ID号都不同的字�D�作��集烦引也不符合“大数目的不同值情况下不应建立聚合索引”规则；当然�Q�这�U�情况只是针对用��L��怿�改记录内容，特别是烦引项的时候会负作用，但对于查询速度�q�没有媄响�?/P>
　　在办公自动化�pȝ��中，无论是系�l�首��|��C�的需要用��L��收的文�g、会议还是用戯��行文件查询等��M��情况下进行数据查询都��M��开字段的是“日期”还有用��h��w�的“用户名”�?/P>
　　通常�Q�办公自动化的首��会昄��每个用户��未�{�收的文件或会议。虽然我们的where语句可以仅仅限制当前用户��未�{�收的情况，但如果您的系�l�已建立了很长时��_��q�且数据量很大，那么�Q�每�ơ每个用��h��开首页的时候都�q�行一�ơ全表扫描，�q�样做意义是不大的，�l�大多数的用�?个月前的文�g都已�l�浏览过了，�q�样做只能徒增数据库的开销而已。事实上�Q�我们完全可以让用户打开�pȝ��首页�Ӟ��数据库仅仅查询这个用戯��3个月来未阅览的文�Ӟ��通过“日期”这个字�D�|��限制表扫描，提高查询速度。如果您的办公自动化�pȝ��已经建立�?�q�_��那么您的首页昄��速度理论上将是原来速度8倍，甚至更快�?/P>
　　在这里之所以提到“理��Z��”三字，是因为如果您的聚集烦引还是盲目地建在ID�q�个主键上时�Q�您的查询速度是没有这么高的，即��您在“日期”这个字�D�上建立的烦引（非聚合烦引）。下面我们就来看一下在1000万条数据量的情况下各�U�查询的速度表现�Q?个月内的数据�?5万条�Q�：

　　�Q?�Q�仅在主键上建立聚集索引�Q��ƈ且不划分旉��D�：

Select gid,fariqi,neibuyonghu,title from tgongwen

　　用时�Q?28470毫秒�Q�即�Q?28�U�）

　　�Q?�Q�在主键上徏立聚集烦引，在fariq上徏立非聚集索引�Q?/P>
select gid,fariqi,neibuyonghu,title from Tgongwen

where fariqi> dateadd(day,-90,getdate())

　　用时�Q?3763毫秒�Q?4�U�）

　　�Q?�Q�将聚合索引建立在日期列�Q�fariqi�Q�上�Q?/P>
select gid,fariqi,neibuyonghu,title from Tgongwen

where fariqi> dateadd(day,-90,getdate())

　　用时�Q?423毫秒�Q?�U�）

　　虽然每条语句提取出来的都�?5万条数据�Q�各�U�情�늚�差异却是巨大的，特别是将聚集索引建立在日期列时的差异。事实上�Q�如果您的数据库真的�?000万容量的话，把主键徏立在ID列上�Q�就像以上的�W?�?�U�情况，在网��上的表现就是超�Ӟ��Ҏ��无法显�C�。这也是我摒弃ID列作��集烦引的一个最重要的因素�?/P>
　　得出以上速度的方法是�Q�在各个select语句前加�Q�declare @d datetime

set @d=getdate()

�q�在select语句后加�Q?/P>
select [语句执行��p��旉��(毫秒)]=datediff(ms,@d,getdate())

　　2、只要徏立烦引就能显著提高查询速度

　　事实上，我们可以发现上面的例子中�Q�第2�?条语句完全相同，且徏立烦引的字段也相同；不同的仅是前者在fariqi字段上徏立的是非聚合索引�Q�后者在此字�D�上建立的是聚合索引�Q�但查询速度却有着天壤之别。所以，�q��是在��M��字段上简单地建立索引��p��提高查询速度�?/P>
　　从徏表的语句中，我们可以看到�q�个有着1000万数据的表中fariqi字段�?003个不同记录。在此字�D�上建立聚合索引是再合适不�q�了。在现实中，我们每天都会发几个文�Ӟ��q�几个文件的发文日期��q��同，�q�完全符合徏立聚集烦引要求的�Q�“既不能�l�大多数都相同，又不能只有极��数相同”的规则。由此看来，我们建立“适当”的聚合索引对于我们提高查询速度是非帔R��要的�?/P>
　　3、把所有需要提高查询速度的字�D�都加进聚集索引�Q�以提高查询速度

　　上面已经谈到�Q�在�q�行数据查询旉��M��开字段的是“日期”还有用��h��w�的“用户名”。既然这两个字段都是如此的重要，我们可以把他们合�q��v来，建立一个复合烦引（compound index�Q��?/P>
　　很多��为只要把��M��字段加进聚集索引�Q�就能提高查询速度�Q�也有�h感到�q�h��Q�如果把复合的聚集烦引字�D�分开查询�Q�那么查询速度会减慢吗�Q�带着�q�个问题�Q�我们来看一下以下的查询速度�Q�结果集都是25万条数据�Q�：�Q�日期列fariqi首先排在复合聚集索引的�v始列�Q�用户名neibuyonghu排在后列�Q?/P>
　　�Q?�Q�select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-5-5'

　　查询速度�Q?513毫秒

　　�Q?�Q�select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-5-5' and neibuyonghu='办公�?

　　查询速度�Q?516毫秒

　　�Q?�Q�select gid,fariqi,neibuyonghu,title from Tgongwen where neibuyonghu='办公�?

　　查询速度�Q?0280毫秒

　　从以上试验中�Q�我们可以看到如果仅用聚集烦引的起始列作为查询条件和同时用到复合聚集索引的全部列的查询速度是几乎一��L��Q�甚��x��用上全部的复合烦引列�q�要略快�Q�在查询�l�果集数目一��L��情况下）�Q�而如果仅用复合聚集烦引的非�v始列作�ؓ查询条�g的话�Q�这个烦引是不�v��M��作用的。当�Ӟ��语句1�?的查询速度一��h��因�ؓ查询的条目数一��P��如果复合索引的所有列都用上，而且查询�l�果��的话，�q�样��׃��形成“烦引覆盖”，因而性能可以辑ֈ�最优。同�Ӟ��误��住：无论您是否经�怋�用聚合烦引的其他列，但其前导列一定要是��用最频繁的列�?/P>
�Q�四�Q�其他书上没有的索引使用�l�验�ȝ��

　　1、用聚合索引比用不是聚合索引的主键速度�?/P>
　　下面是实例语句：�Q�都是提�?5万条数据�Q?/P>
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'

　　使用旉��Q?326毫秒

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid<=250000

　　使用旉��Q?470毫秒

　　�q�里�Q�用聚合索引比用不是聚合索引的主键速度快了�q?/4�?/P>
　　2、用聚合索引比用一般的主键作order by旉��度快，特别是在��数据量情况�?/P>
select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by fariqi

　　用时�Q?2936

select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by gid

　　用时�Q?8843

　　�q�里�Q�用聚合索引比用一般的主键作order by�Ӟ��速度快了3/10。事实上�Q�如果数据量很小的话�Q�用聚集索引作�ؓ排序列要比��用非聚集索引速度快得明显的多�Q�而数据量如果很大的话�Q�如10万以上，则二者的速度差别不明显�?/P>
　　3、��用聚合烦引内的时间段�Q�搜索时间会按数据占整个数据表的癑ֈ�比成比例减少�Q�而无��合烦引��用了多少�?/P>
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1'

　　用时�Q?343毫秒�Q�提�?00万条�Q?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-6-6'

　　用时�Q?170毫秒�Q�提�?0万条�Q?/P>
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'

　　用时�Q?326毫秒�Q�和上句的结果一模一栗��如果采集的数量一��P��那么用大于号和等于号是一��L��Q?/P>
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1' and fariqi<'2004-6-6'

　　用时�Q?280毫秒

　　4 、日期列不会因�ؓ有分�U�的输入而减慢查询速度

　　下面的例子中�Q�共�?00万条数据�Q?004�q?�?日以后的数据�?0万条�Q�但只有两个不同的日期，日期�_��到日�Q�之前有数据50万条�Q�有5000个不同的日期�Q�日期精��到�U��?/P>
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-1' order by fariqi

　　用时�Q?390毫秒

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi<'2004-1-1' order by fariqi

　　用时�Q?453毫秒

　　�Q�五�Q�其他注意事��?/P>
　　“水可蝲舟，亦可覆舟”，索引也一栗��烦引有助于提高��索性能�Q�但�q�多或不当的索引也会��D��pȝ��低效。因为用户在表中每加�q�一个烦引，数据库就要做更多的工作。过多的索引甚至会导致烦引碎片�?/P>
　　所以说�Q�我们要建立一个“适当”的索引体系�Q�特别是对聚合烦引的创徏�Q�更应精益求�_�，以��您的数据库能得到高性能的发挥�?/P>
　　当然�Q�在实践中，作�ؓ一个尽职的数据库管理员�Q�您�q�要多测试一些方案，扑և�哪种�Ҏ��效率最高、最为有效�?/P>
二、改善SQL语句

　　很多��Z��知道SQL语句在SQL SERVER中是如何执行的，他们担心自己所写的SQL语句会被SQL SERVER误解。比如：

select * from table1 where name='zhangsan' and tID > 10000

　　和执�?

select * from table1 where tID > 10000 and name='zhangsan'

　　一些�h不知道以上两条语句的执行效率是否一��P��因�ؓ如果��单的从语句先后上看，�q�两个语句的��是不一��P��如果tID是一个聚合烦引，那么后一句仅仅从表的10000条以后的记录中查扑ְ�行了�Q�而前一句则要先从全表中查找看有几个name='zhangsan'的，而后再根据限制条件条件tID>10000来提出查询结果�?/P>
　　事实上，�q�样的担心是不必要的。SQL SERVER中有一个“查询分析优化器”，它可以计��出where子句中的搜烦条�g�q�确定哪个烦引能�~�小表扫描的搜烦�I�间�Q�也��是��_��它能实现自动优化�?/P>
　　虽然查询优化器可以根据where子句自动的进行查询优化，但大家仍然有必要了解一下“查询优化器”的工作原理�Q�如非这��P��有时查询优化器就会不按照您的本意�q�行快速查询�?/P>
　　在查询分析阶�D�，查询优化器查看查询的每个阶段�q�决定限刉��要扫描的数据量是否有用。如果一个阶�D�可以被用作一个扫描参敎ͼ�SARG�Q�，那么��q��之�ؓ可优化的�Q��ƈ且可以利用烦引快速获得所需数据�?/P>
　　SARG的定义：用于限制搜烦的一个操作，因�ؓ它通常是指一个特定的匚w��Q�一个值得范围内的匚w��或者两个以上条件的AND�q�接。�Ş式如下：

列名操作�W?<常数 �?变量>

�?/P>
<常数 �?变量> 操作�W�列�?/P>
　　列名可以出现在操作符的一边，而常数或变量出现在操作符的另一辏V��如�Q?/P>
Name=’张三�?/P>
��h��>5000

5000<��h��

Name=’张三�?and ��h��>5000

　　如果一个表辑ּ�不能满��SARG的�Ş式，那它��无法限制搜索的范围了，也就是SQL SERVER必须�Ҏ��一行都判断它是否满��WHERE子句中的所有条件。所以一个烦引对于不满��SARG形式的表辑ּ�来说是无用的�?/P>
　　介绍完SARG后，我们来�ȝ��一下��用SARG以及在实践中遇到的和某些资料上结��Z��同的�l�验�Q?/P>
　　1、Like语句是否属于SARG取决于所使用的通配�W�的�c�d��

　　如：name like ‘张%�?�Q�这��属于SARG

　　而：name like �?张�?,��׃��属于SARG�?/P>
　　原因是通配�W?在字�W�串的开通��得烦引无法��用�?/P>
　　2、or 会引起全表扫�?/P>
Name=’张三�?and ��h��>5000 �W�号SARG�Q�而：Name=’张三�?or ��h��>5000 则不�W�合SARG。��用or会引起全表扫描�?/P>
　　3、非操作�W�、函数引��L��不满��SARG形式的语�?/P>
　　不满��SARG形式的语句最典型的情况就是包括非操作�W�的语句�Q�如�Q�NOT�?=�?lt;>�?<�?>、NOT EXISTS、NOT IN、NOT LIKE�{�，另外�q�有函数。下面就是几个不满��SARG形式的例子：

ABS(��h��)<5000

Name like �?三�?/P>
　　有些表达式，如：

WHERE ��h��*2>5000

　　SQL SERVER也会认�ؓ是SARG�Q�SQL SERVER会将此式转化为：

WHERE ��h��>2500/2

　　但我们不推荐�q�样使用�Q�因为有时SQL SERVER不能保证�q�种转化与原始表辑ּ�是完全等��L��?/P>
　　4、IN 的作用相当与OR

　　语句�Q?/P>
Select * from table1 where tid in (2,3)

　　�?/P>
Select * from table1 where tid=2 or tid=3

　　是一��L��Q�都会引起全表扫描，如果tid上有索引�Q�其索引也会失效�?/P>
　　5、尽量少用NOT

　　6、exists �?in 的执行效率是一��L��

　　很多资料上都昄��_��exists要比in的执行效率要高，同时应尽可能的用not exists来代替not in。但事实上，我试验了一下，发现二者无论是前面带不带not�Q�二者之间的执行效率都是一��L��。因为涉及子查询�Q�我们试验这�ơ用SQL SERVER自带的pubs数据库。运行前我们可以把SQL SERVER的statistics I/O状态打开�?/P>
　　�Q?�Q�select title,price from titles where title_id in (select title_id from sales where qty>30)

　　该句的执行结果�ؓ�Q?/P>
　　�?'sales'。扫描计�?18�Q�逻辑�?56 �ơ，物理�?0 �ơ，预读 0 �ơ�?/P>
　　�?'titles'。扫描计�?1�Q�逻辑�?2 �ơ，物理�?0 �ơ，预读 0 �ơ�?/P>
　　�Q?�Q�select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty>30)

　　�W�二句的执行�l�果为：

　　�?'sales'。扫描计�?18�Q�逻辑�?56 �ơ，物理�?0 �ơ，预读 0 �ơ�?/P>
　　�?'titles'。扫描计�?1�Q�逻辑�?2 �ơ，物理�?0 �ơ，预读 0 �ơ�?/P>
　　我们从此可以看到用exists和用in的执行效率是一��L��?/P>
　　7、用函数charindex()和前面加通配�W?的LIKE执行效率一�?/P>
　　前面�Q�我们谈刎ͼ�如果在LIKE前面加上通配�W?�Q�那么将会引起全表扫描，所以其执行效率是低下的。但有的资料介绍��_��用函数charindex()来代替LIKE速度会有大的提升�Q�经我试验，发现�q�种说明也是错误的：

select gid,title,fariqi,reader from tgongwen where charindex('刑侦支队',reader)>0 and fariqi>'2004-5-5'

　　用时�Q?�U�，另外�Q�扫描计�?4�Q�逻辑�?7155 �ơ，物理�?0 �ơ，预读 0 �ơ�?/P>
select gid,title,fariqi,reader from tgongwen where reader like '%' + '刑侦支队' + '%' and fariqi>'2004-5-5'

　　用时�Q?�U�，另外�Q�扫描计�?4�Q�逻辑�?7155 �ơ，物理�?0 �ơ，预读 0 �ơ�?/P>
　　8、union�q�不�l�对比or的执行效率高

　　我们前面已经谈到了在where子句中��用or会引起全表扫描，一般的�Q�我所见过的资料都是推荐这里用union来代替or。事实证明，�q�种说法对于大部分都是适用的�?/P>
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or gid>9990000

　　用时�Q?8�U�。扫描计�?1�Q�逻辑�?404008 �ơ，物理�?283 �ơ，预读 392163 �ơ�?/P>
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000

　　用时�Q?�U�。扫描计�?8�Q�逻辑�?67489 �ơ，物理�?216 �ơ，预读 7499 �ơ�?/P>
　　看来�Q�用union在通常情况下比用or的效率要高的多�?/P>
　　但经�q�试验，�W�者发现如果or两边的查询列是一��L��话，那么用union则反倒和用or的执行速度差很多，虽然�q�里union扫描的是索引�Q�而or扫描的是全表�?/P>
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or fariqi='2004-2-5'

　　用时�Q?423毫秒。扫描计�?2�Q�逻辑�?14726 �ơ，物理�?1 �ơ，预读 7176 �ơ�?/P>
select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-2-5'

　　用时�Q?1640毫秒。扫描计�?8�Q�逻辑�?14806 �ơ，物理�?108 �ơ，预读 1144 �ơ�?/P>
　　9、字�D�|��取要按照“需多少、提多少”的原则�Q�避免“select *�?/P>
　　我们来做一个试验：

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

　　用时�Q?673毫秒

select top 10000 gid,fariqi,title from tgongwen order by gid desc

　　用时�Q?376毫秒

select top 10000 gid,fariqi from tgongwen order by gid desc

　　用时�Q?0毫秒

　　由此看来�Q�我们每��提取一个字�D�，数据的提取速度��׃��有相应的提升。提升的速度�q�要看您舍弃的字�D늚�大小来判断�?/P>
　　10、count(*)不比count(字段)�?/P>
　　某些资料上说�Q�用*会统计所有列�Q�显然要比一个世界的列名效率低。这�U�说法其实是没有�Ҏ��的。我们来看：

select count(*) from Tgongwen

　　用时�Q?500毫秒

select count(gid) from Tgongwen

　　用时�Q?483毫秒

select count(fariqi) from Tgongwen

　　用时�Q?140毫秒

select count(title) from Tgongwen

　　用时�Q?2050毫秒

　　从以上可以看出，如果用count(*)和用count(主键)的速度是相当的�Q�而count(*)却比其他��M��除主键以外的字段汇总速度要快�Q�而且字段��长�Q�汇�ȝ��速度��p��慢。我惻I��如果用count(*)�Q?SQL SERVER可能会自动查找最��字�D�|��汇�ȝ��。当�Ӟ��如果您直接写count(主键)��会来的更直接些�?/P>
　　11、order by按聚集烦引列排序效率最�?/P>
　　我们来看�Q�（gid是主键，fariqi是聚合烦引列�Q?/P>
select top 10000 gid,fariqi,reader,title from tgongwen

　　用时�Q?96 毫秒�?扫描计数 1�Q�逻辑�?289 �ơ，物理�?1 �ơ，预读 1527 �ơ�?/P>
select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc

　　用时�Q?720毫秒�?扫描计数 1�Q�逻辑�?41956 �ơ，物理�?0 �ơ，预读 1287 �ơ�?/P>
select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

　　用时�Q?736毫秒�?扫描计数 1�Q�逻辑�?55350 �ơ，物理�?10 �ơ，预读 775 �ơ�?/P>
select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc

　　用时�Q?73毫秒�?扫描计数 1�Q�逻辑�?290 �ơ，物理�?0 �ơ，预读 0 �ơ�?/P>
select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc

　　用时�Q?56毫秒�?扫描计数 1�Q�逻辑�?289 �ơ，物理�?0 �ơ，预读 0 �ơ�?/P>
　　从以上我们可以看出，不排序的速度以及逻辑��L��数都是和“order by 聚集索引列�?的速度是相当的�Q�但�q�些都比“order by 非聚集烦引列”的查询速度是快得多的�?/P>
　　同时�Q�按照某个字�D�进行排序的时候，无论是正序还是倒序�Q�速度是基本相当的�?/P>
　　12、高效的TOP

　　事实上，在查询和提取��大定w��的数据集�Ӟ��影响数据库响应时间的最大因素不是数据查找，而是物理的I/0操作。如�Q?/P>
select top 10 * from (

select top 10000 gid,fariqi,title from tgongwen

where neibuyonghu='办公�?

order by gid desc) as a

order by gid asc

　　�q�条语句�Q�从理论上讲�Q�整条语句的执行旉��应该比子句的执行旉��长，但事实相反。因为，子句执行后返回的�?0000条记录，而整条语句仅�q�回10条语句，所以媄响数据库响应旉��最大的因素是物理I/O操作。而限制物理I/O操作此处的最有效�Ҏ��之一��是使用TOP关键词了。TOP关键词是SQL SERVER中经�q�系�l�优化过的一个用来提取前几条或前几个癑ֈ�比数据的词。经�W�者在实践中的应用�Q�发现TOP��实很好用，效率也很高。但�q�个词在另外一个大型数据库ORACLE中却没有�Q�这不能说不是一个遗憾，虽然在ORACLE中可以用其他�Ҏ��Q�如�Q�rownumber�Q�来解决。在以后的关于“实现千万��数据的分��|��C�存储过�E�”的讨论中，我们��将用到TOP�q�个关键词�?/P>
　　到此为止�Q�我们上面讨��Z��如何实现从大定w��的数据库中快速地查询出您所需要的数据�Ҏ��。当�Ӟ��我们介绍的这些方法都是“��Y”方法，在实践中�Q�我们还要考虑各种“硬”因素，如：�|�络性能、服务器的性能、操作系�l�的性能�Q�甚至网卡、交换机�{��?/P>
三、实现小数据量和��量数据的通用分页昄��存储�q�程

　　建立一个web 应用�Q�分��|��览功能必不可��。这个问题是数据库处理中十分常见的问题。经典的数据分页�Ҏ��?ADO �U�录集分��|��Q�也��是利用ADO自带的分��功能（利用游标�Q�来实现分页。但�q�种分页�Ҏ��仅适用于较��数据量的情形，因�ؓ游标本��n有缺点：游标是存攑֜�内存中，很费内存。游标一建立�Q�就��相关的记录锁住�Q�直到取消游标。游标提供了对特定集合中逐行扫描的手�D�，一般��用游标来逐行遍历数据�Q�根据取出数据条件的不同�q�行不同的操作。而对于多表和大表中定义的游标�Q�大的数据集合）循环很容易�ɽE�序�q�入一个�O长的�{�待甚至��L��?/P>
　　更重要的是，对于非常大的数据模型而言�Q�分��|��索时�Q�如果按照传�l�的每次都加载整个数据源的方法是非常��费资源的。现在流行的分页�Ҏ��一般是��索页面大��的块区的数据，而非��索所有的数据�Q�然后单步执行当前行�?/P>
　　最早较好地实现�q�种�Ҏ��面大小和页码来提取数据的方法大概就是“俄�|�斯存储�q�程”。这个存储过�E�用了游标，�׃��游标的局限性，所以这个方法�ƈ没有得到大家的普遍认可�?/P>
　　后来�Q�网上有人改造了此存储过�E�，下面的存储过�E�就是结合我们的办公自动化实例写的分��存储过�E�：

CREATE procedure pagination1

(@pagesize int, --��面大小�Q�如每页存储20条记�?/P>
@pageindex int   --当前��늠�

)

as

set nocount on

begin

declare @indextable table(id int identity(1,1),nid int) --定义表变�?/P>
declare @PageLowerBound int --定义此页的底�?/P>
declare @PageUpperBound int --定义此页的顶�?/P>
set @PageLowerBound=(@pageindex-1)*@pagesize

set @PageUpperBound=@PageLowerBound+@pagesize

set rowcount @PageUpperBound

insert into @indextable(nid) select gid from TGongwen where fariqi >dateadd(day,-365,getdate()) order by fariqi desc

select O.gid,O.mid,O.title,O.fadanwei,O.fariqi from TGongwen O,@indextable t where O.gid=t.nid

and t.id>@PageLowerBound and t.id<=@PageUpperBound order by t.id

end

set nocount off

　　以上存储�q�程�q�用了SQL SERVER的最新技术――表变量。应该说�q�个存储�q�程也是一个非�怼��U�的分��存储过�E�。当�Ӟ��在这个过�E�中�Q�您也可以把其中的表变量写成临时表：CREATE TABLE #Temp。但很明显，在SQL SERVER中，用��时表是没有用表变量快的。所以笔者刚开始��用这个存储过�E�时�Q�感觉非常的不错�Q�速度也比原来的ADO的好。但后来�Q�我又发��C��比此�Ҏ��更好的方法�?/P>
　　�W�者曾在网上看��C��一��小短文《从数据表中取出�W�n条到�W�m条的记录的方法》，全文如下�Q?/P>
从publish 表中取出�W?n 条到�W?m 条的记录�Q?
SELECT TOP m-n+1 *
FROM publish
WHERE (id NOT IN
　　　　(SELECT TOP n-1 id
　　　　 FROM publish))

id 为publish 表的关键�?

　　我当时看到这��文章的时候，真的是精��ؓ之一振，觉得思�\非常得好。等到后来，我在作办公自动化�pȝ��Q�ASP.NET+ C#�Q�SQL SERVER�Q�的时候，忽然惌��v了这��文章，我想如果把这个语句改造一下，�q�就可能是一个非常好的分��存储过�E�。于是我��满�|�上找这��文章，没想刎ͼ�文章�q�没扑ֈ��Q�却扑ֈ�了一��根据此语句写的一个分��存储过�E�，�q�个存储�q�程也是目前较�ؓ��行的一�U�分��存储过�E�，我很后悔没有争先把这�D�|��字改造成存储�q�程�Q?/P>
CREATE PROCEDURE pagination2
(
@SQL nVARCHAR(4000),    --不带排序语句的SQL语句
@Page int,              --��늠�
@RecsPerPage int,       --每页容纳的记录数
@ID VARCHAR(255),       --需要排序的不重复的ID�?
@Sort VARCHAR(255)      --排序字段及规�?
)
AS

DECLARE @Str nVARCHAR(4000)

SET @Str='SELECT   TOP '+CAST(@RecsPerPage AS VARCHAR(20))+' * FROM ('+@SQL+') T WHERE T.'+@ID+'NOT IN
(SELECT   TOP '+CAST((@RecsPerPage*(@Page-1)) AS VARCHAR(20))+' '+@ID+' FROM ('+@SQL+') T9 ORDER BY '+@Sort+') ORDER BY '+@Sort

PRINT @Str

EXEC sp_ExecuteSql @Str
GO

　　其实�Q�以上语句可以简化�ؓ�Q?/P>
SELECT TOP ��大��?*

FROM Table1

WHERE (ID NOT IN

          (SELECT TOP ��大��?��|�� id

         FROM �?/P>
         ORDER BY id))

ORDER BY ID

　　但这个存储过�E�有一个致命的�~�点�Q�就是它含有NOT IN字样。虽然我可以把它攚w��ؓ�Q?/P>
SELECT TOP ��大��?*

FROM Table1

WHERE not exists

(select * from (select top (��大��?��|��) * from table1 order by id) b where b.id=a.id )

order by id

　　卻I��用not exists来代替not in�Q�但我们前面已经谈过了，二者的执行效率实际上是没有区别的�?/P>
　　既便如此�Q�用TOP �l�合NOT IN的这个方法还是比用游标要来得快一些�?/P>
　　虽然用not exists�q�不能挽救上个存储过�E�的效率�Q�但使用SQL SERVER中的TOP关键字却是一个非常明智的选择。因为分��优化的最�l�目的就是避免��生过大的记录集，而我们在前面也已�l�提��C��TOP的优势，通过TOP 卛_��实现�Ҏ��据量的控制�?/P>
　　在分��늮�法中�Q�媄响我们查询速度的关键因素有两点�Q�TOP和NOT IN。TOP可以提高我们的查询速度�Q�而NOT IN会减慢我们的查询速度�Q�所以要提高我们整个分页��法的速度�Q�就要彻底改造NOT IN�Q�同其他�Ҏ��来替代它�?/P>
　　我们知道�Q�几乎�Q何字�D�，我们都可以通过max(字段)或min(字段)来提取某个字�D�中的最大或最��|��所以如果这个字�D�不重复�Q�那么就可以利用�q�些不重复的字段的max或min作�ؓ分水岭，使其成�ؓ分页��法中分开每页的参照物。在�q�里�Q�我们可以用操作�W��?gt;”或�?lt;”号来完成这个��命，使查询语句符合SARG形式。如�Q?/P>
Select top 10 * from table1 where id>200

　　于是��有了如下分��|��案：

select top ��大��?*

from table1

where id>

      (select max (id) from

      (select top ((��늠�-1)*��大��? id from table1 order by id) as T

       )

order by id

　　在选择即不重复��|��又容易分辨大��的列时�Q�我们通常会选择主键。下表列��Z��W�者用有着1000万数据的办公自动化系�l�中的表�Q�在以GID�Q�GID是主键，但�ƈ不是聚集索引。）为排序列、提取gid,fariqi,title字段�Q�分别以�W?�?0�?00�?00�?000�?万�?0万�?5万�?0万页��Z��Q�测试以上三�U�分��|��案的执行速度�Q�（单位�Q�毫�U�）

��?nbsp; �?
�Ҏ��1
�Ҏ��2
�Ҏ��3

1
60
30
76

10
46
16
63

100
1076
720
130

500
540
12943
83

1000
17110
470
250

1�?
24796
4500
140

10�?
38326
42283
1553

25�?
28140
128720
2330

50�?
121686
127846
7168

　　从上表中�Q�我们可以看出，三种存储�q�程在执�?00��以下的分页命��o�Ӟ��都是可以信�Q的，速度都很好。但�W�一�U�方案在执行分页1000��以上后�Q�速度��降了下来。第二种�Ҏ��大约是在执行分页1万页以上后速度开始降了下来。而第三种�Ҏ��却始�l�没有大的降势，后劲仍然很��?/P>
　　在确定了�W�三�U�分��|��案后�Q�我们可以据此写一个存储过�E�。大家知道SQL SERVER的存储过�E�是事先�~�译好的SQL语句�Q�它的执行效率要比通过WEB��面传来的SQL语句的执行效率要高。下面的存储�q�程不仅含有分页�Ҏ��Q�还会根据页面传来的参数来确定是否进行数据��L��l�计�?/P>
-- 获取指定��늚�数据

CREATE PROCEDURE pagination3

@tblName   varchar(255),       -- 表名

@strGetFields varchar(1000) = '*', -- 需要返回的�?

@fldName varchar(255)='',      -- 排序的字�D�名

@PageSize   int = 10,          -- ��尺�?/P>
@PageIndex int = 1,           -- ��늠�

@doCount bit = 0,   -- �q�回记录��L��, �?0 值则�q�回

@OrderType bit = 0, -- 讄��排序�c�d��, �?0 值则降序

@strWhere varchar(1500) = '' -- 查询条�g (注意: 不要�?where)

AS

declare @strSQL   varchar(5000)       -- 主语�?/P>
declare @strTmp   varchar(110)        -- 临时变量

declare @strOrder varchar(400)        -- 排序�c�d��

if @doCount != 0

begin

    if @strWhere !=''

    set @strSQL = "select count(*) as Total from [" + @tblName + "] where "+@strWhere

    else

    set @strSQL = "select count(*) as Total from [" + @tblName + "]"

end

--以上代码的意思是如果@doCount传递过来的不是0�Q�就执行��L��l�计。以下的所有代码都是@doCount�?的情�?/P>
else

begin

if @OrderType != 0

begin

    set @strTmp = "<(select min"

set @strOrder = " order by [" + @fldName +"] desc"

--如果@OrderType不是0�Q�就执行降序�Q�这句很重要�Q?/P>
end

else

begin

    set @strTmp = ">(select max"

    set @strOrder = " order by [" + @fldName +"] asc"

end

if @PageIndex = 1

begin

    if @strWhere != ''

    set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from [" + @tblName + "] where " + @strWhere + " " + @strOrder

     else

     set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["+ @tblName + "] "+ @strOrder

--如果是第一��就执行以上代码�Q�这样会加快执行速度

end

else

begin

--以下代码赋予了@strSQL以真正执行的SQL代码

set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["

    + @tblName + "] where [" + @fldName + "]" + @strTmp + "(["+ @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["+ @fldName + "] from [" + @tblName + "]" + @strOrder + ") as tblTmp)"+ @strOrder

if @strWhere != ''

    set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["

        + @tblName + "] where [" + @fldName + "]" + @strTmp + "(["

        + @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + " ["

        + @fldName + "] from [" + @tblName + "] where " + @strWhere + " "

        + @strOrder + ") as tblTmp) and " + @strWhere + " " + @strOrder

end

end

exec (@strSQL)

GO

　　上面的这个存储过�E�是一个通用的存储过�E�，其注释已写在其中了�?/P>
　　在大数据量的情况下，特别是在查询最后几��늚�时候，查询旉��一般不会超�q?�U�；而用其他存储�q�程�Q�在实践中就会导致超�Ӟ��所以这个存储过�E�非帔R��用于大定w��数据库的查询�?/P>
　　�W�者希望能够通过对以上存储过�E�的解析�Q�能�l�大家带来一定的启示�Q��ƈ�l�工作带来一定的效率提升�Q�同时希望同行提出更优秀的实时数据分��늮�法�?/P>
四、聚集烦引的重要性和如何选择聚集索引

　　在上一节的标题中，�W�者写的是�Q�实现小数据量和��量数据的通用分页昄��存储�q�程。这是因为在��本存储�q�程应用于“办公自动化”系�l�的实践中时�Q�笔者发现这�W�三�U�存储过�E�在��数据量的情况下�Q�有如下现象�Q?/P>
　　1、分��速度一般维持在1�U�和3�U�之间�?/P>
　　2、在查询最后一��|��Q�速度一般�ؓ5�U�至8�U�，哪怕分��|��L��只有3��|��30万页�?/P>
　　虽然在超大容量情况下�Q�这个分��늚�实现�q�程是很快的�Q�但在分前几��|��Q�这�?�Q?�U�的速度比�v�W�一�U�甚��x��有经�q�优化的分页�Ҏ��速度�q�要慢，借用��L��话说��是“还没有ACCESS数据库速度快”，�q�个认识��以��D��用户攑ּ�使用您开发的�pȝ��?/P>
　　�W�者就此分析了一下，原来产生�q�种现象的症�l�是如此的简单，但又如此的重要：排序的字�D�不是聚集烦引！

　　本篇文章的题目是�Q�“查询优化及分页��法�Ҏ��”。笔者只所以把“查询优化”和“分��늮�法”这两个联系不是很大的论题放在一��P��是因�ؓ二者都需要一个非帔R��要的东西――聚集烦引�?/P>
　　在前面的讨论中我们已�l�提��C��Q�聚集烦引有两个最大的优势�Q?/P>
　　1、以最快的速度�~�小查询范围�?/P>
　　2、以最快的速度�q�行字段排序�?/P>
　　�W?条多用在查询优化�Ӟ��而第2条多用在�q�行分页时的数据排序�?/P>
　　而聚集烦引在每个表内又只能徏立一个，�q��得聚集烦引显得更加的重要。聚集烦引的挑选可以说是实现“查询优化”和“高效分��”的最关键因素�?/P>
　　但要既��聚集索引列既�W�合查询列的需要，又符合排序列的需要，�q�通常是一个矛盾�?/P>
　　�W�者前面“烦引”的讨论中，��fariqi�Q�即用户发文日期作�ؓ了聚集烦引的起始列，日期的精��度为“日”。这�U�作法的优点�Q�前面已�l�提��C��Q�在�q�行划时间段的快速查询中�Q�比用ID主键列有很大的优�ѝ�?/P>
　　但在分页�Ӟ��׃��q�个聚集索引列存在着重复记录�Q�所以无法��用max或min来最为分��늚�参照物，�q�而无法实现更为高效的排序。而如果将ID主键列作��集烦引，那么聚集索引除了用以排序之外�Q�没有�Q何用处，实际上是��费了聚集烦引这个宝�늚�资源�?/P>
　　　��册��个矛盾，�W�者后来又��d��了一个日期列�Q�其默认��gؓgetdate()。用户在写入记录�Ӟ��q�个列自动写入当时的旉��Q�时间精��到毫秒。即使这��P��Z��避免可能性很��的重合�Q�还要在此列上创建UNIQUE�U�束。将此日期列作�ؓ聚集索引列�?/P>
　　有了�q�个旉��型聚集烦引列之后�Q�用户就既可以用�q�个列查扄��户在插入数据时的某个旉��D늚�查询�Q�又可以作�ؓ唯一列来实现max或min�Q�成为分��늮�法的参照物�?/P>
　　�l�过�q�样的优化，�W�者发玎ͼ�无论是大数据量的情况下还是小数据量的情况下，分页速度一般都是几十毫�U�，甚至0毫秒。而用日期�D늾��范围的查询速度比原来也没有��M��q�钝�?/P>
　　聚集索引是如此的重要和珍贵，所以笔者�ȝ��了一下，一定要��聚集烦引徏立在�Q?/P>
　　1、您最频繁使用的、用以羃��查询范围的字段上；

　　2、您最频繁使用的、需要排序的字段上�?/P>
　　�l�束语：

　　希望�q�篇文章不仅能够�l�大家的工作带来一定的帮助�Q�也希望能让大家能够体会到分析问题的�Ҏ��Q�最重要的是�Q�希望这��文章能够抛砖引玉，掀起大家的学习和讨论的兴趣�Q�以共同促进�?
　　最后需要说明的是，在试验中�Q�发现用户在�q�行大数据量查询的时候，�Ҏ��据库速度影响最大的不是内存大小�Q�而是CPU。在我的P4 2.4机器上试验的时候，查看“资源管理器”，CPU�l�常出现持箋�?00%的现象，而内存用量却�q�没有改变或者说没有大的改变。即使在我们的HP ML 350 G3服务器上试验�Ӟ��CPU峰��g��能达�?0%�Q�一般持�l�在70%左右�?

　　本文的试验数据都是来自我们的HP ML 350服务器。服务器配置�Q�双Inter Xeon ��线�E?CPU 2.4G�Q�内�?G�Q�操作系�l�Windows Server 2003 Enterprise Edition�Q�数据库SQL Server 2000 SP3�?/P>
转蝲完毕.

作者补�?
1.columns in('aa','bb')
他等于columns = 'aa' or columns ='bb' 他先��L��询columns ='aa'攑֜�一个��时的�I�间�?然后�{�columns ='bb'查询完后,做个or查询得出�l�果.
至于效率的话�Q�在columns建立索引的话, columns ='aa' or columns ='bb'要来的效率高
语法分析器会��columns in('aa','bb')转化
为columns ='aa' or columns ='bb'来执行。我们期望它会根据每个or子句分别查找�Q�再��结�?
相加�Q�这样可以利用columns 上的索引�Q�但实际上（�Ҏ��showplan�Q?它却采用�?OR�{�略"
�Q�即先取出满��x��个or子句的行�Q�存入��时数据库的工作表中，再徏立唯一索引以去�?
重复行，最后从�q�个临时表中计算�l�果。因此，实际�q�程没有利用columns 上烦引，�q�且�?
成时间还要受tempdb数据库性能的媄响�?

2.效率从高��C�� count(1)>count(*)>count([id])

3.select max(cols) from table1 的效�?gt;= select top 1 cols from table1 order by cols desc

4.在where 做�ƈ列条件句�?where cols1='aa' and cols2='bb'
如果cols1 ='aa' �?5% cols2�?%的话�Q�把cols2='bb'攑֜�前面 ,因�ؓ他在��索cols ='bb'的时候他只需查那5%,然后条�g成立的话�Q�去在这5%的纪录里
��L��找cols1 ='aa'

5.避免用if条�g�?可以用or来替�?
declare @vsql varchar(200)
set @vsql ='Renaski'
select * from titles where @vsql ='Renaski' or price = 11.9500

如果@vsql为Renaski则把所有的�U�录都选出�?如果不是的话�Q�则只查询price = 11.9500 的纪�?

6.��M��对列的操作都��导致表扫描�Q�它包括数据库函数、计��表辑ּ��{�等�Q�查询时
要尽可能��操作移至等号右辏V�?

7.��量避免使用游标.
如果使用了游标，��p��量避免在游标��@环中再进行表�q�接的操�?

8.取一个表的纪录数
Select rows from sysindexes where id=object_id(N'titles') and indid<2
效率�?
select count(1) from titles来的�?

9.取的一个表的数据信�?
SELECT
表名=case when a.colorder=1 then d.name else '' end,
表说�?case when a.colorder=1 then isnull(f.value,'') else '' end,
字段序号=a.colorder,
字段�?a.name,
标识=case when COLUMNPROPERTY( a.id,a.name,'IsIdentity')=1 then '�?else '' end,
主键=case when exists(SELECT 1 FROM sysobjects where xtype='PK' and name in (
SELECT name FROM sysindexes WHERE indid in(
SELECT indid FROM sysindexkeys WHERE id = a.id AND colid=a.colid
))) then '�? else '' end,
�c�d��=b.name,
占用字节�?a.length,
长度=COLUMNPROPERTY(a.id,a.name,'PRECISION'),
��数位数=isnull(COLUMNPROPERTY(a.id,a.name,'Scale'),0),
允许�I?case when a.isnullable=1 then '�?else '' end,
默认�?isnull(e.text,''),
字段说明=isnull(g.[value],''),
索引名称=isnull(h.索引名称,''),
索引��序=isnull(h.排序,'')
FROM syscolumns a
left join systypes b on a.xtype=b.xusertype
inner join sysobjects d on a.id=d.id and d.xtype='U' and d.status>=0
left join syscomments e on a.cdefault=e.id
left join sysproperties g on a.id=g.id and a.colid=g.smallid
left join sysproperties f on d.id=f.id and f.smallid=0
left join(--�q�部分是索引信息,如果要显�C�烦引与表及字段的对应关�p?可以只要此部�?
select 索引名称=a.name,c.id,d.colid
,排序=case indexkey_property(c.id,b.indid,b.keyno,'isdescending')
when 1 then '降序' when 0 then '升序' end
from sysindexes a
join sysindexkeys b on a.id=b.id and a.indid=b.indid
join (--�q�里的作用是有多个烦引时,取烦引号最��的那个
select id,colid,indid=min(indid) from sysindexkeys
group by id,colid) b1 on b.id=b1.id and b.colid=b1.colid and b.indid=b1.indid
join sysobjects c on b.id=c.id and c.xtype='U' and c.status>=0
join syscolumns d on b.id=d.id and b.colid=d.colid
where a.indid not in(0,255)
) h on a.id=h.id and a.colid=h.colid
--where d.name='要查询的�? --如果只查询指定表,加上此条�?
order by a.id,a.colorder

10.创徏一个表�l�构.
select * into #b from authors where 1=2;
注意:
#table1
##table1
@table1

局部��时表
以一个井��P��#�Q�开头的那些表名。只有在创徏本地临时表的�q�接上才能看到这些表�?

全局临时�?
以两个井��P��##�Q�开头的那些表名。在所有连接上都能看到全局临时表。如果在创徏全局临时表的�q�接断开前没有显式地除去�q�些表，那么只要所有其它�Q务停止引用它们，�q�些表即被除厅R��当创徏全局临时表的�q�接断开后，新的��d��不能再引用它们。当前的语句一执行完，��d��与表之间的关联即被除去；因此通常情况下，只要创徏全局临时表的�q�接断开�Q�全局临时表即被除厅R�?

@�?有和不同�Q�@@在内存，#在硬盘。我的体会是只要方便且数据量不大�Q��用@@�?/P>
11.视图
他只是记住要�q�接,兌��列的信息,他不存放��M��物理数据.
在调用的时候他�q�是��d��各个表中的数�?

12.��量不要用text属�?
�pȝ��Z��专门开辟一个空间来存放.
用t-sql/varchar替代
pl/sql varchar2 替代.

13
GO语句是个命��o识别�q��过osql和isql和SQL 查询分析器非T-SQL语句�q�行识别�?
如果你��用查询分析器作�ؓ你的��d��发工��P��其他语句和库文�g��不会识别GO语句作�ؓ一个T-SQL命��o

14.
用exec 效率来的�?
declare @sql nvarchar(300)
   set @sql='select * from titles'
execute sp_executesql @sql

15,注意你的tempdb,使他自动增长.

16 使用no_log
select * from titles no_logs

17��M��重复�U�录�?��量用dictinct

18.��量避免反复讉K��同一张或几张表，��其是数据量较大的表�Q�可以考虑先根据条件提取数据到临时表中�Q�然后再做连接�?

19 ��量使用�?gt;=”，不要使用�?gt;”�?他会扑ֈ�某个��定的数字进行筛�?�?gt;则没�?

20注意表之间连接的数据�c�d��Q�避免不同类型数据之间的�q�接�?

21.可用ASE调优命��o�Q�set statistics io on, set statistics time on , set showplan on �{?�q�行优化

22.truncate table 删除数据
而不是delete from table

�?死锁

像SQL server一��L��关系数据库��用锁来防止用户“互相踩到对方的脚趾头”。也��是��_��锁可以防止用户造成修改数据时的��撞。当一个用户锁住一�D�代码时候，其它的用户都不能修改�q�段数据。另外，一个锁��L��了用戯��看未被授权的数据修改。用户必��ȝ��待到数据修改�q�保存之后才能够查看它。数据必��M��用不同的�Ҏ��来加锁。SQL Server 2000使用锁来实现多用户同时修�Ҏ��据库同一数据时的同步控制
如果数据量超�q?00个数据页面（400k�Q�，那么�pȝ��会�q�行锁升�U�，��锁会升��成表�U�锁�?　　

死锁
一个数据库的死锁是发生在两个或多于两个讉K��一些资源的数据库会话中的，�q�且�q�些会话�怺�之间有依赖关�p�R��死锁是可以在�Q意一个多�U�程的系�l�成出现的一个情况，不仅仅局限于关系数据库管理系�l�。一个多�U�程�pȝ��中的�U�程可能需要一个或多个资源(例如�Q�锁)。如果申��L��资源正在被另外一个线�E�所使用�Q�那么第一个线�E�就需要等待持有该资源的线�E�的释放它所需要的资源。假讄��待线�E�持有一个那个正拥有�U�程所依赖的资源。下面的�q�一�D�代码就可以造成死锁异常现象的发生：
System.Data.SqlClient.SqlException: Transaction (Process ID 12) was deadlocked on lock resources with another process and has been chosen as the deadlock victim. Rerun the transaction.

当一个SQL Server的调用和另外一个资源发生冲�H�时��׃��抛出异常�Q�这个资源持有一个必要的资源。结果是�Q�一个进�E�就被终止了。当�q�程的ID��h��为系�l�的唯一标识的时候，�q�会是一个很�q�_��死锁的消息错误�?/P>

锁的�c�d��
一个数据库�pȝ��在许多情况下都有可能锁数据项。其可能性包括：

Rows—数据库表中的一整行
Pages—行的集合（通常为几kb�Q?
Extents—通常是几个页的集�?
Table—整个数据库�?
Database—被锁的整个数据库表

除非有其它的说明�Q�数据库�Ҏ��情况自己选择最好的锁方式。不�q�值得感谢的是�Q�SQL Server提供了一�U�避免默认行为的�Ҏ��。这是由锁提�C�来完成的�?/P>

提示
或许你有�q�许多如下的�l�历�Q�需要重设SQL Server的锁计划�Q��ƈ且加强数据库表中锁范围。Tansact�Q�SQL提供了一�p�d��不同�U�别的锁提示�Q�你可以在SELECT,INSERT,UPDATE和DELETE中��用它们来告诉SQL Server你需要如何通过重设��M��的系�l�或事务�U�别来锁表格。可以实现的提示包括�Q?

FASTFIRSTROW—选取�l�果集中的第一行，�q�将其优�?
HOLDLOCK—持有一个共享锁直至事务完成
NOLOCK—不允许使用�׃�n锁或独��n锁。这可能会造成数据重写或者没有被��认��p��回的情况�Q�因此，��有可能使用到脏数据。这个提�C�只能在SELECT中��用�?
PAGLOCK—锁表格
READCOMMITTED—只��d��被事务确认的数据。这��是SQL Server的默认行为�?
READPAST—蟩�q�被其它�q�程锁住的行�Q�所以返回的数据可能会忽略行的内宏V��这也只能在SELECT中��用�?
READUNCOMMITTED—等价于NOLOCK.
REPEATABLEREAD—在查询语句中，�Ҏ��有数据��用锁。这可以防止其它的用��h��新数据，但是新的行可能被其它的用��h��入到数据中，�q�且被最新访问该数据的用戯��取�?
ROWLOCK—按照行的��别来�Ҏ��据上锁。SQL Server通常锁到��|��者表�U�别来修改行�Q�所以当开发者��用单行的时候，通常要重设这个设�|��?
SERIALIZABLE—等价于HOLDLOCK.
TABLOCK—按照表�U�别上锁。在�q�行多个有关表��别数据操作的时候，你可能需要��用到�q�个提示�?
UPDLOCK—当��d��一个表的时候，使用更新锁来代替�׃�n锁，�q�且保持一直拥有这个锁直至事务�l�束。它的好处是�Q�可以允�怽�在阅��L��据的时候可以不需要锁�Q��ƈ且以最快的速度更新数据�?
XLOCK—给所有的资源都上独��n锁，直至事务�l�束�?

对于数据库死锁，通常可以通过TRACE FLAG 1204�?205�?206�Q�检查ERRORLOG里面的输出，和分析SQLTRACE的执行上下文判断死锁问题的来由�?
TRACEON函数的第三个参数讄��?1�Q�表�C�Z��单单针对当前connection�Q�而是针对所有包括未来徏立的connection。这��P��才够完全�Q�否则只是监视当前已�l�徏立的数据库连接了�?

执行下面的话可以把死锁记录到Errorlog中：

dbcc traceon (1204, 3605, -1)
go
dbcc tracestatus(-1)
go



得到的输��Zؓ�Q?
DBCC 执行完毕。如�?DBCC 输出了错误信息，请与�pȝ��理员联�p�R�?
TraceFlag Status
--------- ------
1204      1
1205      1
3605      1

�Q�所影响的行��Cؓ 3 行）

DBCC 执行完毕。如�?DBCC 输出了错误信息，请与�pȝ��理员联�p�R�?/P>

此后�Q�你可以查看数据库的例行日志�Q�每隔一�D�|��_��数据库都会检查死�?
2004-01-16 18:34:38.50 spid4     ----------------------------------
2004-01-16 18:34:38.50 spid4     Starting deadlock search 1976

2004-01-16 18:34:38.50 spid4     Target Resource Owner:
2004-01-16 18:34:38.50 spid4      ResType:LockOwner Stype:'OR' Mode: U SPID:55 ECID:0 Ec:(0xAA577570) Value:0x4c25cba0
2004-01-16 18:34:38.50 spid4      Node:1 ResType:LockOwner Stype:'OR' Mode: U SPID:55 ECID:0 Ec:(0xAA577570) Value:0x4c25cba0
2004-01-16 18:34:38.50 spid4      Node:2 ResType:LockOwner Stype:'OR' Mode: U SPID:71 ECID:0 Ec:(0xABF07570) Value:0x9bd0ba00
2004-01-16 18:34:38.50 spid4
2004-01-16 18:34:38.50 spid4     -- next branch --
2004-01-16 18:34:38.50 spid4      Node:2 ResType:LockOwner Stype:'OR' Mode: U SPID:71 ECID:0 Ec:(0xABF07570) Value:0x9bd0ba00
2004-01-16 18:34:38.50 spid4
2004-01-16 18:34:38.50 spid4
2004-01-16 18:34:38.50 spid4     End deadlock search 1976 ... a deadlock was not found.
2004-01-16 18:34:38.50 spid4     ----------------------------------

DBCC TRACEON打开�Q�启用）指定的跟�t�标记�?

注释跟踪标记用于自定义某些控�?Microsoft? SQL Server? 操作方式的特性。跟�t�标记在服务器中一直保持启用状态，直到通过执行 DBCC TRACEOFF 语句对其��用为止。在发出 DBCC TRACEON 语句之前�Q�连入到服务器的新连接看不到��M��跟踪标记。一旦发��语句�Q�该�q�接��p��看到服务器中当前启用的所有跟�t�标讎ͼ�即�ɘq�些标记是由其它�q�接启用�Q��?
跟踪标记跟踪标记用于临时讄��服务器的特定特征或关闭特定行为。如果启�?Microsoft? SQL Server 时设�|�了跟踪标记 3205�Q�将��用��带驱动�E�序的硬件压�~�。跟�t�标记经常用于诊断性能问题�Q�或调试存储�q�程或复杂的计算机系�l��?
下列跟踪标记�?SQL Server 中可用。跟�t�标�?描述 1204 �q�回参与死锁的锁的类型以及当前受影响的命令�?nbsp;
实际上可以在“错�?1000 -1999”中扑ֈ�他们�Q?
1204 19 SQL Server 此时无法获取 LOCK 资源。请在活动用��h��较少旉��新运行您的语句，或者请求系�l�管理员��?SQL Server 锁和内存配置�?
1205 13 事务�Q�进�E?ID %1!�Q�与另一个进�E�已被死锁在资源 {%2!} 上，且该事务已被选作死锁牺牲品。请重新�q�行该事务�?
1206 18 事务��理器已取消了分布式事务�?

需要指出的是对锁的升��,完全是由�pȝ��自行判断�?而非��Zؓ.如果要避免死锁的话，其根本还在与数据库的设计�?

Titan 2005-11-28 23:06 发表评论