隨筆 - 312, 文章 - 14, 評論 - 1393, 引用 - 0
          數據加載中……

          SQL Server2005雜談(3):四個排名函數(row_number、rank、dense_rank和ntile)的比較

          本文為原創,如需轉載,請注明作者和出處,謝謝!

          上一篇:SQL Server2005雜談(2):公用表表達式(CTE)的遞歸調用

              排名函數是SQL Server2005新加的功能。在SQL Server2005中有如下四個排名函數:

          1. row_number

          2. rank

          3. dense_rank

          4. ntile   
              下面分別介紹一下這四個排名函數的功能及用法。在介紹之前假設有一個t_table表,表結構與表中的數據如圖1所示:



          圖1

          其中field1字段的類型是intfield2字段的類型是varchar

          一、row_number

              row_number函數的用途是非常廣泛,這個函數的功能是為查詢出來的每一行記錄生成一個序號。row_number函數的用法如下面的SQL語句所示:

           

          select row_number() over(order by field1) as row_number,* from t_table

              上面的SQL語句的查詢結果如圖2所示。



          圖2

              其中row_number列是由row_number函數生成的序號列。在使用row_number函數是要使用over子句選擇對某一列進行排序,然后才能生成序號。

              實際上,row_number函數生成序號的基本原理是先使用over子句中的排序語句對記錄進行排序,然后按著這個順序生成序號。over子句中的order by子句與SQL語句中的order by子句沒有任何關系,這兩處的order by 可以完全不同,如下面的SQL語句所示:

           

          select row_number() over(order by field2 descas row_number,* from t_table order by field1 desc

              上面的SQL語句的查詢結果如圖3所示。



          圖3
              我們可以使用row_number函數來實現查詢表中指定范圍的記錄,一般將其應用到Web應用程序的分頁功能上。下面的SQL語句可以查詢t_table表中第2條和第3條記錄:

           

          with t_rowtable
          as
          (
              
          select row_number() over(order by field1) as row_number,* from t_table
          )
          select * from t_rowtable where row_number>1 and row_number < 4 order by field1

              上面的SQL語句的查詢結果如圖4所示。



          圖4
              上面的SQL語句使用了CTE,關于CTE的介紹將讀者參閱《SQL Server2005雜談(1):使用公用表表達式(CTE)簡化嵌套SQL》
              另外要注意的是,如果將row_number函數用于分頁處理,over子句中的order by 與排序記錄的order by 應相同,否則生成的序號可能不是有續的。
              當然,不使用row_number函數也可以實現查詢指定范圍的記錄,就是比較麻煩。一般的方法是使用顛倒Top來實現,例如,查詢t_table表中第2條和第3條記錄,可以先查出前3條記錄,然后將查詢出來的這三條記錄按倒序排序,再取前2條記錄,最后再將查出來的這2條記錄再按倒序排序,就是最終結果。SQL語句如下:

           

           

          select * from (select top 2 * fromselect top 3 * from t_table order by field1) a order by field1 desc) b order by field1

              上面的SQL語句查詢出來的結果如圖5所示。



          圖5

              這個查詢結果除了沒有序號列row_number,其他的與圖4所示的查詢結果完全一樣。

          二、rank

              rank函數考慮到了over子句中排序字段值相同的情況,為了更容易說明問題,在t_table表中再加一條記錄,如圖6所示。



          圖6
              在圖6所示的記錄中后三條記錄的field1字段值是相同的。如果使用rank函數來生成序號,這3條記錄的序號是相同的,而第4條記錄會根據當前的記錄數生成序號,后面的記錄依此類推,也就是說,在這個例子中,第4條記錄的序號是4,而不是2。rank函數的使用方法與row_number函數完全相同,SQL語句如下:

           

          select rank() over(order by field1),* from t_table order by field1

              上面的SQL語句的查詢結果如圖7所示。



          圖7

          三、dense_rank

              dense_rank函數的功能與rank函數類似,只是在生成序號時是連續的,而rank函數生成的序號有可能不連續。如上面的例子中如果使用dense_rank函數,第4條記錄的序號應該是2,而不是4。如下面的SQL語句所示:

           

           

           

          select dense_rank() over(order by field1),* from t_table order by field1

              上面的SQL語句的查詢結果如圖8所示。



          圖8

              讀者可以比較圖7和圖8所示的查詢結果有什么不同

           

           

          四、ntile
              ntile函數可以對序號進行分組處理。這就相當于將查詢出來的記錄集放到指定長度的數組中,每一個數組元素存放一定數量的記錄。ntile函數為每條記錄生成的序號就是這條記錄所有的數組元素的索引(從1開始)。也可以將每一個分配記錄的數組元素稱為“桶”。ntile函數有一個參數,用來指定桶數。下面的SQL語句使用ntile函數對t_table表進行了裝桶處理:

           

           

          select ntile(4over(order by field1) as bucket,* from t_table

              上面的SQL語句的查詢結果如圖9所示。



          圖9

              由于t_table表的記錄總數是6,而上面的SQL語句中的ntile函數指定了桶數為4

              也許有的讀者會問這么一個問題,SQL Server2005怎么來決定某一桶應該放多少記錄呢?可能t_table表中的記錄數有些少,那么我們假設t_table表中有59條記錄,而桶數是5,那么每一桶應放多少記錄呢?

              實際上通過兩個約定就可以產生一個算法來決定哪一個桶應放多少記錄,這兩個約定如下:

          1. 編號小的桶放的記錄不能小于編號大的桶。也就是說,第1捅中的記錄數只能大于等于第2桶及以后的各桶中的記錄。

          2. 所有桶中的記錄要么都相同,要么從某一個記錄較少的桶開始后面所有捅的記錄數都與該桶的記錄數相同。也就是說,如果有個桶,前三桶的記錄數都是10,而第4捅的記錄數是6,那么第5桶和第6桶的記錄數也必須是6

              根據上面的兩個約定,可以得出如下的算法:

           

           

              // mod表示取余,div表示取整 
              if(記錄總數 mod 桶數 == 0)
              {
                  recordCount 
          = 記錄總數 div 桶數;
                  將每桶的記錄數都設為recordCount
              } 
              
          else
              {
                  recordCount1 
          = 記錄總數 div 桶數 + 1;
                  
          int n = 1;  //  n表示桶中記錄數為recordCount1的最大桶數
                  m = recordCount1 * n;
                  
          while(((記錄總數 - m)  mod  (桶數 -  n))  != 0 )
                  {
                      n
          ++;
                      m 
          = recordCount1 * n;
                  } 
                  recordCount2 
          = (記錄總數 - m) div  (桶數 - n);
                  將前n個桶的記錄數設為recordCount1
                  將n 
          + 1個至后面所有桶的記錄數設為recordCount2
              }

              根據上面的算法,如果記錄總數為59,桶數為5,則前4個桶的記錄數都是12,最后一個桶的記錄數是11

              如果記錄總數為53,桶數為5,則前3個桶的記錄數為11,后2個桶的記錄數為10

              就拿本例來說,記錄總數為6,桶數為4,則會算出recordCount1的值為2,在結束while循環后,會算出recordCount2的值是1,因此,前2個桶的記錄是2,后2個桶的記錄是1

          下一篇:
          SQL Server2005雜談(4):在SQL Server2005中按列連接字符串的三種方法

           

           





          Android開發完全講義(第2版)(本書版權已輸出到臺灣)

          http://product.dangdang.com/product.aspx?product_id=22741502



          Android高薪之路:Android程序員面試寶典 http://book.360buy.com/10970314.html


          新浪微博:http://t.sina.com.cn/androidguy   昵稱:李寧_Lining

          posted on 2009-02-05 20:21 銀河使者 閱讀(7071) 評論(2)  編輯  收藏 所屬分類: SQL Serverdatabases 原創

          評論

          # re: SQL Server2005雜談(3):四個排名函數(row_number、rank、dense_rank和ntile)的比較  回復  更多評論   

          清晰明了,太感激了!
          2009-05-07 12:19 | herobear

          # re: SQL Server2005雜談(3):四個排名函數(row_number、rank、dense_rank和ntile)的比較[未登錄]  回復  更多評論   

          學習了后三個函數。不過最后一個沒看到實際作用。
          2009-12-10 09:46 | seasun
          主站蜘蛛池模板: 永康市| 融水| 奉贤区| 华阴市| 三亚市| 齐河县| 长治市| 睢宁县| 新沂市| 南丰县| 襄城县| 郯城县| 扶余县| 四子王旗| 岳西县| 商水县| 丹阳市| 巩留县| 九龙城区| 正安县| 无棣县| 饶阳县| 象州县| 中超| 东阿县| 金昌市| 永丰县| 咸阳市| 临海市| 深水埗区| 霞浦县| 工布江达县| 水富县| 琼中| 赣榆县| 绥滨县| 泗阳县| 枝江市| 临朐县| 济南市| 舞阳县|