jzzjzzjzz亚洲成熟少妇,欧美一区日韩一区,69久久精品

weibogao — Mon, 15 Jan 2007 04:05:00 GMT

摘要: Oracle 的物化视图提供了(ji��n)强大的功能，可以用在不同的环境中。在不同的环境中�Q�物化视囄��作用也不相同�? 数据仓库中的物化视图主要用于预先计算�q�保存表�q�接或聚集等耗时较多的操作的�l�果�Q�这��P��在执行查询时�Q�就可以避免�q�行�q�些耗时的操作，而从快速的得到�l�果。在数据仓库中，�q�经�怋�用查询重写（ ... 阅读全文

weibogao 2007-01-15 12:05 发表评论

Effective SQL

weibogao — Fri, 12 Jan 2007 04:56:00 GMT

一.名词解释�Q?
0。SQL �l�构化查询语�a�(Structured Query Language)

1。非关系型数据库�pȝ��
做�ؓ(f��)�W�一代数据库�pȝ��的�ȝ��Q�其包括2�U�类型：(x��)“层�ơ”数据库与“网状”数据库

“层�ơ”数据库��理�pȝ�� eg:IBM&IMS (Information Management System)
特点:数据按层�ơ模型组�l?

"�|�状"数据�?
特点�Q�数据按�|�状模型�l�织

2。关�p�d��数据库系�l?
关系性数据库��理�pȝ�� (RDBMS)
eg:SQL/DS , DB2, Oracle ,Informix ,Unity,dBASE�{?
特点�Q�数据按二维的表格组�l��?

3。数据库(DataBase)
按一定结构存储在计算��Z��怺�兌��的数据的集合�?

4。数据库��理�pȝ��DBMS(Database Management System)
一个通用的��Y件系�l�。就是让你怎么��理你的数据库。其中包括存储，安全�Q�完整性管�?br />�{��?

5。数据库应用�pȝ��DBAS �Q�Database Application System�Q?
数据库应用程序系�l�，建立在DBMS基础之上的。就是一个面向用��L(f��ng)��软�g�pȝ��?

6。ANSI标准 �Q�American National Standards Institute�Q�美国国家标准委员会(x��)
因�ؓ(f��)1999�q�第2�ơ更新SQL�Q�所以SQL又称为SQL99或SQL3�Q�第3版，�?个版本分别�ؓ(f��)1986�q?br />的sql ,1992 �q�的sql2/sql92�Q��?

7。SQL语句�?�U�类�?
数据操作语句(Data Manipulation Language ) DML 关于数据操作命��o(h��)的�?eg:select,in
sert,update,delete
数据定义语句(Data Definition Language ) DDL     关于数据对象讉K��的�?eg:create�Q?br /> drop
数据控制语句(Data Control Language) DCL         关于权限的�?eg:grant �Q�revoke

8。PL/SQL Procedural Language/sql
用于oracle的语�a�

9.T-SQL transact-sql
用于 microsoft sql server 和sybase adaptive server

10。E.F.Codd关于关系型数据库12条检验原则（MYSQL�Q�不支持视图和原子事物处理，所�?br />排除�Q?
内容�Q�暂�?

11。数据库设计之新奥尔良方法�?
需求分�?=》概念设�?=》逻辑设计==》物理设�?
4个步骤的具体中以需求分析最重要.
需求分析的内容:暂略
概念设计的内�?暂略
逻辑设计的内�?暂略
物理设计的内�?暂略

�?数据库优化方�?
1.索引
一概述

可以利用索引快速访问数据库表中的特定信息。烦(ch��)引是�Ҏ(gu��)��据库表中一个或多个列的�?br />�q�行排序的结构�?
索引提供指针以指向存储在表中指定列的数据��|��然后�Ҏ(gu��)��指定的排序次序排列这些指
针�?
数据库��用烦(ch��)引的方式与��用书的目录很�怼��Q�通过搜烦(ch��)索引扑ֈ�特定的��|��
然后跟随指针到达包含该值的�?

索引是一个单独的、物理的数据库结构，它是某个表中一列或若干列值的集合和相应的�?br />向表中物理标识这些值的数据��늚�逻辑指针清单�?

一个表的存储是�׃��部分�l�成的，一部分用来存放表的数据��面�Q�另一部分存放索引��面
。烦(ch��)引就存放在烦(ch��)引页面上

�?索引的两�U�类型：(x��)

聚集索引=��集索引

聚集索引��Z��数据行的键值在表内排序和存储这些数据行。由于数据行按基于聚集烦(ch��)引键
的排序次序存储，
因此聚集索引�Ҏ(gu��)��找行很有效。每个表只能有一个聚集烦(ch��)引，因�ؓ(f��)数据行本�w�只能按一�?br />��序存储�?
数据行本�w�构成聚集烦(ch��)引的最低��别�?

只有当表包含聚集索引�Ӟ��表内的数据行才按排序�ơ序存储。如果表没有聚集索引�Q?
则其数据行按堆集方式存储�?

聚集索引对于那些�l�常要搜索范围值的列特别有效。��用聚集烦(ch��)引找到包含第一个值的�?br />后，
便可以确保包含后�l�烦(ch��)引值的行在物理盔R��。例如，如果应用�E�序执行的一个查询经常检
索某一日期范围
内的记录�Q�则使用聚集索引可以�q�速找到包含开始日期的行，然后��(g��)索表中所有相�?c��)��?br />�Q?
直到到达�l�束日期。这��h��助于提高此类查询的性能。同��P��如果对从表中��(g��)索的数据�q?br />行排序时
�l�常要用到某一列，则可以将该表在该列上聚集�Q�物理排序）(j��)�Q�避免每�ơ查询该列时都进
行排序，
从而节省成�?

非聚集烦(ch��)�?

非聚集烦(ch��)引具有完全独立于数据行的�l�构。非聚集索引的最低行包含非聚集烦(ch��)引的键��|��

�q�且每个键值项都有指针指向包含该键值的数据行。数据行不按��Z��非聚集键的次序存�?br />�?

在非聚集索引内，从烦(ch��)引行指向数据行的指针�U�Cؓ(f��)行定位器�?
行定位器的结构取决于数据��늚�存储方式是堆集还是聚集。对于堆集，行定位器是指向行
的指针�?
对于有聚集烦(ch��)引的表，行定位器是聚集烦(ch��)引键�?
只有在表上创��Z��(ji��n)聚集索引�Ӟ��表内的行才按特定的顺序存储。这些行��基于聚集烦(ch��)引键
按顺序存储�?
如果一个表只有非聚集烦(ch��)引，它的数据行将按无序的堆集方式存储
非聚集烦(ch��)引可以徏多个,两者都能改善查询性能

非聚集烦(ch��)引与聚集索引一��h�� B �?w��i)结构，但是有两个重大差别�?x��)
数据行不按非聚集索引键的��序排序和存储�?
非聚集烦(ch��)引的叶层不包含数据页�?
相反�Q�叶节点包含索引行。每个烦(ch��)引行包含非聚集键��g��?qi��ng)一个或多个行定位器�Q?
�q�些行定位器指向有该键值的数据行（如果索引不唯一�Q�则可能是多行）(j��)�?
非聚集烦(ch��)引可以在有聚集烦(ch��)引的表、堆集或索引视图上定�?

聚集索引-->��序表结�?其物理数据和逻辑排序紧邻.
非聚集烦(ch��)�?->单链表结�?��L(f��ng)��理和逻辑排序不按��序排列.

打个比方.
一本字�?你现在查一个陈�?你有2�U�方�?首先,你在知道他念chen的情况下��L��照拼韛_��
母去查找.他是排在字母A,B
于是你很�Ҏ(gu��)��的就扑ֈ�"�?�?�W?�U�方法则是按�~�旁查找,先找到��x��?��L��C��个��(f��)�?br />的编旁表在去�?�?�q�个�?然后按照�l�出�?
��|��扑ֈ�相应的位�|?
昄��,�W�一�U�方法就是聚集烦(ch��)�?按照物理位置�Ҏ(gu��)��排序来查�?
�W?�U�方法则是非聚集索引,按照一个��(f��)时烦(ch��)引来查找.

另外
唯一索引

唯一索引可以��保索引列不包含重复的倹{��在多列唯一索引的情况下�Q�该索引可以��保�?br />引列中每个值组
合都是唯一的。唯一索引既是索引也是�U�束�?

复合索引
索引��Ҏ(gu��)��多个的就叫组合烦(ch��)引，也叫复合索引。复合烦(ch��)引��用时需要注意烦(ch��)引项的次序�?br />

�?索引的创�?

有两�U�方法可以在 SQL Server 内定义烦(ch��)�? CREATE INDEX 语句和CREATE TABLE 语句

CREATE TABLE支持在创建烦(ch��)引时使用下列�U�束�Q?

PRIMARY KEY 创徏唯一索引来强制执行主�?
UNIQUE 创徏唯一索引
CLUSTERED 创徏聚集索引
NONCLUSTERED 创徏非聚集烦(ch��)�?

�? 1 定义索引�Ӟ��可以指定每列的数据是按升序还是降序存储。如果不指定�Q�则默认�?br />升序
   2 支持在计��列上创建烦(ch��)�?
   3 为烦(ch��)引指定填充因�?
     可标识填充因子来指定每个索引��늚�填满�E�度。烦(ch��)引页上的�I�Z��I�间量很重要�Q?
     因�ؓ(f��)当烦(ch��)引页填满�Ӟ��pȝ��必须花时间拆分它以便为新行腾出空间�?

�?索引的维护语�?

DBCC DBREINDEX    重徏指定数据库中表的一个或多个索引
DBCC INDEXFRAG　　整理指定的表或视囄��聚集索引和辅助烦(ch��)引碎�?

比较

            速度    兼容性   �?日志影响      数据讉K��影响       额外��盘�I�间

DBCC        最快    �?最��q�  �?�?但能通过把 �?操作�q�程中数据不   需要大
DBREINDEX             可以重 �?故障�q�原模型设�?能访问，影响�?
                     建所有 �?为简单减��日志  �?
                     有烦(ch��)�?

DBCC        慢     �?但可   必须分 �?��            �?数据未被锁定        需要小

INDEXDEFRAG          随时�l?别指�?
                    止执行 �?


drop index    中等必须分 �?�?但能通过把  �?仅在操作执行时  �?中等�Q�操作在

create index        别指定 �?故障�q�原模型设 �?锁定数据          tempdb中进�?

                            为简单减��日�?

�?查看索引的方�?

sp_indexes        �q�回指定�q�程表的索引信息
INDEXKEY_PROPERTY �q�回有关索引键的信息
sysindexes�pȝ��表�?数据库中的每个烦(ch��)引和表在表中各占一行，该表存储在每个数据库�?br />

�?可以通过执行计划
查看sql语句执行时是否徏立在索引之上

比如
CREATE TABLE Test
(Field_1 int NOT NULL,
Field_2 int CONSTRAINT PK_Test
PRIMARY KEY CLUSTERED (Field_1))

CREATE index IX_Test ON Test (Field_2)

1 SELECT * FROM Test WHERE Field_2 =408
执行计划可以看出使用�?ji��n)IX_Test索引
2 SELECT * FROM Test WHERE Field_1 =1
执行计划可以看出使用�?ji��n)PK_Test
3 但如果是SELECT * FROM Test with (index(IX_Test)) WHERE Field_1 =1
则指定��用烦(ch��)�?

�?索引的具体��?

1�Q?索引的设�?
A:��量避免表扫�?
��(g��)查你的查询语句的where子句�Q�因��是优化器重要��x��的地斏V��包含在where里面的每
一列（column)都是可能的侯选烦(ch��)引，��辑ֈ�最优的性能�Q�考虑在下面给出的例子�Q�对�?br />在where子句中给��Z��(ji��n)column1�q�个列�?
下面的两个条件可以提高烦(ch��)引的优化查询性能�Q?
�W�一�Q�在表中的column1列上有一个单索引
�W�二�Q�在表中有多索引�Q�但是column1是第一个烦(ch��)引的�?
避免定义多烦(ch��)引而column1是第二个或后面的索引�Q�这��L(f��ng)��索引不能优化服务器性能
例如�Q�下面的例子用了(ji��n)pubs数据库�?
SELECT au_id, au_lname, au_fname FROM authors
WHERE au_lname = ’White�?
按下面几个列上徏立的索引��会(x��)是对优化器有用的索引
?au_lname
?au_lname, au_fname
而在下面几个列上建立的烦(ch��)引将不会(x��)对优化器起到好的作用
?au_address
?au_fname, au_lname
考虑使用�H�的索引在一个或两个列上�Q�窄(ji��ng)索引比多索引和复合烦(ch��)引更能有效。用�H�的索引
�Q�在每一��上
��会(x��)有更多的行和更少的烦(ch��)引��别（相对与多索引和复合烦(ch��)引而言�Q�，�q�将推进�pȝ��性能
�?
对于多列索引�Q�SQL Server�l�持一个在所有列的烦(ch��)引上的密度统计（用于联合�Q�和在第一
个烦(ch��)引上�?
histogram�Q�柱状图�Q�统计。根据统计结果，如果在复合烦(ch��)引上的第一个烦(ch��)引很��被选择�?br />用，那么优化器对很多查询��h��不�?x��)��用�?ch��)引�?
有用的烦(ch��)引会(x��)提高select语句的性能�Q�包括insert,uodate,delete�?
但是�Q�由于改变一个表的内容，��会(x��)影响索引。每一个insert,update,delete语句��会(x��)�?br />性能下降一些。实验表明，不要在一个单表上用大量的索引�Q�不要在�׃�n的列上（指在�?br />表中用了(ji��n)参考约束）(j��)使用重叠的烦(ch��)引�?
在某一列上��(g��)查唯一的数据的个数�Q�比较它与表中数据的行数做一个比较。这��是数据�?br />选择性，�q�比较结果将�?x��)帮助你军_��是否��某一列作��Z��选的索引列，如果需要，建哪一
�U�烦(ch��)引。你可以用下面的查询语句�q�回某一列的不同值的数目�?
select count(distinct cloumn_name) from table_name
假设column_name是一�?0000行的表，则看column_name�q�回值来军_��是否应该使用�Q�及(qi��ng)�?br />该��用什么烦(ch��)引�?
Unique values Index

5000 Nonclustered index
20 Clustered index
3 No index

2) 镞烦(ch��)引和非镞索引的选择

<1:>镞烦(ch��)引是行的物理��序和烦(ch��)引的��序是一致的。页�U�，低层�{�烦(ch��)引的各个�U�别上都�?br />含实际的数据��c(di��n)��一个表只能是有一个镞索引。由于update,delete语句要求相对多一些的
��L��作，因此镞烦(ch��)引常常能加速这��L(f��ng)��操作。在臛_��有一个烦(ch��)引的表中�Q�你应该有一个镞
索引�?
在下面的几个情况下，你可以考虑用镞索引�Q?
例如�Q?某列包括的不同值的个数是有限的�Q�但是不是极��的�Q?
��֮�表的州名列有50个左右的不同州名的羃写��|��可以使用镞烦(ch��)引�?
例如�Q?对返回一定范围内值的列可以��用镞索引�Q�比如用between,>,>=,<,<=�{�等来对�?br />�q�行操作的列上�?
select * from sales where ord_date between �?/1/93�?and �?/1/93�?
例如�Q?�Ҏ(gu��)��询时�q�回大量�l�果的列可以使用镞烦(ch��)引�?
SELECT * FROM phonebook WHERE last_name = ’Smith�?

当有大量的行正在被插入表中时�Q�要避免在本表一个自然增长（例如�Q�identity列）(j��)的列
上徏立镞索引。如果你建立�?ji��n)镞的�?ch��)引，那么insert的性能��׃��(x��)大大降低。因为每一个插
入的行必��d��表的最后，表的最后一个数据页�?
当一个数据正在被插入�Q�这时这个数据页是被锁定的）(j��)�Q�所有的其他插入行必��ȝ��待直�?br />当前的插入已�l�结束�?
一个烦(ch��)引的叶��中包括实际的数据页�Q��ƈ且在��盘上的数据��늚��ơ序是跟镞烦(ch��)引的逻辑
�ơ序一��L(f��ng)��?

<2:>一个非镞的索引��是行的物理�ơ序与烦(ch��)引的�ơ序是不同的。一个非镞烦(ch��)引的叶��包含
�?ji��n)指向行数据��늚�指针�?
在一个表中可以有多个非镞索引�Q�你可以在以下几个情况下考虑使用非镞索引�?
在有很多不同值的列上可以考虑使用非镞索引
例如�Q�一个part_id列在一个part表中
select * from employee where emp_id = ’pcm9809f�?
查询语句中用order by 子句的列上可以考虑使用镞烦(ch��)�?

3) 一个表列如果设��Z��?primary key),它会(x��)自动生成一个聚��烦(ch��)�?
�q�时不能直接使用Drop index Table1.Tableindex1语句
必须删除主键�U�束�Q�用语句:alter table table1 drop constraint �U�束�?如pk_xxx)

�?全文索引
use pubs
　　go

　　--打开数据库全文烦(ch��)引的支持

　execute sp_fulltext_database 'enable'
　go

　　--建立全文目录ft_titles

　　execute sp_fulltext_catalog 'ft_titles', 'create'
　　go

　　--为titles表徏立全文烦(ch��)引数据元�Q�UPKCL_titleidind是主键所建立的唯一索引�Q�可
由sp_help titles得知

　　execute sp_fulltext_table 'titles','create', 'ft_titles', 'UPKCL_titleidin
d'
　　go

　　--讄��全文索引列名

　　exec sp_fulltext_column 'titles', 'title', 'add'
　　go
　　exec sp_fulltext_column 'titles', 'notes', 'add'
　　go

　　--建立全文索引

　　exec sp_fulltext_table 'titles', 'activate'
　　go

　　--填充全文索引目录

　　exec sp_fulltext_catalog 'ft_titles', 'start_full'
　　go

　　--使用contains和freetext

　　select title, notes from titles
　　where contains(title, '"computer Cooking"')
　　go
　　select title, notes from titles
　　where freetext(title, 'computer Cooking')
　　go
　　select title, notes from titles
　　where freetext(title, '"computer Cooking"')
　　go
　　select title, notes from titles
　　where contains(title, 'computer')
　　go
　　select title, notes from titles
　　where freetext (*, 'computer')
　　go

�q�里提一下google的搜索引擎的原理.
他把每个字词都做为单元去查询.
打个比方:我在字典里查�?现在我要搜烦(ch��)"�?w��i)�?�q�个�?他会(x��)把这个树(w��i)型这个词全文扫描一
�?生成一个二叉树(w��i).�q�记下他的页�?
然后当我�W?�ơ查扄��时候显然这�?记忆"提示,然后"提取".如果你对某一个字�D�做�?ji��n)全�?br />索引的话�Q�他�?x��)全文扫描表一�?然后�U�录�?
相应的纪�?生成二叉�?
如果我要查找"�?w��i)�?,同理也可以得出页�?但当我们��L��找一�?�?w��i)型�l�构"他则�?x��)�?�?w��i)�?br />"�?�?w��i)型�l�构"�?�U�录"下来.

�?巧妙的��用烦(ch��)�?
SELECT SUM(quantity) AS quantity FROM test WHERE...
1.若WHERE 里用的是字段与常量比较，MSSQL�?x��)自动引用该字段上的索引�Q�若用的是变量，
MSSQL不会(x��)自动引用该字�D�上的烦(ch��)引而是�Ҏ(gu��)��聚集索引�q�行扫描
2.加上with(index(索引�?)指定索引�Q�即�Q?
SELECT SUM(quantity) AS quantity FROM with(index(索引�?) test WHERE...
指定索引后，W(xu��)HERE 里不论是帔R��q�是变量�Q�MSSQL都根据指定的索引�q�行扫描
3.DBCC DBREINDEX执行�q�不一定能优化MSSQL性能�Q�慎�?
4.如果在pub_id上徏立烦(ch��)引的�?
select * from titles where pub_id-500 >1000   ---------(a)
select * from titles where pub_id >1000+500 -----------(b)
请选用(b)语句,�q�样的话�Q�他�?x��)利用�?ch��)�?�?a)的话�׃��对字�D�|��作了(ji��n),所以不�?x��)利用�?ch��)�?br />.
5.��量避免用like语句,
如果��L��找baa%,caa%的话
如果是like '%aa%','_aa%','[m-z]o%' 则根本不�?x��)用到�?ch��)�?
替换�Ҏ(gu��)��.columns like 'baa%' or columns like 'caa %'
6什么情况下应不建或��徏索引
a.表记录太��?.因�ؓ(f��)索引的话�Q�要�Ҏ(gu��)��据库往�q?�ơ操�?如果1个表只有几行字段的话�Q�数
据库�?x��)对他的�U�录一�ơ性全部取出来,�q�样的效率要�q�远高于索引.
b.�l�常insert,delete,update的表对一些经常处理的业务表应在查询允许的情况下尽�?br />减少索引
c.数据重复且分布��^均的表字�D?�?性别字段,各占50%的话�Q�你即��Z��(ji��n),也�v不到明显�?br />作用.
d.�l�常和主字段一块查询但��d��D늃�(ch��)引值比较多的表字段
表经常按收费序号、户标识�~�号、抄表日期、电(sh��)费发生年月、操作标志来具体查询某一�W?br />收款的情况，如果��所有的字段都徏在一个烦(ch��)引里那将�?x��)增加数据的修改、插入、删除时
��_(d��)��从实际上分析一�W�收�Ƒ֦�果按收费序号索引��已�l�将记录减少到只有几条，如果再按
后面的几个字�D늃�(ch��)引查询将�Ҏ(gu��)��能不��生太大的影响�?
e.如果一个表的记录达�?00万以上的话，要对其中一个字�D�徏索引可能要花很长的时��_(d��)��
甚至��D��服务器数据库��L��Q�因为在建烦(ch��)引的时�?ORACLE要将索引字段所有的内容取出�q?br />�q�行全面排序�Q�数据量大的话可能导致服务器排序内存不��而引用磁盘交换空间进行，�q?br />��严重媄(ji��ng)响服务器数据库的工作。解��x��法是增大数据库启动初始化中的排序内存参数�Q?br />如果要进行大量的索引修改可以讄��10M以上的排序内存（ORACLE�~�省大小�?4K�Q�，在烦(ch��)
引徏立完成后应将参数修改回来�Q�因为在实际OLTP数据库应用中一般不�?x��)用到这么大的�?br />序内存�?

以下转蝲
great_domino �?Blog

探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分��c(di��n)�?br />以下代码说明�?ji��n)我们实例中数据库的“红头文件”一表的部分数据�l�构�Q?

CREATE TABLE [dbo].[TGongwen] (    --TGongwen是红头文件表�?

[Gid] [int] IDENTITY (1, 1) NOT NULL ,
--本表的id��P��也是主键

[title] [varchar] (80) COLLATE Chinese_PRC_CI_AS NULL ,
--�U�头文�g的标�?

[fariqi] [datetime] NULL ,
--发布日期

[neibuYonghu] [varchar] (70) COLLATE Chinese_PRC_CI_AS NULL ,
--发布用户

[reader] [varchar] (900) COLLATE Chinese_PRC_CI_AS NULL ,

--需要浏览的用户。每个用户中间用分隔�W��?”分开

) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY]

GO

　　下面�Q�我们来往数据库中��d��1000万条数据�Q?

declare @i int

set @i=1

while @i<=250000

begin

   insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-2-5','�?br />信科','通信�U?办公�?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l?br />侦支�? ��h��U?��d��支队,外事�U?,'�q�是最先的25万条记录')

   set @i=@i+1

end

GO

declare @i int

set @i=1

while @i<=250000

begin

   insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-9-16','�?br />公室','办公�?通信�U?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l?br />侦支�?��h��U?外事�U?,'�q�是中间�?5万条记录')

   set @i=@i+1

end

GO

declare @h int

set @h=1

while @h<=100

begin

declare @i int

set @i=2002

while @i<=2003

begin

declare @j int

       set @j=0

       while @j<50

           begin

declare @k int

           set @k=0

           while @k<50

           begin

   insert into Tgongwen(fariqi,neibuyonghu,reader,title) values(cast(@i as var
char(4))+'-8-15 3:'+cast(@j as varchar(2))+':'+cast(@j as varchar(2)),'通信�U?
,'办公�?通信�U?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l�侦�?br />�?��h��U?外事�U?,'�q�是最后的50万条记录')

           set @k=@k+1

           end

set @j=@j+1

       end

set @i=@i+1

end

set @h=@h+1

end

GO

declare @i int

set @i=1

while @i<=9000000

begin

   insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-5-5','�?br />信科','通信�U?办公�?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l?br />侦支�? ��h��U?��d��支队,外事�U?,'�q�是最后添加的900万条记录')

   set @i=@i+1000000

end

GO

通过以上语句�Q�我们创��Z��(ji��n)25万条�׃��2004�q?�?日发布的记录�Q?5万条由办公室�?004
�q?�?日发布的记录�Q?002�q�和2003�q�各 100�?500条相同日期、不同分�U�的记录�Q�共50
万条�Q�，�q�有由通信�U�于2004�q?�?日发布的900万条记录�Q�合�?000万条�?

何时使用聚集索引或非聚集索引

　　下面的表�ȝ��?ji��n)何时��用聚集�?ch��)引或非聚集烦(ch��)引（很重要）(j��)�?

　　动作描述
　　　使用聚集索引
　　　使用非聚集烦(ch��)�?

　　列经常被分组排序
　　　�?
　　　�?

　　�q�回某范围内的数�?
　　　�?
　　　不应

　　一个或极少不同�?
　　　不应
　　　不应

　　��数目的不同�?
　　　�?
　　　不应

　　大数目的不同�?
　　　不应
　　　�?

　　频繁更新的列
　　　不应
　　　�?

　　外键�?
　　　�?
　　　�?

　　主键�?
　　　�?
　　　�?

　　频繁修改索引�?
　　　不应
　　　�?

　　事实上，我们可以通过前面聚集索引和非聚集索引的定义的例子来理解上表。如�Q�返
回某范围内的数据一��V��比如�?zh��n)�的某个表有一个时间列�Q�恰好�?zh��n)�把聚合�?ch��)引徏立在�?ji��n)该�?br />�Q�这时�?zh��n)�查�?004�q?�?日至2004�q?0�?日之间的全部数据�Ӟ��q�个速度��将是很快的�Q?br />因�ؓ(f��)�(zh��n)�的�q�本字典正文是按日期�q�行排序的，聚类索引只需要找到要��(g��)索的所有数据中�?br />开头和�l�尾数据卛_��Q�而不像非聚集索引�Q�必��d��查到目录中查到每一��Ҏ(gu��)��据对应的��늠�
�Q�然后再�Ҏ(gu��)��늠�查到具体内容�?

�Q�三�Q�结合实际，谈烦(ch��)引��用的误区

　　理论的目的是应用。虽然我们刚才列��Z��(ji��n)何时应��用聚集烦(ch��)引或非聚集烦(ch��)引，但在�?br />践中以上规则却很�Ҏ(gu��)��被忽视或不能�Ҏ(gu��)��实际情况�q�行�l�合分析。下面我们将�Ҏ(gu��)��在实�?br />中遇到的实际问题来谈一下烦(ch��)引��用的误区�Q�以便于大家掌握索引建立的方法�?

　　1、主键就是聚集烦(ch��)�?

　　�q�种��x��W�者认为是极端错误的，是对聚集索引的一�U�浪贏V��虽然SQL SERVER默认�?br />在主键上建立聚集索引的�?

　　通常�Q�我们会(x��)在每个表中都建立一个ID列，以区分每条数据，�q�且�q�个ID列是自动�?br />大的�Q�步长一般�ؓ(f��)1。我们的�q�个办公自动化的实例中的�?Gid��是如此。此�Ӟ��如果我们
��这个列设�ؓ(f��)主键�Q�SQL SERVER�?x��)将此列默认��集�?ch��)引。这样做有好处，��是可以让�?zh��n)?br />的数据在数据库中按照ID�q�行物理排序�Q�但�W�者认��样做意义不大�?

　　显而易见，聚集索引的优势是很明昄��Q�而每个表中只能有一个聚集烦(ch��)引的规则�Q�这
使得聚集索引变得更加珍贵�?

　　从我们前面谈到的聚集索引的定义我们可以看出，使用聚集索引的最大好处就是能�?br />�Ҏ(gu��)��查询要求�Q�迅速羃?y��u)��查询范��_(d��)��避免全表扫描。在实际应用中，因�ؓ(f��)ID��h��自动生成
的，我们�q�不知道每条记录的ID��P��所以我们很隑֜�实践中用ID��h��q�行查询。这��׃��?br />ID可��个主键作��集烦(ch��)引成��Z��U�资源浪贏V��其�ơ，让每个ID号都不同的字�D�作��?br />索引也不�W�合“大数目的不同值情况下不应建立聚合索引”规则；当然�Q�这�U�情况只是针
对用��L(f��ng)��怿�改记录内容，特别是烦(ch��)引项的时候会(x��)负作用，但对于查询速度�q�没有媄(ji��ng)响�?br />

　　在办公自动化�pȝ��中，无论是系�l�首��|��C�的需要用��L(f��ng)��收的文�g、会(x��)议还是用戯��
行文件查询等��M��情况下进行数据查询都��M��开字段的是“日期”还有用��h��w�的“用�?br />名”�?

　　通常�Q�办公自动化的首��会(x��)昄��每个用户��未�{�收的文件或�?x��)议。虽然我们的where�?br />句可以仅仅限制当前用户尚未签收的情况�Q�但如果�(zh��n)�的�pȝ��已徏立了(ji��n)很长旉��Q��ƈ且数�?br />量很大，那么�Q�每�ơ每个用��h��开首页的时候都�q�行一�ơ全表扫描，�q�样做意义是不大�?br />�Q�绝大多数的用户1个月前的文�g都已�l�浏览过�?ji��n)，�q�样做只能徒增数据库的开销而已。事
实上�Q�我们完全可以让用户打开�pȝ��首页�Ӟ��数据库仅仅查询这个用戯��3个月来未阅览�?br />文�g�Q�通过“日期”这个字�D�|��限制表扫描，提高查询速度。如果�?zh��n)�的办公自动化�pȝ��?br />�l�徏立的2�q�_(d��)��那么�(zh��n)�的首页昄��速度理论上将是原来速度8倍，甚至更快�?

　　在这里之所以提到“理��Z��”三字，是因为如果�?zh��n)�的聚集�?ch��)引还是盲目地建在ID�q�个
主键上时�Q��?zh��n)�的查询速度是没有这么高的，即��(zh��n)�在“日期”这个字�D�上建立的烦(ch��)引（�?br />聚合索引�Q�。下面我们就来看一下在1000万条数据量的情况下各�U�查询的速度表现�Q?个月
内的数据�?5万条�Q�：(x��)

　　�Q?�Q�仅在主键上建立聚集索引�Q��ƈ且不划分旉��D�：(x��)

Select gid,fariqi,neibuyonghu,title from tgongwen

　　用时�Q?28470毫秒�Q�即�Q?28�U�）(j��)

　　�Q?�Q�在主键上徏立聚集烦(ch��)引，在fariq上徏立非聚集索引�Q?

select gid,fariqi,neibuyonghu,title from Tgongwen

where fariqi> dateadd(day,-90,getdate())

　　用时�Q?3763毫秒�Q?4�U�）(j��)

　　�Q?�Q�将聚合索引建立在日期列�Q�fariqi�Q�上�Q?

select gid,fariqi,neibuyonghu,title from Tgongwen

where fariqi> dateadd(day,-90,getdate())

　　用时�Q?423毫秒�Q?�U�）(j��)

　　虽然每条语句提取出来的都�?5万条数据�Q�各�U�情�늚�差异却是巨大的，特别是将�?br />集烦(ch��)引徏立在日期列时的差异。事实上�Q�如果�?zh��n)�的数据库真的�?1000万容量的话，把主�?br />建立在ID列上�Q�就像以上的�W?�?�U�情况，在网��上的表现就是超�Ӟ��Ҏ(gu��)��无法显�C��?br />�q�也是我摒弃ID列作��集烦(ch��)引的一个最重要的因素�?

　　得出以上速度的方法是�Q�在各个select语句前加�Q�declare @d datetime

set @d=getdate()

�q�在select语句后加�Q?

select [语句执行��p��旉��(毫秒)]=datediff(ms,@d,getdate())

　　2、只要徏立烦(ch��)引就能显著提高查询速度

　　事实上，我们可以发现上面的例子中�Q�第2�?条语句完全相同，且徏立烦(ch��)引的字段�?br />相同�Q�不同的仅是前者在fariqi字段上徏立的是非聚合索引�Q�后者在此字�D�上建立的是�?br />合烦(ch��)引，但查询速度却有着天壤之别。所以，�q��是在��M��字段上简单地建立索引��p��?br />高查询速度�?

　　从徏表的语句中，我们可以看到�q�个有着1000万数据的表中fariqi字段�?003个不�?br />记录。在此字�D�上建立聚合索引是再合适不�q�了(ji��n)。在现实中，我们每天都会(x��)发几个文�Ӟ��
�q�几个文件的发文日期��q��同，�q�完全符合徏立聚集烦(ch��)引要求的�Q�“既不能�l�大多数都相
同，又不能只有极��数相同”的规则。由此看来，我们建立“适当”的聚合索引对于我们
提高查询速度是非帔R��要的�?

　　3、把所有需要提高查询速度的字�D�都加进聚集索引�Q�以提高查询速度

　　上面已经谈到�Q�在�q�行数据查询旉��M��开字段的是“日期”还有用��h��w�的“用�?br />名”。既然这两个字段都是如此的重要，我们可以把他们合�q��v来，建立一个复合烦(ch��)引（
compound index�Q��?

　　很多��为只要把��M��字段加进聚集索引�Q�就能提高查询速度�Q�也有�h感到�q�h��Q�如
果把复合的聚集烦(ch��)引字�D�分开查询�Q�那么查询速度�?x��)减慢吗�Q�带着�q�个问题�Q�我们来看一
下以下的查询速度�Q�结果集都是25万条数据�Q�：(x��)�Q�日期列fariqi首先排在复合聚集索引�?br />起始列，用户名neibuyonghu排在后列�Q?

　　�Q?�Q�select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-
5-5'

　　查询速度�Q?513毫秒

　　�Q?�Q�select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>'2004-
5-5' and neibuyonghu='办公�?

　　查询速度�Q?516毫秒

　　�Q?�Q�select gid,fariqi,neibuyonghu,title from Tgongwen where neibuyonghu='
办公�?

　　查询速度�Q?0280毫秒

　　从以上试验中�Q�我们可以看到如果仅用聚集烦(ch��)引的起始列作为查询条件和同时用到�?br />合聚集烦(ch��)引的全部列的查询速度是几乎一��L(f��ng)��Q�甚��x��用上全部的复合烦(ch��)引列�q�要略快�Q?br />在查询结果集数目一��L(f��ng)��情况下）(j��)�Q�而如果仅用复合聚集烦(ch��)引的非�v始列作�ؓ(f��)查询条�g�?br />话，�q�个索引是不起�Q何作用的。当�?d��ng)��语�?�?的查询速度一��h��因�ؓ(f��)查询的条目数一
��P��如果复合索引的所有列都用上，而且查询�l�果��的话，�q�样��׃��(x��)形成“烦(ch��)引覆盖”，
因而性能可以辑ֈ�最优。同�Ӟ��误��住：(x��)无论�(zh��n)�是否经�怋�用聚合烦(ch��)引的其他列，但其�?br />导列一定要是��用最频繁的列�?

�Q�四�Q�其他书上没有的索引使用�l�验�ȝ��

　　1、用聚合索引比用不是聚合索引的主键速度�?

　　下面是实例语句：(x��)�Q�都是提�?5万条数据�Q?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-
16'

　　使用旉��Q?326毫秒

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid<=250000

　　使用旉��Q?470毫秒

　　�q�里�Q�用聚合索引比用不是聚合索引的主键速度快了(ji��n)�q?/4�?

　　2、用聚合索引比用一般的主键作order by旉��度快，特别是在��数据量情况�?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by fariqi

　　用时�Q?2936

select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by gid

　　用时�Q?8843

　　�q�里�Q�用聚合索引比用一般的主键作order by�Ӟ��速度快了(ji��n)3/10。事实上�Q�如果数�?br />量很��的话，用聚集烦(ch��)引作为排序列要比使用非聚集烦(ch��)引速度快得明显的多�Q�而数据量�?br />果很大的话，�?0万以上，则二者的速度差别不明显�?

　　3、��用聚合烦(ch��)引内的时间段�Q�搜索时间会(x��)按数据占整个数据表的癑ֈ�比成比例减少�Q?br />而无��合烦(ch��)引��用了(ji��n)多少�?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-
1'

　　用时�Q?343毫秒�Q�提�?00万条�Q?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-6-
6'

　　用时�Q?170毫秒�Q�提�?0万条�Q?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-
16'

　　用时�Q?326毫秒�Q�和上句的结果一模一栗��如果采集的数量一��P��那么用大于号和等
于号是一��L(f��ng)��Q?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-
1' and fariqi<'2004-6-6'

　　用时�Q?280毫秒

　　4 、日期列不会(x��)因�ؓ(f��)有分�U�的输入而减慢查询速度

　　下面的例子中�Q�共�?00万条数据�Q?004�q?�?日以后的数据�?0万条�Q�但只有两个�?br />同的日期�Q�日期精��到日；之前有数�?0万条�Q�有5000个不同的日期�Q�日期精��到�U��?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>'2004-1-
1' order by fariqi

　　用时�Q?390毫秒

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi<'2004-1-
1' order by fariqi

　　用时�Q?453毫秒

　　�Q�五�Q�其他注意事��?

　　“水可蝲舟，亦可覆舟”，索引也一栗��烦(ch��)引有助于提高?g��u)��(g��)索性能�Q�但�q�多或不当的
索引也会(x��)��D��pȝ��低效。因为用户在表中每加�q�一个烦(ch��)引，数据库就要做更多的工作。过
多的索引甚至�?x��)导致�?ch��)引碎片�?

　　所以说�Q�我们要建立一个“适当”的索引体系�Q�特别是对聚合烦(ch��)引的创徏�Q�更应精�?br />求精�Q�以使�?zh��n)�的数据库能得到高性能的发挥�?

　　当然�Q�在实践中，作�ؓ(f��)一个尽职的数据库管理员�Q��?zh��n)��q�要多测试一些方案，扑և�哪种
�Ҏ(gu��)��效率最高、最为有效�?

二、改善SQL语句

　　很多��Z��知道SQL语句在SQL SERVER中是如何执行的，他们担心(j��)自己所写的SQL语句�?br />被SQL SERVER误解。比如：(x��)

select * from table1 where name='zhangsan' and tID > 10000

　　和执�?

select * from table1 where tID > 10000 and name='zhangsan'

　　一些�h不知道以上两条语句的执行效率是否一��P��因�ؓ(f��)如果��单的从语句先后上看，
�q�两个语句的��是不一��P��如果tID是一个聚合烦(ch��)引，那么后一句仅仅从表的10000条以�?br />的记录中查找��p��?ji��n)；而前一句则要先从全表中查找看有几个name='zhangsan'的，而后�?br />�Ҏ(gu��)��限制条�g条�g tID>10000来提出查询结果�?

　　事实上，�q�样的担�?j��)是不必要的。SQL SERVER中有一个“查询分析优化器”，它可�?br />计算出where子句中的搜烦(ch��)条�g�q�确定哪个烦(ch��)引能�~�小表扫描的搜烦(ch��)�I�间�Q�也��是��_(d��)��它能
实现自动优化�?

　　虽然查询优化器可以根据where子句自动的进行查询优化，但大家仍然有必要�?ji��n)解一�?br />“查询优化器”的工作原理�Q�如非这��P��有时查询优化器就�?x��)不按照�?zh��n)�的本意�q�行快速查
询�?

　　在查询分析阶�D�，查询优化器查看查询的每个阶段�q�决定限刉��要扫描的数据量是�?br />有用。如果一个阶�D�可以被用作一个扫描参敎ͼ�SARG�Q�，那么��q��之�ؓ(f��)可优化的�Q��ƈ且可
以利用烦(ch��)引快速获得所需数据�?

　　SARG的定义：(x��)用于限制搜烦(ch��)的一个操作，因�ؓ(f��)它通常是指一个特定的匚w��Q�一个值得
范围内的匚w��或者两个以上条件的AND�q�接。�Ş式如下：(x��)

列名操作�W?<常数 �?变量>

�?

<常数 �?变量> 操作�W�列�?

　　列名可以出现在操作符的一边，而常数或变量出现在操作符的另一辏V��如�Q?

Name=’张三�?

��h��>5000

5000<��h��

Name=’张三�?and ��h��>5000

　　如果一个表辑ּ�不能满��SARG的�Ş式，那它?y��u)��无法限制搜索的范围了(ji��n)，也就是SQL SE
RVER必须�Ҏ(gu��)��一行都判断它是否满��WHERE子句中的所有条件。所以一个烦(ch��)引对于不满��S
ARG形式的表辑ּ�来说是无用的�?

　　介绍完SARG后，我们来�ȝ��一下��用SARG以及(qi��ng)在实践中遇到的和某些资料上结��Z��?br />的经验：(x��)

　　1、Like语句是否属于SARG取决于所使用的通配�W�的�c�d��

　　如：(x��)name like ‘张%�?�Q�这��属于SARG

　　而：(x��)name like �?张�?,��׃��属于SARG�?

　　原因是通配�W?在字�W�串的开通��得烦(ch��)引无法��用�?

　　2、or �?x��)引起全表扫�?

Name=’张三�?and ��h��>5000 �W�号SARG�Q�而：(x��)Name=’张三�?or ��h��>5000 则不�W�合S
ARG。��用or�?x��)引起全表扫描�?

　　3、非操作�W�、函数引��L(f��ng)��不满��SARG形式的语�?

　　不满��SARG形式的语句最典型的情况就是包括非操作�W�的语句�Q�如�Q�NOT�?=�?lt;>�?
<�?>、NOT EXISTS、NOT IN、NOT LIKE�{�，另外�q�有函数。下面就是几个不满��SARG形式
的例子：(x��)

ABS(��h��)<5000

Name like �?三�?

　　有些表达式，如：(x��)

WHERE ��h��*2>5000

　　SQL SERVER也会(x��)认�ؓ(f��)是SARG�Q�SQL SERVER�?x��)将此式转化为�?x��)

WHERE ��h��>2500/2

　　但我们不推荐�q�样使用�Q�因为有时SQL SERVER不能保证�q�种转化与原始表辑ּ�是完�?br />�{��h(hu��n)的�?

　　4、IN 的作用相当与OR

　　语句�Q?

Select * from table1 where tid in (2,3)

　　�?

Select * from table1 where tid=2 or tid=3

　　是一��L(f��ng)��Q�都�?x��)引起全表扫描，如果tid上有索引�Q�其索引也会(x��)失效�?

　　5、尽量少用NOT

　　6、exists �?in 的执行效率是一��L(f��ng)��

　　很多资料上都昄��_(d��)��exists要比in的执行效率要高，同时应尽可能的用not exists
来代替not in。但事实上，我试验了(ji��n)一下，发现二者无论是前面带不带not�Q�二者之间的�?br />行效率都是一��L(f��ng)��。因为涉�?qi��ng)子查询�Q�我们试验这�ơ用SQL SERVER自带的pubs数据库。运
行前我们可以把SQL SERVER的statistics I/O状态打开�?

　　�Q?�Q�select title,price from titles where title_id in (select title_id fro
m sales where qty>30)

　　该句的执行结果�ؓ(f��)�Q?

　　�?'sales'。扫描计�?18�Q�逻辑�?56 �ơ，物理�?0 �ơ，预读 0 �ơ�?

　　�?'titles'。扫描计�?1�Q�逻辑�?2 �ơ，物理�?0 �ơ，预读 0 �ơ�?

　　�Q?�Q�select title,price from titles where exists (select * from sales wher
e sales.title_id=titles.title_id and qty>30)

　　�W�二句的执行�l�果为：(x��)

　　�?'sales'。扫描计�?18�Q�逻辑�?56 �ơ，物理�?0 �ơ，预读 0 �ơ�?

　　�?'titles'。扫描计�?1�Q�逻辑�?2 �ơ，物理�?0 �ơ，预读 0 �ơ�?

　　我们从此可以看到用exists和用in的执行效率是一��L(f��ng)��?

　　7、用函数charindex()和前面加通配�W?的LIKE执行效率一�?

　　前面�Q�我们谈刎ͼ�如果在LIKE前面加上通配�W?�Q�那么将�?x��)引起全表扫描，所以其执行
效率是低下的。但有的资料介绍��_(d��)��用函数charindex()来代替LIKE速度�?x��)有大的提升�Q�经
我试验，发现�q�种说明也是错误的：(x��)

select gid,title,fariqi,reader from tgongwen where charindex('刑侦支队',reader
)>0 and fariqi>'2004-5-5'

　　用时�Q?�U�，另外�Q�扫描计�?4�Q�逻辑�?7155 �ơ，物理�?0 �ơ，预读 0 �ơ�?

select gid,title,fariqi,reader from tgongwen where reader like '%' + '刑侦支队
' + '%' and fariqi>'2004-5-5'

　　用时�Q?�U�，另外�Q�扫描计�?4�Q�逻辑�?7155 �ơ，物理�?0 �ơ，预读 0 �ơ�?

　　8、union�q�不�l�对比or的执行效率高

　　我们前面已经谈到�?ji��n)在where子句中��用or�?x��)引起全表扫描，一般的�Q�我所见过的资�?br />都是推荐�q�里用union来代替or。事实证明，�q�种说法对于大部分都是适用的�?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-
16' or gid>9990000

　　用时�Q?8�U�。扫描计�?1�Q�逻辑�?404008 �ơ，物理�?283 �ơ，预读 392163 �ơ�?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-
16'

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000

　　用时�Q?�U�。扫描计�?8�Q�逻辑�?67489 �ơ，物理�?216 �ơ，预读 7499 �ơ�?

　　看来�Q�用union在通常情况下比用or的效率要高的多�?

　　但经�q�试验，�W�者发现如果or两边的查询列是一��L(f��ng)��话，那么用union则反倒和用or�?br />执行速度差很多，虽然�q�里union扫描的是索引�Q�而or扫描的是全表�?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-
16' or fariqi='2004-2-5'

　　用时�Q?423毫秒。扫描计�?2�Q�逻辑�?14726 �ơ，物理�?1 �ơ，预读 7176 �ơ�?

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-
16'

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-2
-5'

　　用时�Q?1640毫秒。扫描计�?8�Q�逻辑�?14806 �ơ，物理�?108 �ơ，预读 1144 �ơ�?br />

　　9、字�D�|��取要按照“需多少、提多少”的原则�Q�避免“select *�?

　　我们来做一个试验：(x��)

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

　　用时�Q?673毫秒

select top 10000 gid,fariqi,title from tgongwen order by gid desc

　　用时�Q?376毫秒

select top 10000 gid,fariqi from tgongwen order by gid desc

　　用时�Q?0毫秒

　　由此看来�Q�我们每��提取一个字�D�，数据的提取速度��׃��(x��)有相应的提升。提升的速度
�q�要看�?zh��n)�舍弃的字�D늚�大小来判断�?

　　10、count(*)不比count(字段)�?

　　某些资料上说�Q�用*�?x��)统计所有列�Q�显然要比一个世界的列名效率低。这�U�说法其实是
没有�Ҏ(gu��)��的。我们来看：(x��)

select count(*) from Tgongwen

　　用时�Q?500毫秒

select count(gid) from Tgongwen

　　用时�Q?483毫秒

select count(fariqi) from Tgongwen

　　用时�Q?140毫秒

select count(title) from Tgongwen

　　用时�Q?2050毫秒

　　从以上可以看出，如果用count(*)和用count(主键)的速度是相当的�Q�而count(*)却比
其他��M��除主键以外的字段汇总速度要快�Q�而且字段��长�Q�汇�ȝ��速度��p��慢。我惻I��?br />果用count(*)�Q?SQL SERVER可能�?x��)自动查找最��字�D�|��汇�ȝ��。当�?d��ng)��如果�?zh��n)�直接写cou
nt(主键)��会(x��)来的更直接些�?

　　11、order by按聚集烦(ch��)引列排序效率最�?

　　我们来看�Q�（gid是主键，fariqi是聚合烦(ch��)引列�Q?

select top 10000 gid,fariqi,reader,title from tgongwen

　　用时�Q?96 毫秒�?扫描计数 1�Q�逻辑�?289 �ơ，物理�?1 �ơ，预读 1527 �ơ�?

select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc

　　用时�Q?720毫秒�?扫描计数 1�Q�逻辑�?41956 �ơ，物理�?0 �ơ，预读 1287 �ơ�?

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

　　用时�Q?736毫秒�?扫描计数 1�Q�逻辑�?55350 �ơ，物理�?10 �ơ，预读 775 �ơ�?

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc

　　用时�Q?73毫秒�?扫描计数 1�Q�逻辑�?290 �ơ，物理�?0 �ơ，预读 0 �ơ�?

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc

　　用时�Q?56毫秒�?扫描计数 1�Q�逻辑�?289 �ơ，物理�?0 �ơ，预读 0 �ơ�?

　　从以上我们可以看出，不排序的速度以及(qi��ng)逻辑��L��数都是和“order by 聚集索引列�?br /> 的速度是相当的�Q�但�q�些都比“order by 非聚集烦(ch��)引列”的查询速度是快得多的�?

　　同时�Q�按照某个字�D�进行排序的时候，无论是正序还是倒序�Q�速度是基本相当的�?

　　12、高效的TOP

　　事实上，在查询和提取��大定w��的数据集�Ӟ��影响数据库响应时间的最大因素不是数
据查找，而是物理的I/0操作。如�Q?

select top 10 * from (

select top 10000 gid,fariqi,title from tgongwen

where neibuyonghu='办公�?

order by gid desc) as a

order by gid asc

　　�q�条语句�Q�从理论上讲�Q�整条语句的执行旉��应该比子句的执行旉��长，但事实相�?br />。因为，子句执行后返回的�?0000条记录，而整条语句仅�q�回 10条语句，所以媄(ji��ng)响数�?br />库响应时间最大的因素是物理I/O操作。而限制物理I/O操作此处的最有效�Ҏ(gu��)��之一��是�?br />用TOP关键词了(ji��n)。TOP关键词是 SQL SERVER中经�q�系�l�优化过的一个用来提取前几条或前�?br />个百分比数据的词。经�W�者在实践中的应用�Q�发现TOP��实很好用，效率也很高。但�q�个�?br />在另外一个大型数据库ORACLE中却没有�Q�这不能说不是一个遗憾，虽然在ORACLE中可以用
其他�Ҏ(gu��)��Q�如�Q�rownumber�Q�来解决。在以后的关于“实现千万��数据的分��|��C�存储过�E?br />”的讨论中，我们��将用到TOP�q�个关键词�?

　　到此为止�Q�我们上面讨��Z��(ji��n)如何实现从大定w��的数据库中快速地查询出�?zh��n)�所需要的�?br />据方法。当�?d��ng)��我们介绍的这些方法都是“��Y”方法，在实践中�Q�我们还要考虑各种“硬
”因素，如：(x��)�|�络性能、服务器的性能、操作系�l�的性能�Q�甚至网卡、交换机�{��?

三、实现小数据量和��量数据的通用分页昄��存储�q�程

　　建立一个web 应用�Q�分��|��览功能必不可��。这个问题是数据库处理中十分常见的问
题。经典的数据分页�Ҏ(gu��)��?ADO �U�录集分��|��Q�也��是利用ADO自带的分��功能（利用�?br />标）(j��)来实现分��c(di��n)��但�q�种分页�Ҏ(gu��)��仅适用于较?y��u)��数据量的情形，因��?f��)游标本��n有缺点：(x��)�?br />标是存放在内存中�Q�很费内存。游标一建立�Q�就��相关的记录锁住�Q�直到取消游标。游�?br />提供�?ji��n)对特定集合中逐行扫描的手�D�，一般��用游标来逐行遍历数据�Q�根据取出数据条�?br />的不同进行不同的操作。而对于多表和大表中定义的游标�Q�大的数据集合）(j��)循环很容易��
�E�序�q�入一个�O长的�{�待甚至��L��?

　　更重要的是，对于非常大的数据模型而言�Q�分��|��索时�Q�如果按照传�l�的每次都加�?br />整个数据源的�Ҏ(gu��)��是非常浪费资源的。现在流行的分页�Ҏ(gu��)��一般是��(g��)索页面大��的块区�?br />数据�Q�而非��(g��)索所有的数据�Q�然后单步执行当前行�?

　　最早较好地实现�q�种�Ҏ(gu��)��面大小和页码来提取数据的方法大概就是“俄�|�斯存储�q?br />�E�”。这个存储过�E�用�?ji��n)游标，�׃��游标的局限性，所以这个方法�ƈ没有得到大家的普�?br />认可�?

　　后来�Q�网上有人改造了(ji��n)此存储过�E�，下面的存储过�E�就是结合我们的办公自动化实�?br />写的分页存储�q�程�Q?

CREATE procedure pagination1

(@pagesize int, --��面大小�Q�如每页存储20条记�?

@pageindex int   --当前��늠�

)

as

set nocount on

begin

declare @indextable table(id int identity(1,1),nid int) --定义表变�?

declare @PageLowerBound int --定义此页的底�?

declare @PageUpperBound int --定义此页的顶�?

set @PageLowerBound=(@pageindex-1)*@pagesize

set @PageUpperBound=@PageLowerBound+@pagesize

set rowcount @PageUpperBound

insert into @indextable(nid) select gid from TGongwen where fariqi >dateadd(da
y,-365,getdate()) order by fariqi desc

select O.gid,O.mid,O.title,O.fadanwei,O.fariqi from TGongwen O,@indextable t w
here O.gid=t.nid

and t.id>@PageLowerBound and t.id<=@PageUpperBound order by t.id

end

set nocount off

　　以上存储�q�程�q�用�?ji��n)SQL SERVER的最新技术――表变量。应该说�q�个存储�q�程也是一
个非�怼��U�的分��存储过�E�。当�?d��ng)��在这个过�E�中�Q��?zh��n)�也可以把其中的表变量写成临时�?br />�Q?CREATE TABLE #Temp。但很明显，在SQL SERVER中，用��(f��)时表是没有用表变量快的。所
以笔者刚开始��用这个存储过�E�时�Q�感觉非常的不错�Q�速度也比原来的ADO的好。但后来�Q?br />我又发现�?ji��n)比此方法更好的��?gu��)��?

　　�W�者曾在网上看��C��(ji��n)一��小短文《从数据表中取出�W�n条到�W�m条的记录的方法》，�?br />文如下：(x��)

从publish 表中取出�W?n 条到�W?m 条的记录�Q?
SELECT TOP m-n+1 *
FROM publish
WHERE (id NOT IN
　　　　(SELECT TOP n-1 id
　　　　 FROM publish))

id 为publish 表的关键�?

　　我当时看到这��文章的时候，真的是精��ؓ(f��)之一振，觉得思�\非常得好。等到后来，
我在作办公自动化�pȝ��Q�ASP.NET+ C#�Q�SQL SERVER�Q�的时候，忽然惌��v�?ji��n)这��文章，我�?br />如果把这个语句改造一下，�q�就可能是一个非常好的分��存储过�E�。于是我��满�|�上找这
��文章，没想刎ͼ�文章�q�没扑ֈ��Q�却扑ֈ��?ji��n)一��根据此语句写的一个分��存储过�E�，�q�个
存储�q�程也是目前较�ؓ(f��)��行的一�U�分��存储过�E�，我很后�?zh��n)�没有争先把这�D�|��字改造成�?br />储过�E�：(x��)

CREATE PROCEDURE pagination2
(
@SQL nVARCHAR(4000),    --不带排序语句的SQL语句
@Page int,              --��늠�
@RecsPerPage int,       --每页容纳的记录数
@ID VARCHAR(255),       --需要排序的不重复的ID�?
@Sort VARCHAR(255)      --排序字段�?qi��ng)规�?
)
AS

DECLARE @Str nVARCHAR(4000)

SET @Str='SELECT   TOP '+CAST(@RecsPerPage AS VARCHAR(20))+' * FROM ('+@SQL+')
T WHERE T.'+@ID+'NOT IN
(SELECT   TOP '+CAST((@RecsPerPage*(@Page-1)) AS VARCHAR(20))+' '+@ID+' FROM (
'+@SQL+') T9 ORDER BY '+@Sort+') ORDER BY '+@Sort

PRINT @Str

EXEC sp_ExecuteSql @Str
GO

　　其实�Q�以上语句可以简化�ؓ(f��)�Q?

SELECT TOP ��大��?*

FROM Table1

WHERE (ID NOT IN

         (SELECT TOP ��大��?��|�� id

        FROM �?

        ORDER BY id))

ORDER BY ID

　　但这个存储过�E�有一个致命的�~�点�Q�就是它含有NOT IN字样。虽然我可以把它攚w��ؓ(f��)
�Q?

SELECT TOP ��大��?*

FROM Table1

WHERE not exists

(select * from (select top (��大��?��|��) * from table1 order by id) b where b.
id=a.id )

order by id

　　卻I��用not exists来代替not in�Q�但我们前面已经谈过�?ji��n)，二者的执行效率实际上是
没有区别的�?

　　既便如此�Q�用TOP �l�合NOT IN的这个方法还是比用游标要来得快一些�?

　　虽然用not exists�q�不能挽救上个存储过�E�的效率�Q�但使用SQL SERVER中的TOP关键�?br />却是一个非常明智的选择。因为分��优化的最�l�目的就是避免��生过大的记录集，而我�?br />在前面也已经提到�?ji��n)TOP的优势，通过TOP 卛_��实现�Ҏ(gu��)��据量的控制�?

　　在分��늮�法中�Q�媄(ji��ng)响我们查询速度的关键因素有两点�Q�TOP和NOT IN。TOP可以提高�?br />们的查询速度�Q�而NOT IN�?x��)减慢我们的查询速度�Q�所以要提高我们整个分页��法的速度�Q?br />��p��d��攚w��NOT IN�Q�同其他�Ҏ(gu��)��来替代它�?

　　我们知道�Q�几乎�Q何字�D�，我们都可以通过max(字段)或min(字段)来提取某个字�D�中
的最大或最��|��所以如果这个字�D�不重复�Q�那么就可以利用�q�些不重复的字段的max或m
in作�ؓ(f��)分水岭，使其成�ؓ(f��)分页��法中分开每页的参照物。在�q�里�Q�我们可以用操作�W��?gt;�?br />或�?lt;”号来完成这个��命，使查询语句符合SARG形式。如�Q?

Select top 10 * from table1 where id>200

　　于是��有�?ji��n)如下分��|��案：(x��)

select top ��大��?*

from table1

where id>

     (select max (id) from

     (select top ((��늠�-1)*��大��? id from table1 order by id) as T

      )

order by id

　　在选择即不重复��|��又容易分辨大��的列时�Q�我们通常�?x��)选择主键。下表列��Z��(ji��n)�W��?br />用有着1000万数据的办公自动化系�l�中的表�Q�在以GID �Q�GID是主键，但�ƈ不是聚集索引�?br />�Q��ؓ(f��)排序列、提取gid,fariqi,title字段�Q�分别以�W?�?0�?00�?00�?000�?万�?0 �?br />�?5万�?0万页��Z��Q�测试以上三�U�分��|��案的执行速度�Q�（单位�Q�毫�U�）(j��)

��?�?
�Ҏ(gu��)��1
�Ҏ(gu��)��2
�Ҏ(gu��)��3

1
60
30
76

10
46
16
63

100
1076
720
130

500
540
12943
83

1000
17110
470
250

1�?
24796
4500
140

10�?
38326
42283
1553

25�?
28140
128720
2330

50�?
121686
127846
7168

　　从上表中�Q�我们可以看出，三种存储�q�程在执�?00��以下的分页命��o(h��)�Ӟ��都是可以�?br />�ȝ��Q�速度都很好。但�W�一�U�方案在执行分页1000��以上后�Q�速度��降�?ji��n)下来。第二种�?br />案大�U�是在执行分��?万页以上后速度开始降�?ji��n)下来。而第三种�Ҏ(gu��)��却始�l�没有大的降势，
后劲仍然很��?

　　在确定了(ji��n)�W�三�U�分��|��案后�Q�我们可以据此写一个存储过�E�。大家知道SQL SERVER�?br />存储�q�程是事先编译好的SQL语句�Q�它的执行效率要比通过WEB��面传来的SQL语句的执行效
率要高。下面的存储�q�程不仅含有分页�Ҏ(gu��)��Q�还�?x��)根据页面传来的参数来确定是否进行�?br />据��L��l�计�?

-- 获取指定��늚�数据

CREATE PROCEDURE pagination3

@tblName   varchar(255),       -- 表名

@strGetFields varchar(1000) = '*', -- 需要返回的�?

@fldName varchar(255)='',      -- 排序的字�D�名

@PageSize   int = 10,          -- ��尺�?

@PageIndex int = 1,           -- ��늠�

@doCount bit = 0,   -- �q�回记录��L��, �?0 值则�q�回

@OrderType bit = 0, -- 讄��排序�c�d��, �?0 值则降序

@strWhere varchar(1500) = '' -- 查询条�g (注意: 不要�?where)

AS

declare @strSQL   varchar(5000)       -- 主语�?

declare @strTmp   varchar(110)        -- 临时变量

declare @strOrder varchar(400)        -- 排序�c�d��

if @doCount != 0

begin

   if @strWhere !=''

   set @strSQL = "select count(*) as Total from [" + @tblName + "] where "+@st
rWhere

   else

   set @strSQL = "select count(*) as Total from [" + @tblName + "]"

end

--以上代码的意思是如果@doCount传递过来的不是0�Q�就执行��L��l�计。以下的所有代码都
是@doCount�?的情�?

else

begin

if @OrderType != 0

begin

   set @strTmp = "<(select min"

set @strOrder = " order by [" + @fldName +"] desc"

--如果@OrderType不是0�Q�就执行降序�Q�这句很重要�Q?

end

else

begin

   set @strTmp = ">(select max"

   set @strOrder = " order by [" + @fldName +"] asc"

end

if @PageIndex = 1

begin

   if @strWhere != ''

   set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["
+ @tblName + "] where " + @strWhere + " " + @strOrder

    else

    set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from [
"+ @tblName + "] "+ @strOrder

--如果是第一��就执行以上代码�Q�这样会(x��)加快执行速度

end

else

begin

--以下代码赋予�?ji��n)@strSQL以真正执行的SQL代码

set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["

   + @tblName + "] where [" + @fldName + "]" + @strTmp + "(["+ @fldName + "])
from (select top " + str((@PageIndex-1)*@PageSize) + " ["+ @fldName + "] from
[" + @tblName + "]" + @strOrder + ") as tblTmp)"+ @strOrder

if @strWhere != ''

   set @strSQL = "select top " + str(@PageSize) +" "+@strGetFields+ " from ["

       + @tblName + "] where [" + @fldName + "]" + @strTmp + "(["

       + @fldName + "]) from (select top " + str((@PageIndex-1)*@PageSize) + "
["

       + @fldName + "] from [" + @tblName + "] where " + @strWhere + " "

       + @strOrder + ") as tblTmp) and " + @strWhere + " " + @strOrder

end

end

exec (@strSQL)

GO

　　上面的这个存储过�E�是一个通用的存储过�E�，其注释已写在其中�?ji��n)�?

　　在大数据量的情况下，特别是在查询最后几��늚�时候，查询旉��一般不�?x��)超�q?�U�；�?br />用其他存储过�E�，在实践中��׃��(x��)��D��时�Q�所以这个存储过�E�非帔R��用于大定w��数据库的
查询�?

　　�W�者希望能够通过对以上存储过�E�的解析�Q�能�l�大家带来一定的启示�Q��ƈ�l�工作带�?br />一定的效率提升�Q�同时希望同行提出更优秀的实时数据分��늮�法�?

四、聚集烦(ch��)引的重要性和如何选择聚集索引

　　在上一节的标题中，�W�者写的是�Q�实现小数据量和��量数据的通用分页昄��存储�q�程
。这是因为在��本存储�q�程应用于“办公自动化”系�l�的实践中时�Q�笔者发现这�W�三�U�存
储过�E�在��数据量的情况下�Q�有如下现象�Q?

　　1、分��速度一般维持在1�U�和3�U�之间�?

　　2、在查询最后一��|��Q�速度一般�ؓ(f��)5�U�至8�U�，哪怕分��|��L��只有3��|��30万页�?

　　虽然在超大容量情况下�Q�这个分��늚�实现�q�程是很快的�Q�但在分前几��|��Q�这�?�Q?
�U�的速度比�v�W�一�U�甚��x��有经�q�优化的分页�Ҏ(gu��)��速度�q�要慢，借用��L(f��ng)��话说��是“还�?br />有ACCESS数据库速度快”，�q�个认识��以��D��用户攑ּ�使用�(zh��n)�开发的�pȝ��?

　　�W�者就此分析了(ji��n)一下，原来产生�q�种现象的症�l�是如此的简单，但又如此的重要：(x��)�?br />序的字段不是聚集索引�Q?

　　本篇文章的题目是�Q�“查询优化及(qi��ng)分页��法�Ҏ(gu��)��”。笔者只所以把“查询优化”和�?br />分页��法”这两个联系不是很大的论题放在一��P��是因�ؓ(f��)二者都需要一个非帔R��要的�?br />襎쀕―聚集烦(ch��)引�?

　　在前面的讨论中我们已�l�提��C��(ji��n)�Q�聚集烦(ch��)引有两个最大的优势�Q?

　　1、以最快的速度�~�小查询范围�?

　　2、以最快的速度�q�行字段排序�?

　　�W?条多用在查询优化�Ӟ��而第2条多用在�q�行分页时的数据排序�?

　　而聚集烦(ch��)引在每个表内又只能徏立一个，�q��得聚集烦(ch��)引显得更加的重要。聚集烦(ch��)�?br />的挑选可以说是实现“查询优化”和“高效分��”的最关键因素�?

　　但要既��聚集索引列既�W�合查询列的需要，又符合排序列的需要，�q�通常是一个矛�?br />�?

　　�W�者前面“烦(ch��)引”的讨论中，��fariqi�Q�即用户发文日期作�ؓ(f��)�?ji��n)聚集�?ch��)引的起始列，
日期的精��度为“日”。这�U�作法的优点�Q�前面已�l�提��C��(ji��n)�Q�在�q�行划时间段的快速查�?br />中，比用ID主键列有很大的优�ѝ�?

　　但在分页�Ӟ��׃��q�个聚集索引列存在着重复记录�Q�所以无法��用max或min来最为分
��늚�参照物，�q�而无法实现更为高效的排序。而如果将ID主键列作��集烦(ch��)引，那么聚集
索引除了(ji��n)用以排序之外�Q�没有�Q何用处，实际上是��费�?ji��n)聚集�?ch��)引这个宝�늚�资源�?

　　　��册��个矛盾，�W�者后来又��d��?ji��n)一个日期列�Q�其默认��gؓ(f��)getdate()。用户在�?br />入记录时�Q�这个列自动写入当时的时��_(d��)��旉��_��到毫�U�。即使这��P��Z��(ji��n)避免可能性很
��的重合�Q�还要在此列上创建UNIQUE�U�束。将此日期列作�ؓ(f��)聚集索引列�?

　　有了(ji��n)�q�个旉��型聚集烦(ch��)引列之后�Q�用户就既可以用�q�个列查扄��户在插入数据时的�?br />个时间段的查询，又可以作为唯一列来实现max或min�Q�成为分��늮�法的参照物�?

　　�l�过�q�样的优化，�W�者发玎ͼ�无论是大数据量的情况下还是小数据量的情况下，分页
速度一般都是几十毫�U�，甚至0毫秒。而用日期�D늾�?y��u)��范围的查询速度比原来也没有��M��q?br />钝�?

　　聚集索引是如此的重要和珍贵，所以笔者�ȝ��?ji��n)一下，一定要��聚集烦(ch��)引徏立在�Q?

　　1、�?zh��n)�最频繁使用的、用以羃?y��u)��查询范围的字段上�?

　　2、�?zh��n)�最频繁使用的、需要排序的字段上�?

　　�l�束语：(x��)

　　希望�q�篇文章不仅能够�l�大家的工作带来一定的帮助�Q�也希望能让大家能够体会(x��)到分
析问题的�Ҏ(gu��)��Q�最重要的是�Q�希望这��文章能够抛砖引玉，掀起大家的学习(f��n)和讨论的兴趣
�Q�以共同�?j��)进�?
　　最后需要说明的是，在试验中�Q�发现用户在�q�行大数据量查询的时候，�Ҏ(gu��)��据库速度
影响最大的不是内存大小�Q�而是CPU。在我的P4 2.4机器上试验的时候，查看“资源管理器
”，CPU�l�常出现持箋�?00%的现象，而内存用量却�q�没有改变或者说没有大的改变。即�?br />在我们的HP ML 350 G3服务器上试验�Ӟ��CPU峰��g��能达�?0%�Q�一般持�l�在70%左右�?

　　本文的试验数据都是来自我们的HP ML 350服务器。服务器配置�Q�双Inter Xeon ��线
�E?CPU 2.4G�Q�内�?G�Q�操作系�l�Windows Server 2003 Enterprise Edition�Q�数据库SQL
Server 2000 SP3�?

转蝲完毕.

作者补�?
1.columns in('aa','bb')
他等于columns = 'aa' or columns ='bb' 他先��L��询columns ='aa'攑֜�一个��(f��)时的�I�间
�?然后�{�columns ='bb'查询完后,做个or查询得出�l�果.
至于效率的话�Q�在columns建立索引的话, columns ='aa' or columns ='bb'要来的效率高

语法分析器会(x��)��columns in('aa','bb')转化
为columns ='aa' or columns ='bb'来执行。我们期望它�?x��)根据每个or子句分别查找�Q�再
��结�?
相加�Q�这样可以利用columns 上的索引�Q�但实际上（�Ҏ(gu��)��showplan�Q?它却采用�?OR�{�略
"
�Q�即先取出满��x��个or子句的行�Q�存入��(f��)时数据库的工作表中，再徏立唯一索引以去�?

重复行，最后从�q�个临时表中计算�l�果。因此，实际�q�程没有利用columns 上烦(ch��)引，�q�且
�?
成时间还要受tempdb数据库性能的媄(ji��ng)响�?

2.效率从高��C�� count(1)>count(*)>count([id])

3.select max(cols) from table1 的效�?gt;= select top 1 cols from table1 order by
cols desc

4.在where 做�ƈ列条件句�?where cols1='aa' and cols2='bb'
如果cols1 ='aa' �?5% cols2�?%的话�Q�把cols2='bb'攑֜�前面 ,因�ؓ(f��)他在��(g��)索cols ='
bb'的时候他只需查那5%,然后条�g成立的话�Q�去在这5%的纪录里
��L��找cols1 ='aa'

5.避免用if条�g�?可以用or来替�?
declare @vsql varchar(200)
set @vsql ='Renaski'
select * from titles where @vsql ='Renaski' or price = 11.9500

如果@vsql为Renaski则把所有的�U�录都选出�?如果不是的话�Q�则只查询price = 11.9500
的纪�?

6.��M��对列的操作都��导致表扫描�Q�它包括数据库函数、计��表辑ּ��{�等�Q�查询时
要尽可能��操作移至等号右辏V�?

7.��量避免使用游标.
如果使用�?ji��n)游标，��p��量避免在游标��@环中再进行表�q�接的操�?

8.取一个表的纪录数
Select rows from sysindexes where id=object_id(N'titles') and indid<2
效率�?
select count(1) from titles来的�?

9.取的一个表的数据信�?
SELECT
表名=case when a.colorder=1 then d.name else '' end,
表说�?case when a.colorder=1 then isnull(f.value,'') else '' end,
字段序号=a.colorder,
字段�?a.name,
标识=case when COLUMNPROPERTY( a.id,a.name,'IsIdentity')=1 then '�?else '' en
d,
主键=case when exists(SELECT 1 FROM sysobjects where xtype='PK' and name in (

SELECT name FROM sysindexes WHERE indid in(
SELECT indid FROM sysindexkeys WHERE id = a.id AND colid=a.colid
))) then '�? else '' end,
�c�d��=b.name,
占用字节�?a.length,
长度=COLUMNPROPERTY(a.id,a.name,'PRECISION'),
��数位数=isnull(COLUMNPROPERTY(a.id,a.name,'Scale'),0),
允许�I?case when a.isnullable=1 then '�?else '' end,
默认�?isnull(e.text,''),
字段说明=isnull(g.[value],''),
索引名称=isnull(h.索引名称,''),
索引��序=isnull(h.排序,'')
FROM syscolumns a
left join systypes b on a.xtype=b.xusertype
inner join sysobjects d on a.id=d.id and d.xtype='U' and d.status>=0
left join syscomments e on a.cdefault=e.id
left join sysproperties g on a.id=g.id and a.colid=g.smallid
left join sysproperties f on d.id=f.id and f.smallid=0
left join(--�q�部分是索引信息,如果要显�C�烦(ch��)引与表及(qi��ng)字段的对应关�p?可以只要此部�?br />
select 索引名称=a.name,c.id,d.colid
,排序=case indexkey_property(c.id,b.indid,b.keyno,'isdescending')
when 1 then '降序' when 0 then '升序' end
from sysindexes a
join sysindexkeys b on a.id=b.id and a.indid=b.indid
join (--�q�里的作用是有多个烦(ch��)引时,取烦(ch��)引号最��的那个
select id,colid,indid=min(indid) from sysindexkeys
group by id,colid) b1 on b.id=b1.id and b.colid=b1.colid and b.indid=b1.indid

join sysobjects c on b.id=c.id and c.xtype='U' and c.status>=0
join syscolumns d on b.id=d.id and b.colid=d.colid
where a.indid not in(0,255)
) h on a.id=h.id and a.colid=h.colid
--where d.name='要查询的�? --如果只查询指定表,加上此条�?
order by a.id,a.colorder

10.创徏一个表�l�构.
select * into #b from authors where 1=2;
注意:
#table1
##table1
@table1

局部��(f��)时表
以一个井��P��#�Q�开头的那些表名。只有在创徏本地临时表的�q�接上才能看到这些表�?

全局临时�?
以两个井��P��##�Q�开头的那些表名。在所有连接上都能看到全局临时表。如果在创徏全局
临时表的�q�接断开前没有显式地除去�q�些表，那么只要所有其它�Q务停止引用它们，�q�些
表即被除厅R��当创徏全局临时表的�q�接断开后，新的��d��不能再引用它们。当前的语句一
执行完，��d��与表之间的关联即被除去；因此通常情况下，只要创徏全局临时表的�q�接�?br />开�Q�全局临时表即被除厅R�?

@�?有和不同�Q�@@在内存，#在硬盘。我的体�?x��)是只要方便且数据量不大�Q��用@@�?

11.视图
他只是记住要�q�接,兌��列的信息,他不存放��M��物理数据.
在调用的时候他�q�是��d��各个表中的数�?

12.��量不要用text属�?
�pȝ��Z��专门开辟一个空间来存放.
用t-sql/varchar替代
pl/sql varchar2 替代.

13
GO语句是个命��o(h��)识别�q��过osql和isql和SQL 查询分析器非T-SQL语句�q�行识别�?
如果你��用查询分析器作�ؓ(f��)你的��d��发工��P��其他语句和库文�g��不�?x��)识别GO语句作�ؓ(f��)一
个T-SQL命��o(h��)

14.
用exec 效率来的�?
declare @sql nvarchar(300)
set @sql='select * from titles'
execute sp_executesql @sql

15,注意你的tempdb,使他自动增长.

16 使用no_log
select * from titles no_logs

17��M��重复�U�录�?��量用dictinct

18.��量避免反复讉K��同一张或几张表，��其是数据量较大的表�Q�可以考虑先根据条件提�?br />数据��C��(f��)时表中，然后再做�q�接�?

19 ��量使用�?gt;=”，不要使用�?gt;”�?他会(x��)扑ֈ�某个��定的数字进行筛�?�?gt;则没�?

20注意表之间连接的数据�c�d��Q�避免不同类型数据之间的�q�接�?

21.可用ASE调优命��o(h��)�Q�set statistics io on, set statistics time on , set showpla
n on �{?�q�行优化

22.truncate table 删除数据
而不是delete from table

�?死锁

像SQL server一��L(f��ng)��关系数据库��用锁来防止用户“互相踩到对方的脚趾头”。也��是�?br />�Q�锁可以防止用户造成修改数据时的��撞。当一个用户锁住一�D�代码时候，其它的用户都
不能修改�q�段数据。另外，一个锁��L��?ji��n)用戯��看未被授权的数据修改。用户必��ȝ��待到
数据修改�q�保存之后才能够查看它。数据必��M��用不同的�Ҏ(gu��)��来加锁。SQL Server 2000�?br />用锁来实现多用户同时修改数据库同一数据时的同步控制
如果数据量超�q?00个数据页面（400k�Q�，那么�pȝ��会(x��)�q�行锁升�U�，��锁会(x��)升��成表�U?br />锁�?　　

死锁
一个数据库的死锁是发生在两个或多于两个讉K��一些资源的数据库会(x��)话中的，�q�且�q�些�?br />话相互之间有依赖关系。死锁是可以在�Q意一个多�U�程的系�l�成出现的一个情况，不仅�?br />局限于关系数据库管理系�l�。一个多�U�程�pȝ��中的�U�程可能需要一个或多个资源(例如�Q�锁
)。如果申��L(f��ng)��资源正在被另外一个线�E�所使用�Q�那么第一个线�E�就需要等待持有该资源�?br />�U�程的释攑֮�所需要的资源。假讄��待线�E�持有一个那个正拥有�U�程所依赖的资源。下�?br />的这一�D�代码就可以造成死锁异常现象的发生：(x��)
System.Data.SqlClient.SqlException: Transaction (Process ID 12) was deadlocked
on lock resources with another process and has been chosen as the deadlock vi
ctim. Rerun the transaction.

当一个SQL Server的调用和另外一个资源发生冲�H�时��׃��(x��)抛出异常�Q�这个资源持有一个必
要的资源。结果是�Q�一个进�E�就被终止了(ji��n)。当�q�程的ID��h��为系�l�的唯一标识的时候，�q?br />�?x��)是一个很�q�_��死锁的消息错误�?

锁的�c�d��
一个数据库�pȝ��在许多情况下都有可能锁数据项。其可能性包括：(x��)

Rows—数据库表中的一整行
Pages—行的集合（通常为几kb�Q?
Extents—通常是几个页的集�?
Table—整个数据库�?
Database—被锁的整个数据库表

除非有其它的说明�Q�数据库�Ҏ(gu��)��情况自己选择最好的锁方式。不�q�值得感谢的是�Q�SQL Se
rver提供�?ji��n)一�U�避免默认行为的�Ҏ(gu��)��。这是由锁提�C�来完成的�?

提示
或许你有�q�许多如下的�l�历�Q�需要重设SQL Server的锁计划�Q��ƈ且加强数据库表中锁范�?br />。Tansact�Q�SQL提供�?ji��n)一�p�d��不同�U�别的锁提示�Q�你可以在SELECT,INSERT, UPDATE和DEL
ETE中��用它们来告诉SQL Server你需要如何通过重设��M��的系�l�或事务�U�别来锁表格。可
以实现的提示包括�Q?

FASTFIRSTROW—选取�l�果集中的第一行，�q�将其优�?
HOLDLOCK—持有一个共享锁直至事务完成
NOLOCK—不允许使用�׃�n锁或独��n锁。这可能�?x��)造成数据重写或者没有被��认��p��回的�?br />况；因此�Q�就有可能��用到脏数据。这个提�C�只能在SELECT中��用�?
PAGLOCK—锁表格
READCOMMITTED—只��d��被事务确认的数据。这��是SQL Server的默认行为�?
READPAST—蟩�q�被其它�q�程锁住的行�Q�所以返回的数据可能�?x��)忽略行的内宏V��这也只能在
SELECT中��用�?
READUNCOMMITTED—等价于NOLOCK.
REPEATABLEREAD—在查询语句中，�Ҏ(gu��)��有数据��用锁。这可以防止其它的用��h��新数据，
但是新的行可能被其它的用��h��入到数据中，�q�且被最新访问该数据的用戯��取�?
ROWLOCK—按照行的��别来�Ҏ(gu��)��据上锁。SQL Server通常锁到��|��者表�U�别来修改行�Q�所�?br />当开发者��用单行的时候，通常要重设这个设�|��?
SERIALIZABLE—等价于HOLDLOCK.
TABLOCK—按照表�U�别上锁。在�q�行多个有关表��别数据操作的时候，你可能需要��用到�q?br />个提�C��?
UPDLOCK—当��d��一个表的时候，使用更新锁来代替�׃�n锁，�q�且保持一直拥有这个锁直至
事务�l�束。它的好处是�Q�可以允�怽�在阅��L��据的时候可以不需要锁�Q��ƈ且以最快的速度
更新数据�?
XLOCK—给所有的资源都上独��n锁，直至事务�l�束�?

对于数据库死锁，通常可以通过TRACE FLAG 1204�?205�?206�Q�检查ERRORLOG里面的输�?br />�Q�和分析SQLTRACE的执行上下文判断死锁问题的来由�?
TRACEON函数的第三个参数讄��?1�Q�表�C�Z��单单针对当前connection�Q�而是针对所有包�?br />未来建立的connection。这��P��才够完全�Q�否则只是监视当前已�l�徏立的数据库连接了(ji��n)�?br />

执行下面的话可以把死锁记录到Errorlog中：(x��)

dbcc traceon (1204, 3605, -1)
go
dbcc tracestatus(-1)
go

得到的输��Zؓ(f��)�Q?
DBCC 执行完毕。如�?DBCC 输出�?ji��n)错误信息，请与�pȝ��理员联�p�R�?
TraceFlag Status
--------- ------
1204      1
1205      1
3605      1

�Q�所影响的行��Cؓ(f��) 3 行）(j��)

DBCC 执行完毕。如�?DBCC 输出�?ji��n)错误信息，请与�pȝ��理员联�p�R�?

此后�Q�你可以查看数据库的例行日志�Q�每隔一�D�|��_(d��)��数据库都�?x��)检查死�?
2004-01-16 18:34:38.50 spid4     ----------------------------------
2004-01-16 18:34:38.50 spid4     Starting deadlock search 1976

2004-01-16 18:34:38.50 spid4     Target Resource Owner:
2004-01-16 18:34:38.50 spid4      ResType:LockOwner Stype:'OR' Mode: U SPID:55
ECID:0 Ec:(0xAA577570) Value:0x4c25cba0
2004-01-16 18:34:38.50 spid4      Node:1 ResType:LockOwner Stype:'OR' Mode: U
SPID:55 ECID:0 Ec:(0xAA577570) Value:0x4c25cba0
2004-01-16 18:34:38.50 spid4      Node:2 ResType:LockOwner Stype:'OR' Mode: U
SPID:71 ECID:0 Ec:(0xABF07570) Value:0x9bd0ba00
2004-01-16 18:34:38.50 spid4
2004-01-16 18:34:38.50 spid4     -- next branch --
2004-01-16 18:34:38.50 spid4      Node:2 ResType:LockOwner Stype:'OR' Mode: U
SPID:71 ECID:0 Ec:(0xABF07570) Value:0x9bd0ba00
2004-01-16 18:34:38.50 spid4
2004-01-16 18:34:38.50 spid4
2004-01-16 18:34:38.50 spid4     End deadlock search 1976 ... a deadlock was n
ot found.
2004-01-16 18:34:38.50 spid4     ----------------------------------

DBCC TRACEON打开�Q�启用）(j��)指定的跟�t�标记�?

注释跟踪标记用于自定义某些控�?Microsoft? SQL Server? 操作方式的特性。跟�t�标�?br />在服务器中一直保持启用状态，直到通过执行 DBCC TRACEOFF 语句对其��用为止。在发出
DBCC TRACEON 语句之前�Q�连入到服务器的新连接看不到��M��跟踪标记。一旦发��语句
�Q�该�q�接��p��看到服务器中当前启用的所有跟�t�标讎ͼ�即�ɘq�些标记是由其它�q�接启用�Q?br />�?
跟踪标记跟踪标记用于临时讄��服务器的特定特征或关闭特定行为。如果启�?Microsoft
? SQL Server 时设�|�了(ji��n)跟踪标记 3205�Q�将��用��带驱动�E�序的硬件压�~�。跟�t�标记经�?br />用于诊断性能问题�Q�或调试存储�q�程或复杂的计算机系�l��?
下列跟踪标记�?SQL Server 中可用。跟�t�标�?描述 1204 �q�回参与死锁的锁的类型以�?br />当前受媄(ji��ng)响的命��o(h��)�?
实际上可以在“错�?1000 -1999”中扑ֈ�他们�Q?
1204 19 SQL Server 此时无法获取 LOCK 资源。请在活动用��h��较少旉��新运行�?zh��n)�的语�?br />�Q�或者请求系�l�管理员?g��u)��(g��)�?SQL Server 锁和内存配置�?
1205 13 事务�Q�进�E?ID %1!�Q�与另一个进�E�已被死锁在资源 {%2!} 上，且该事务已被�?br />作死锁牺牲品。请重新�q�行该事务�?
1206 18 事务��理器已取消�?ji��n)分布式事务�?

需要指出的是对锁的升��,完全是由�pȝ��自行判断�?而非��Zؓ(f��).如果要避免死锁的话，其根
本还在与数据库的设计�?br />

weibogao 2007-01-12 12:56 发表评论

weibogao — Thu, 11 Jan 2007 04:09:00 GMT

2004-11-24微��Y技术博�?

作者：(x��) wjk.net(转蝲)

一个成功的��理�pȝ��Q�是由：(x��)[50% 的业�?+ 50% 的��Y件] 所�l�成�Q��?50% 的成功��Y件又�?[25% 的数据库 + 25%的程序] 所�l�成�Q�数据库设计的好坏是一个关键。如果把企业的数据比做生�?所必需的血�Ԍ��那么数据库的设计��是应用中最重要的一部分。有��x��据库设计的材料汗牛充栋，大学学位评��里也有专门的讲述。不�q�，��如我们反复��的那��P��再好的老师也比不过�l�验的教�?。所以我归纳历年来所走的弯�\�?qi��ng)体会(x��)，�q�在�|�上找了(ji��n)些对数据库设计颇有造诣的专业�h士给大家传授一些设计数据库的技巧和�l�验。精选了(ji��n)其中�?0 个最��x��巧，�q�把�q�些技巧编写成�?ji��n)本文，��Z��(ji��n)方便索引其内容划�?�?5 个部分：(x��)

�W?1 部分 - 设计数据库之�?

�q�一部分�|�列�?12 个基本技巧，包括命名规范和明��业务需求等�?

�W?2 部分 - 设计数据库表

��d�� 24 个指南性技巧，�늛�表内字段设计以及(qi��ng)应该避免的常见问题等�?

�W?3 部分 - 选择�?

怎么选择键呢�Q�这里有 10 个技巧专门涉�?qi��ng)系�l�生成的主键的正��用法，�q�有�?时以�?qi��ng)如何�?ch��)引字�D�以获得最��x��能�{��?

�W?4 部分 - 保证数据完整�?

讨论如何保持数据库的清晰和健壮，如何把有��x��据降低到最��程�?�?

�W?5 部分 - 各种��技�?

不包括在以上 4 个部分中的其他技巧，五花八门�Q�有�?ji��n)它们希望你的数据库开发工�?�?x��)更��L��一些�?

�W?1 部分 - 设计数据库之�?

考察现有环境

在设计一个新数据库时�Q�你不但应该仔细研究业务需求而且�q�要考察现有的系�l�。大多数数据库项目都不是从头开始徏立的�Q�通常 �Q�机构内��M��(x��)存在用来满��特定需求的现有�pȝ��Q�可能没有实现自�?计算�Q�。显�?d��ng)��现有�pȝ��q�不完美�Q�否则你��׃��必再建立新系�l�了(ji��n) 。但是对旧系�l�的研究可以让你发现一些可能会(x��)忽略的细微问�?。一般来��_(d��)��考察现有�pȝ��对你�l�对有好处�?

定义标准的对象命名规�?

一定要定义数据库对象的命名规范。对数据库表来说 �Q�从��目一开始就要确定表名是采用复数�q�是单数形式。此外还要给表的别名定义��单规则（比方��_(d��)��如果表名是一个单�?�Q�别名就取单词的�? 个字母；如果表名是两个单词，��各取两个单词的前两个字母组�?4 个字母长的别名；如果表的名字�?3个单词组成，你不妨从头两个单词中各取一个然后从最后一个单词中再取��Z��个字母，�l�果�q�是�l�成 4字母长的别名�Q�其余依�ơ类推）(j��)对工作用表来��_(d��)��表名可以加上前缀 WORK_后面附上采用该表的应用程序的名字。表内的列[字段 ]要针寚w��采用一整套设计规则。比如，如果键是数字�c�d�� Q�你可以�?_N作�ؓ(f��)后缀�Q�如果是字符�c�d��则可以采�?_C后缀。对列[字段]名应该采用标准的前缀和后�~�。再�?�Q�假如你的表里有好多"money"字段�Q�你不妨�l�每个列[字段 ]增加一�?_M后缀。还有，日期列[字段]最好以 D_ 作�ؓ(f��)名字打头�?/p>

��(g��)查表名、报表名和查询名之间的命名规范。你可能�?x��)很快就被这�?不同的数据库要素的名�U�搞�p�涂�?ji��n)。假如你坚持�l�一地命名这些数�?库的不同�l�成部分�Q�至��你应该在这些对象名字的开头用Table、Query 或�?Report �{�前�~�加以区别�?/p>

如果采用�?Microsoft Access�Q�你可以�?qry、rpt、tbl �?mod �{�符��h��标识对象�Q�比如tbl_Employees�Q�。我在和 SQL Server 打交道的时候还用过 tbl 来烦(ch��)引表�Q�但我用 sp_company �Q�现在用 sp_feft_�Q�标识存储过�E�，因�ؓ(f��)在有的时候如果我发现�?ji��n)�?好的处理办法往往�?x��)保存好几个拯��。我在实�?SQL Server 2000 时用udf_ �Q�或者类似的标记�Q�标识我�~�写的函数�?

工欲善其�? 必先利其�?

采用理想的数据库设计工具�Q�比如：(x��)SyBase 公司�?PowerDesign�Q�她支持 PB、VB、Delphe �{�语�a��Q�通过 ODBC可以�q�接�?j��ng)面上流行�?30 多个数据库，包括 dBase、FoxPro、VFP、SQL Server �{�，今后有机�?x��)我��着重介�l�PowerDesign 的��用�?

获取数据模式资源手册

正在��L��C�Z��模式的�h可以阅读《数据模式资源手册》一书，该书�?Len Silverston、W. H. Inmon �?Kent Graziano �~�写�Q�是一本值得拥有的最��x��据徏模图书。该书包括的章节�늛��?�U�数据领域，比如人员、机构和工作效能�{�。其他的你还可以参考：(x��) [1]萨师煊王�?qi��ng)著数据库系�l�概�?�W�二�?高等教育出版�C?1991、[2][��] Steven M.Bobrowski �?Oracle 7
与客��P��服务器计��技术从入门到精通刘建元�{�译�?sh��)子工业出版�C�，1996、[3]周中元信息系�l�徏模方�?�?�?sh��)子与信息�?999�q�第3期，1999畅想未来�Q�但不可忘了(ji��n)�q�去的教训我发现询问用户如何看待未来需求变化非常有用。这样做可以辑ֈ��?个目的：(x��)首先�Q�你可以清楚��C��(ji��n)解应用设计在哪个地方应该更具灉|�� 性以�?qi��ng)如何避免性能瓉��Q�其�ơ，你知道发生事先没有确定的需求变更时用户��和你一��h��到吃惊�?/p>

一定要��C��q�去的经验教训！我们开发�h员还应该通过分��n自己的体 �?x��)和�l�验互相帮助。即使用戯��Z��们再也不需要什么支持了(ji��n) �Q�我们也应该对他们进行这斚w��的教�Ԍ��我们都曾�l�面临过�q�样的时 �?当初要是�q�么做了(ji��n)该多�?."�?

在物理实践之前进行逻辑设计

在深入物理设计之前要先进行逻辑设计。随着大量�?CASE工具不断涌现出来�Q�你的设计也可以辑ֈ�相当高的逻辑水准 �Q�你通常可以从整体上更好��C��(ji��n)解数据库设计所需要的�Ҏ(gu��)��面面�?

�?ji��n)解你的业�?

在你癑ֈ�癑֜��定�pȝ��从客戯��度满��_��需求之前不要在你的 ER�Q�实体关�p�）(j��)模式中加入哪怕一个数据表�Q�怎么�Q�你�q�没有模�?�Q�那请你参看技�?�Q�。了(ji��n)解你的企业业务可以在以后的开发阶�D�节�U�大量的旉�� 。一旦你明确�?ji��n)业务需求，你就可以自己做出许多决策�?ji��n)�?/p>

一旦你认�ؓ(f��)你已�l�明��了(ji��n)业务内容�Q�你最好同客户�q�行一�ơ系�l�的�?��。采用客��L(f��ng)��术语�q�且向他们解释你所惛_��的和你所听到�?。同时还应该用可能、将�?x��)和必须�{�词汇表辑և��pȝ��的关�p�d��?。这样你��可以让你的客户�U�正你自��q��理解然后做好下一步的ER 设计�?

创徏数据字典�?ER 图表

一定要��q��旉��创徏 ER 图表和数据字典。其中至��应该包含每个字�D늚�数据�c�d��和在每个�?内的��d��键。创�?ER
图表和数据字典确实有点费时但对其他开发�h员要�?ji��n)解整个设计却�?完全必要的。越早创��能有助于避免今后面��(f��)的可能�؜�?�Q�从而可以让��M��?ji��n)解数据库的人都明确如何从数据库中获得数据�?/p>

有一份诸�?ER 图表�{�最新文档其重要性如何强调都不过分，�q�对表明表之间关�p�d�� 有用�Q�而数据字典则说明�?ji��n)每个字�D늚�用途以�?qi��ng)�Q何可能存在的别名。对SQL 表达式的文档化来说这是完全必要的�?

创徏模式

一张图表胜�q�千�a�万语�Q�开发�h员不仅要阅读和实现它 �Q�而且�q�要用它来帮助自己和用户对话。模式有助于提高协作效能 �Q�这样在先期的数据库设计中几乎不可能出现大的问题。模式不必弄的很复杂�Q�甚臛_��以简单到手写在一张纸上就可以�?。只是要保证其上的逻辑关系今后能��生效益�?

从输入输��Z��?

在定义数据库表和字段需求（输入�Q�时�Q�首先应��(g��)查现有的或者已�l?设计出的报表、查询和视图�Q�输出）(j��)以决定�ؓ(f��)�?ji��n)支持这些输出哪些�?必要的表和字�D�c(di��n)��D个简单的例子�Q�假如客户需要一个报表按照邮�?�~�码排序、分�D�和求和�Q�你要保证其中包括了(ji��n)单独的邮政编码字�D��?不要把邮政编码糅�q�地址字段里�?

报表技�?

要了(ji��n)解用户通常是如何报告数据的�Q�批处理�q�是在线提交报表 �Q�时间间隔是每天、每周、每月、每个季度还是每�q?�Q�如果需要的话还可以考虑创徏�ȝ��表。系�l�生成的主键在报表中�?隄��理。用户在��h��pȝ��生成主键的表内用副键�q�行��(g��)索往往�?x��)返�?许多重复数据。这��L(f��ng)��(g��)索性能比较低而且�Ҏ(gu��)��引�v混�ؕ�?

理解客户需�?

看�v来这应该是显而易见的事，但需求就是来自客�?�Q�这里要从内部和外部客户的角度考虑�Q�。不要依赖用户写下来的需求，真正的需求在客户的脑袋里。你要让客户解释光��?�Q�而且随着开发的�l�箋�Q�还要经常询问客户保证其需求仍然在开发的目的之中。一个不变的真理是：(x��)"只有我看见了(ji��n)我才知道我想要的�?什�?必然�?x��)导致大量的�q�工�Q�因为数据库没有辑ֈ�客户从来没有�?下来的需求标准。而更�p�的是你对他们需求的解释只属于你自己 �Q�而且可能是完全错误的�?

�W?2 部分 - 设计表和字段

��(g��)查各�U�变�?

我在设计数据库的时候会(x��)考虑到哪些数据字�D�将来可能会(x��)发生变更。比方说�Q�姓氏就是如此（注意是西方�h的姓氏，比如��x��结婚后�?夫姓�{�）(j��)。所以，在徏立系�l�存储客户信息时�Q�我們֐�于在单独的一个数据表里存储姓氏字�D�，而且�q�附加�v始日和终止日�{�字�D?�Q�这样就可以跟踪�q�一数据条目的变化�?

采用有意义的字段�?

有一回我参加开发过一个项目，其中有从其他�E�序员那里��承的�E�序 �Q�那个程序员喜欢用屏�q�上昄��数据指示用语命名字段�Q�这也不�?�Q�但不幸的是�Q�她�q�喜�Ƣ用一些奇怪的命名法，其命名采用了(ji��n)匈牙�?命名和控制序��L(f��ng)��l�合形式�Q�比如cbo1、txt2、txt2_b �{�等�?br />除非你在使用只面向你的羃写字�D�名的系�l�，否则请尽可能地把字段描述的清楚些。当�?d��ng)��也别做过头�?ji��n)�Q�比如Customer_Shipping_Address _Street_Line_1�Q�虽然很富有说明�?�Q�但没�h愿意键入�q�么长的名字�Q�具体尺度就在你的把握中�?br />采用前缀命名。如果多个表里有好多同一�c�d��的字�D�（比如 FirstName�Q�，你不妨用特定表的前缀�Q�比�?CusLastName�Q�来帮助你标识字�D�c(di��n)�?/p>

时效性数据应包括"最�q�更新日�?旉��"字段。时间标记对查找�?据问题的原因、按日期重新处理/重蝲数据和清除旧数据特别有用�?br />标准化和数据驱动数据的标准化不仅方便�?ji��n)自��p��且也方便了(ji��n)其他人。比方说 �Q�假如你的用��L(f��ng)��面要讉K��外部数据源（文�g、XML
文档、其他数据库�{�）(j��)�Q�你不妨把相应的�q�接和�\径信息存储在用户界面支持表里。还有，如果用户界面执行工作��之�cȝ��d�� Q�发送邮件、打��C��W�、修改记录状态等�Q�，那么产生工作��的数据也可以存攑֜�数据库里。预先安排总需要付出努力，但如果这些过�E?采用数据驱动而非��编码的方式�Q�那么策略变更和�l�护都会(x��)方便得多。事实上�Q�如果过�E�是数据驱动的，你就可以把相当大的责��L��l�用 ��P��q��h��l�护自己的工作流�q�程�?

标准化不能过�?

寚w��些不熟�?zh��n)�标准化一词（normalization�Q�的��言 �Q�标准化可以保证表内的字�D�都是最基础的要素，而这一措施有助�?消除数据库中的数据冗余。标准化有好几种形式�Q�但Third Normal Form�Q?NF�Q�通常被认为在性能、扩展性和数据完整性方面达 ��C��(ji��n)最好��^衡。简单来��_(d��)��3NF 规定�Q?br />* 表内的每一个值都只能被表达一�ơ�?br />* 表内的每一行都应该被唯一的标识（有唯一键）(j��)�?br />* 表内不应该存储依赖于其他键的非键信息�?br />遵守 3NF 标准的数据库��h��以下特点�Q�有一�l�表专门存放通过键连接�v来的�?联数据。比方说�Q�某个存攑֮�户及(qi��ng)其有兛_��单的 3NF
数据库就可能有两个表�Q�Customer �?Order。Order 表不包含定单兌��客户的�Q何信息，但表内会(x��)存放一个键�?�Q�该键指向Customer 表里包含该客户信息的那一行�?br />更高层次的标准化也有�Q�但更标准是否就一定更好呢�Q�答案是不一�?。事实上�Q�对某些��目来说�Q�甚臛_��q?3NF 都可能给数据库引入太高的复杂性�?/p>

��Z��(ji��n)效率的缘故，对表不进行标准化有时也是必要�?�Q�这��L(f��ng)��例子很多。曾�l�有个开发餐饮分析��Y件的�z�d��是用非标准化表把查询旉��从��^�?40�U�降低到�?ji��n)两�U�左叟뀂虽然我不得不这么做�Q�但我绝不把数据表的�?标准化当作当然的设计理念。而具体的操作不过是一�U�派�?。所以如果表��Z��(ji��n)问题重新产生非标准化的表是完全可能的�?

Microsoft Visual FoxPro 报表技�?

如果你正在��?Microsoft Visual FoxPro�Q�你可以用对用户友好的字�D�名来代替编��L(f��ng)��名称 �Q�比如用 Customer Name 代替 txtCNaM。这��P��当你用向导程�?[Wizards�Q�台湾�h�U�Cؓ(f��)'�_��'] 创徏表单和报表时�Q�其名字�?x��)让那些不是�E�序员的人更�Ҏ(gu��)��阅读�?

不活跃或者不采用的指�C�符

增加一个字�D�表�C�所在记录是否在业务中不再活跃挺有用�?。不��是客户、员工还是其他什么�h�Q�这样做都能有助于再�q�行查询的时候过滤活跃或者不�z�跃状态。同时还消除�?ji��n)新用户在采用数据�?所面��(f��)的一些问题，比如�Q�某些记录可能不再�ؓ(f��)他们所�?�Q�再删除的时候可以�v��C��定的防范作用�?

使用角色实体定义属于某类别的列[字段]

在需要对属于特定�c�d��或者具有特定角色的事物做定义时 �Q�可以用角色实体来创建特定的旉��兌��关系�Q�从而可以实现自我文档化�?br />�q�里的含义不是让 PERSON 实体带有 Title 字段�Q�而是��_(d��)��Z��么不�?PERSON 实体�?PERSON_TYPE实体来描�q�C�h员呢�Q�比方说�Q�当 John Smith, Engineer 提升�?John Smith, Director 乃至最后爬到John Smith, CIO 的高位，而所有你要做的不�q�是改变两个�?PERSON �?PERSON_TYPE之间关系的键��|��同时增加一个日�?旉��字段来知道变化是何时�?生的。这��P��你的 PERSON_TYPE 表就包含�?ji��n)所�?PERSON的可能类型，比如 Associate、Engineer、Director 、CIO 或�?CEO �{��?br />�q�有个替代办法就是改�?PERSON 记录来反映新头衔的变化，不过�q�样一来在旉��上无法跟�t�个人所�?位置的具体时间�?

采用常用实体命名机构数据

�l�织数据的最��单办法就是采用常用名字，比如�Q�PERSON 、ORGANIZATION、ADDRESS �?PHONE�{�等。当你把�q�些常用的一般名字组合�v来或者创建特定的相应副实体时�Q�你��得��C��(ji��n)自己用的�Ҏ(gu��)��版本。开始的时候采用一般术语的�?要原因在于所有的具体用户都能�Ҏ(gu��)��象事物具体化�?br />有了(ji��n)�q�些抽象表示�Q�你��可以在�W?2 �U�标识中采用自己的特�D�名�U�ͼ�比如�Q�PERSON 可能是Employee、Spouse、Patient、Client 、Customer、Vendor 或�?Teacher�{�。同��L(f��ng)��Q�ORGANIZATION 也可能是
MyCompany、MyDepartment、Competi tor、Hospital、Warehouse、Governm ent �{�。最后ADDRESS 可以具体�?Site、Location、Home、Work、Client 、Vendor、Corporate 和FieldOffice �{��?br />采用一般抽象术语来标识"事物"的类别可以让你在兌��数据以满��?业务要求斚w��获得巨大的灵�z�L��，同时�q�样做还可以显著降低数据�?储所需的冗余量�?

用户来自世界各地

在设计用到网�l�或者具有其他国际特性的数据库时�Q�一定要��C��大多数国安��有不同的字段格式�Q�比如邮政编码等�Q�有些国�?�Q�比如新西兰��没有邮政编码一说�?

数据重复需要采用分立的数据�?

如果你发现自己在重复输入数据�Q�请创徏新表和新的关�p�R�?br />每个表中都应该添加的 3 个有用的字段
* dRecordCreationDate�Q�在 VB 下默认是 Now()�Q�而在 SQL Server 下默认�ؓ(f��) GETDATE()
* sRecordCreator�Q�在 SQL Server 下默认�ؓ(f��) NOT NULL DEFAULT USER
* nRecordVersion�Q�记录的版本标记�Q�有助于准确说明记录中出�?null 数据或者丢失数据的原因
对地址和电(sh��)话采用多个字�D?br />描述街道地址��q��短一行记录是不够的。Address _Line1、Address_Line2 �?Address_Line3
可以提供更大的灵�z�L��。还有，�?sh��)话��L(f��ng)��和邮件地址最好拥有自��q�� 数据表，光��h��自��n的类型和标记�c�d��?/p>

�q�分标准化可要小�?j��)，�q�样做可能会(x��)��D��性能上出现问�?。虽然地址和电(sh��)话表分离通常可以辑ֈ�最佳状态，但是如果需要经�?讉K��q�类信息�Q�或许在其父表中存放"首�?信息�Q�比�?br />Customer �{�）(j��)更�ؓ(f��)妥当些。非标准化和加速访问之间的妥协是有一定意义的�?

使用多个名称字段

我觉得很吃惊�Q�许多�h在数据库里就�l?name留一个字�D�c(di��n)��我觉得只有刚入门的开发�h员才�?x��)这么�?�Q�但实际上网上这�U�做法非常普遍。我��应该把姓氏和名字当作�?个字�D�|��处理�Q�然后在查询的时候再把他们组合�v来�?/p>

我最常用的是在同一表中创徏一个计��列[字段]�Q�通过它可以自�?地连接标准化后的字段�Q�这��h��据变动的时候它也跟着变。不�q?�Q�这样做在采用徏模��Y件时得很机灵才行。��M��Q�采用连接字�D늚��?式可以有效的隔离用户应用和开发�h员界面�?br />提防大小写�؜用的对象名和�Ҏ(gu��)��字符�q�去最令我恼火的事情之一��是数据库里有大��写��L(f��ng)��的对象名 �Q�比�?CustomerData。这一问题�?Access �?Oracle数据库都存在。我不喜�Ƣ采用这�U�大��写��L(f��ng)��的对象命名方�?�Q�结果还不得不手工修改名字。想想看�Q�这�U�数据库 /应用�E�序能�؜到采用更强大数据库的那一天吗�Q�采用全部大写而且包含下划�W�的名字��h��更好的可��L��（CUSTOMER_DATA �Q�，�l�对不要在对象名的字�W�之间留�I�格�?

��心(j��)保留�?

要保证你的字�D�名没有和保留词、数据库�pȝ��或者常用访问方法冲�H?�Q�比如，最�q�我�~�写的一�?ODBC �q�接�E�序里有个表�Q�其中就用了(ji��n) DESC作�ؓ(f��)说明字段名。后果可惌��知�Q�DESC �?DESCENDING �~�写后的保留词。表里的一�?SELECT *语句倒是能用�Q�但我得到的却是一大堆毫无用处的信息�?

保持字段名和�c�d��的一致�?

在命名字�D��ƈ为其指定数据�c�d��的时候一定要保证一致�?。假如字�D�在某个表中叫做"agreement_number" �Q�你��别在另一个表里把名字�Ҏ(gu��)��"ref1"。假如数据类型在一个表里是整数�Q�那在另一个表里可��别变成字符型了(ji��n)。记�?�Q�你�q�完自己的活�?ji��n)，其他��要用你的数据库呢�?

仔细选择数字�c�d��

�?SQL 中��?smallint �?tinyint �c�d��要特别小�?j��)，比如�Q�假如你想看看月销售总额�Q�你的总额字段�c?型是smallint�Q�那么，如果总额��过�?$32,767 你就不能�q�行计算操作�?ji��n)�?

删除标记

在表中包含一�?删除标记"字段�Q�这样就可以把行标记为删�?。在关系数据库里不要单独删除某一行；最好采用清除数据程序而且要仔�l�维护烦(ch��)引整体性�?

避免使用触发�?

触发器的功能通常可以用其他方式实现。在调试�E�序时触发器可能�?为干扰。假如你��实需要采用触发器�Q�你最好集中对它文档化�?br />包含版本机制��你在数据库中引入版本控制机制来确定��用中的数据库的版�?。无论如何你都要实现�q�一要求。时间一长，用户的需求��L��?x��)改�?的。最�l�可能会(x��)要求修改数据库结构。虽然你可以通过��(g��)查新字段�?者烦(ch��)引来��定数据库结构的版本�Q�但我发现把版本信息直接存放到数据库中不更�ؓ(f��)方便吗？

�l�文本字�D늕��余�?

ID �c�d��的文本字�D�，比如客户 ID或定单号�{�等都应该设�|�得比一般想象更大，因�ؓ(f��)旉��不长你多半就 �?x��)因��d��额外的字�W�而难堪不巌Ӏ�比方说�Q�假设你的客�?ID �?10位数�ѝ��那你应该把数据库表字段的长度设�?12 或�?13 个字�W�长。这��浪费空间吗�Q�是有一点，但也没你惌��的那么多 �Q�一个字�D�加�?3个字�W�在�?1 百万条记录，再加上一点烦(ch��)引的情况下才不过让整个数据库多占�?3MB的空间。但�q�额外占据的�I�间却无需��来重构整个数据库就可以实现数据库规模的增长�?ji��n)。��n份证的号码从 15 位变�?18
位就是最好和最惨痛的例子�?

列[字段]命名技�?

我们发现�Q�假如你�l�每个表的列[字段]名都采用�l�一的前�~� �Q�那么在�~�写 SQL表达式的时候会(x��)得到大大的简化。这样做也确实有�~�点 �Q�比如破坏了(ji��n)自动表连接工��L(f��ng)��作用�Q�后者把公共列[字段 ]名同某些数据库联�p��v来，不过��p��q�些工具有时不也�q�接错误�?。�D个简单的例子�Q�假设有两个表：(x��)
Customer �?Order。Customer 表的前缀是cu_�Q�所以该表内的子�D�名如下�Q�cu_name_id、cu _surname、cu_initials 和cu_address �{�。Order表的前缀�?or_�Q�所以子�D�名是：(x��)
or_order_id、or_cust_name_id、or _quantity �?or_denoscription �{��?br />�q�样从数据库中选出全部数据�?SQL 语句可以写成如下所�C�：(x��)
Select * From Customer, Order Where cu_surname = "MYNAME" ;
and cu_name_id = or_cust_name_id and or_quantity = 1
在没有这些前�~�的情况下则写成这个样子（用别名来区分�Q�：(x��)
Select * From Customer, Order Where Customer.surname = "MYNAME" ;
and Customer.name_id = Order.cust_name_id and Order.quantity = 1
�W?1 �?SQL 语句没少键入多少字符。但如果查询涉及(qi��ng)�?5 个表乃至更多的列[字段]你就知道�q�个技巧多有用�?ji��n)�?

�W?3 部分 - 选择键和索引

数据采掘要预先计�?

我所在的某一客户部门一度要处理 8万多份联�p�L��式，同时填写每个客户的必要数据（�q�绝对不是小�z�）(j��) 。我从中�q�要��定��Z��l�客户作为市(j��ng)场目标。当我从最开始设计表�?字段的时候，我试图不在主索引里增加太多的字段以便加快数据库的 �q�行速度。然后我意识到特定的�l�查询和信息采掘既不准确速度也不快。结果只好在�ȝ��(ch��)引中重徏而且合�ƈ�?ji��n)数据字�D�c(di��n)��我发现有一个指 �C��划相当关键——当我想创徏�pȝ��c�d��查找时�ؓ(f��)什么要采用��L(f��ng)��?��Z��索引字段呢？我可以用传真��L(f��ng)��q�行��(g��)索，但是它几乎就象系�l?�c�d��一样对我来说�ƈ不重要。采用后者作��Z��字段�Q�数据库更新后重新烦(ch��)引和��(g��)索就快多�?ji��n)�?/p>

可操作数据仓库（ODS�Q�和数据仓库�Q�DW�Q�这两种环境下的数据索引是有差别的。在 DW环境下，你要考虑销售部门是如何�l�织销售活动的。他们�ƈ不是数据库管理员�Q�但是他们确定表内的键信息。这里设计�h员或者数据库�?作�h员应该分析数据库�l�构从而确定出性能和正��输��Z��间的最��x�� 件�?

使用�pȝ��生成的主�?

�q�类同技�?1�Q�但我觉得有必要在这里重复提醒大家。假如你��L��在设计数据库的时候采用系�l�生成的键作��Z��键，那么你实际控制了(ji��n)数据库的索引完整性。这��P��数据库和非�h工机制就有效地控制了(ji��n)对存储数据中�?一行的讉K��?br />采用�pȝ��生成键作��Z��键还有一个优点：(x��)当你拥有一致的键结构时 �Q�找到逻辑�~�陷很容易�?

分解字段用于索引

��Z��(ji��n)分离命名字段和包含字�D�以支持用户定义的报�?�Q�请考虑分解其他字段�Q�甚至主键）(j��)为其�l�成要素以便用户可以对其 �q�行索引。烦(ch��)引将加快 SQL和报表生成器脚本的执行速度。比方说�Q�我通常在必��M��?SQL LIKE 表达式的情况下创建报表，因�ؓ(f��) case number 字段无法分解为year、serial number、case type �?defendant code�{�要素。性能也会(x��)变坏。假如年度和�c�d��字段可以分解为烦(ch��)引字�D�那么这些报表运行�v来就�?x��)快多�?ji��n)�?

键设�?4 原则

* 为关联字�D�创建外键�?br />* 所有的键都必须唯一�?br />* 避免使用复合键�?br />* 外键��L��兌��唯一的键字段�?

别忘�?ji��n)�?ch��)�?

索引是从数据库中获取数据的最高效方式之一�?5%的数据库性能问题都可以采用烦(ch��)引技术得到解冟뀂作��Z��条规�?�Q�我通常寚w��辑主键使用唯一的成�l�烦(ch��)引，对系�l�键�Q�作为存储过�E?�Q�采用唯一的非成组索引�Q�对��M��外键列[字段]采用非成�l�烦(ch��)�?。不�q�，索引��p��是盐�Q�太多了(ji��n)菜就�怺�(ji��n)。你得考虑数据库的�I�间�?多大�Q�表如何�q�行讉K��Q�还有这些访问是否主要用作读写�?/p>

大多数数据库都烦(ch��)引自动创建的主键字段�Q�但是可别忘�?ji��n)�?ch��)引外�?�Q�它们也是经�怋�用的键，比如�q�行查询昄��主表和所有关联表的某条记录就用得上。还有，不要索引memo/note 字段�Q�不要烦(ch��)引大型字�D�（有很多字�W�）(j��)�Q�这样作�?x��)让索引占用太�?的存储空间�?br />不要索引常用的小型表不要为小型数据表讄��M��键，假如它们�l�常有插入和删除操作��更别这样作�?ji��n)。对�q�些插入和删除操作的索引�l�护可能比扫描表�I�间�?耗更多的旉��?br />不要把社�?x��)保障号码（SSN�Q�或�w�䆾证号码（ID�Q�选作键�?br />永远都不要��?SSN �?ID 作�ؓ(f��)数据库的键。除�?ji��n)隐�U�原因以外，��ȝ��政府��来��趋向于不准�?�?SSN �?ID
用作除收入相关以外的其他目的�Q�SSN �?ID需要手工输入。永�q�不要��用手工输入的键作��Z��?�Q�因��Z��旦你输入错误�Q�你唯一能做的就是删除整个记录然后从头开始�?/p>

我在破解他�h的程序时候，我看到很多�h�?SSN �?ID�q�曾被用做系列号�Q�当然尽��这么做是非法的。而且��Z��也都知道�q?是非法的�Q�但他们已经�?f��n)惯了(ji��n)。后来，随着盗取�w�䆾犯罪案�g的增�?�Q�我现在的同行正痛苦��C��一大摊子数据中�?SSN �?ID 删除�?

不要用用��L(f��ng)��?

在确定采用什么字�D�作��的键的时候，可一定要��心(j��)用户��要�~�辑的字�D�c(di��n)��通常的情况下不要选择用户可编辑的字段作�ؓ(f��)�?。这样做�?x��)迫使你采取以下两个措施�Q?br />* 在创��录之后对用户�~�辑字段的行为施加限制。假如你�q�么做了(ji��n) �Q�你可能�?x��)发��C��的应用程序在商务需求突然发生变�?�Q�而用户需要编辑那些不可编辑的字段时缺乏��够的灉|��?。当用户在输入数据之后直��C��存记录才发现�pȝ��Z��(ji��n)问题他们该�?么想�Q�删除重建？假如记录不可重徏是否让用戯��开�Q?br />* 提出一些检��和�U�正键冲�H�的�Ҏ(gu��)��。通常�Q�费点精力也��搞定了(ji��n) �Q�但是从性能上来看这样做的代价就比较大了(ji��n)。还�?�Q�键的纠正可能会(x��)�q��你突破你的数据和商业/用户界面层之间的�?��R�?br />所以还是重提一句老话�Q�你的设计要适应用户而不是让用户来适应�?的设计�?/p>

不让主键��h��可更新性的原因是在关系模式下，主键实现�?ji��n)不同表�?间的兌��。比如，Customer 表有一个主键CustomerID�Q�而客��L(f��ng)��定单则存攑֜�另一个表�?。Order 表的主键可能�?OrderNo 或�?OrderNo、CustomerID和日期的�l�合。不��你选择哪种键设�|�，你都需要在 Order 表中存放 CustomerID 来保证你可以�l�下定单的用��h��到其定单记录�?br />假如你在 Customer 表里修改�?CustomerID�Q�那么你必须扑և� Order表中的所有相兌��录对其进行修攏V��否则，有些定单��׃��(x��)不属于�Q�?客户——数据库的完整性就��完蛋了(ji��n)�?br />如果索引完整性规则施加到表一�U�，那么在不�~�写大量代码和附加删除记录的情况下几乎不可能改变某一条记录的键和数据库内所有关�?的记录。而这一�q�程往往错误丛生所以应该尽量避免�?

可选键(候选键)有时可做主键

��C��Q�查询数据的不是机器而是人�?br />假如你有可选键�Q�你可能�q�一步把它用做主键。那��L(f��ng)��?�Q�你��拥有了(ji��n)建立强大索引的能力。这样可以阻止��用数据库的�h�?得不�q�接数据库从而恰当的�q��o(h��)数据。在严格控制域表的数据库�?�Q�这�U�负载是比较醒目的。如果可选键真正有用�Q�那��是辑ֈ��?ji��n)主�?的水准�?br />我的看法是，假如你有可选键�Q�比如国家表内的state_code�Q�你不要在现有不能变动的唯一键上创徏后箋的键。你要做的无非是创徏毫无价值的数据。如你因��度��用表�?后箋键[别名]建立�q�种表的兌��Q�操作负载真得需要考虑一下了(ji��n)�?

别忘�?ji��n)外�?

大多数数据库索引自动创徏的主键字�D�c(di��n)��但别忘�?ji��n)�?ch��)引外键字�D?�Q�它们在你想查询主表中的记录�?qi��ng)其兌��记录时每�ơ都会(x��)用到。还�?�Q�不要烦(ch��)引memo/notes 字段而且不要索引大型文本字段�Q�许多字�W�）(j��)�Q�这样做�?x��)让你的索�?占据大量的数据库�I�间�?

�W?4 部分 - 保证数据的完整�?

用约束而非商务规则强制数据完整�?

如果你按照商务规则来处理需求，那么你应当检查商务层��?/用户界面�Q�如果商务规则以后发生变化，那么只需要进行更新即�?。假如需求源于维护数据完整性的需要，那么在数据库层面上需要施加限制条件。如果你在数据层��实采用�?ji��n)约束，你要保证有办法把�?��C��能通过�U�束��(g��)查的原因采用用户理解的语�a�通知用户界面。除非你的字�D�命名很冗长�Q�否则字�D�名本��n�q�不够�?/p>

只要有可能，请采用数据库�pȝ��实现数据的完整性。这不但包括通过标准化实现的完整性而且�q�包括数据的功能性。在写数据的时候还�?以增加触发器来保证数据的正确性。不要依赖于商务层保证数据完�?性；它不能保证表之间�Q�外键）(j��)的完整性所以不能强加于其他完整�?规则之上�?

分布式数据系�l?

对分布式�pȝ��而言�Q�在你决定是否在各个站点复制所有数据还是把�?据保存在一个地方之前应该估计一下未�?5 �q�或�?10
�q�的数据量。当你把数据传送到其他站点的时候，最好在数据库字�D?中设�|�一些标记。在目的站点收到你的数据之后更新你的标记。�ؓ(f��)�?ji��n)进行这�U�数据传输，请写下你自己的批处理或者调度程序以�?定时间间隔运行而不要让用户在每天的工作后传输数�?。本地拷贝你的维护数据，比如计算常数和利息率�{?�Q�设�|�版本号保证数据在每个站炚w��完全一致�?

强制指示完整�?参照完整�?)

没有好办法能在有��x��据进入数据库之后消除它，所以你应该在它�q?入数据库之前��其剔除。激�z�L��据库�pȝ��的指�C�完整性特�?。这样可以保持数据的清洁而能�q��开发�h员投入更多的旉��处理错误条�g�?

关系

如果两个实体之间存在多对一关系�Q�而且�q�有可能转化为多对多关系 �Q�那么你最好一开始就讄��成多对多关系。从现有的多对一关系转变为多对多关系比一开始就是多对多关系要难得多�?

采用视图

��Z��(ji��n)在你的数据库和你的应用程序代码之间提供另一层抽�?�Q�你可以��Z��的应用程序徏立专门的视图而不必非要应用程序直接访问数据表。这样做�q�等于在处理数据库变更时�l�你提供�?ji��n)更多的自�?�?

�l�数据保有和恢复制定计划

考虑数据保有�{�略�q�包含在设计�q�程中，预先设计你的数据恢复�q�程。采用可以发布给用户/开发�h员的数据字典实现方便的数据识别同时保证对数据源文档化。编写在�U�更新来"更新查询 "供以后万一数据丢失可以重新处理更新�?br />用存储过�E�让�pȝ��做重�z�解决了(ji��n)许多�ȝ��(ch��)来��生一个具有高度完整性的数据库解��x��案之�?�Q�我军_��装一些关联表的功能组�Q�提供一整套常规的存储过�E�来�?问各�l�以便加快速度和简化客��L(f��ng)��序代码的开发。数据库不只是一�?存放数据的地方，它也是简化编码之地�?

使用查找

控制数据完整性的最��x��式就是限制用��L(f��ng)��选择。只要有可能都应�?提供�l�用户一个清晰的价值列表供光��择。这样将减少键入代码的错误和误解同时提供数据的一致性。某些公共数据特别适合查找 �Q�国家代码、状态代码等�?

�W?5 部分 - 各种��技�?

文档、文档、文�?

�Ҏ(gu��)��有的快捷方式、命名规范、限制和函数都要�~�制文档�?/p>

采用�l�表、列[字段]、触发器�{�加注释的数据库工具。是�?�Q�这有点费事�Q�但从长�q�来看，�q�样做对开发、支持和跟踪修改非常有用�?/p>

取决于你使用的数据库�pȝ��Q�可能有一些��Y件会(x��)�l�你一些供你很快上手的文档。你可能希望先开始在��_(d��)��然后获得��来��多的细�?。或者你可能希望周期性的预排�Q�在输入新数据同旉��着你的�q�展�?每一部分�l�节化。不��你选择哪种方式�Q�总要对你的数据库文档�?�Q�或者在数据库自�w�的内部或者单独徏立文档。这�?�Q�当你过�?ji��n)一�q�多旉��后再回过头来做第2 个版本，你犯错的��Z��(x��)��大大减��?

使用常用��p��Q�或者其他�Q何语�a��Q�而不要��用编�?

��Z��么我们经帔R��用编码（比如 9935A 可能�?青岛啤酒'的供应代码，4XF788-Q可能是帐目编码）(j��)�Q�理由很多。但是用户通常都用��p��q�行思考而不是编码。工�?5 �q�的�?x��)计或许知�?4XF788-Q是什么东西，但新来的可就不一定了(ji��n)。在创徏下拉菜单、列�?、报表时最好按照英语名排序。假如你需要编码，那你可以在编码旁附上用户知道的英语�?

保存常用信息

让一个表专门存放一般数据库信息非常有用。我常在�q�个表里存放�?据库当前版本、最�q�检�?修复�Q�对FoxPro�Q�、关联设计文档的名称、客��L(f��ng)��信息。这样可以实��C��U�简单机制跟�t�数据库�Q�当客户抱怨他们的数据�?没有辑ֈ�希望的要求而与你联�p�L��Q�这样做寚w��客户�?/服务器环境特别有用�?

��试、测试、反复测�?

建立或者修订数据库之后�Q�必��ȝ��用户新输入的数据��试数据字段。最重要的是�Q�让用户�q�行��试�q�且同用户一道保证你选择的数据类型满��_��业要求。测试需要在把新数据库投入实际服务之前完成�?

��(g��)查设�?

在开发期间检查数据库设计的常用技术是通过其所支持的应用程序原型检查数据库。换句话��_(d��)��针对每一�U�最�l�表达数据的原型应用 �Q�保证你��(g��)查了(ji��n)数据模型�q�且查看如何取出数据�?

Microsoft Visual FoxPro 设计技�?

对复杂的 Microsoft Visual FoxPro数据库应用程序而言�Q�可以把所有的主表攑֜�一个数据库容器文�g�?�Q�然后增加其他数据库表文件和装蝲同原有数据库有关的特�D�文�?。根据需要用�q�些文�g�q�接��C��文�g中的主表。比如数据输�?、数据烦(ch��)引、统计分析、向��理层或者政府部门提供报表以�?qi��ng)各�c�d�� L��询等。这一措施��化了(ji��n)用户和组权限的分配，而且有利于应用程序函敎ͼ�存储�q�程�Q�的分组和划分，从而在�E�序必须修改的时候易�?��理�?

weibogao 2007-01-11 12:09 发表评论

weibogao — Thu, 11 Jan 2007 04:01:00 GMT

最�q�逛书店发��C��本数据徏模的好书——《数据徏模：(x��)分析与设计的工具和技巧�?Data Modeler's Workbench�Q�Tools and Techniques for Analysis and Design)�Q�作者Steve Hoberman。粗��d��一遍后�Q�感觉这本书的确无愧于译者和国外专家们的盛赞�Q�“这本书充满�?ji��n)对改进数据模型和设计有益的技术和技巧，�q�且它还极富阅读乐趣——一个了(ji��n)不�v的结合！��M��一个数据徏模者都应该拥有一本Steve Hoberman的关于数据徏模工具和技术的书。�?/p>

　　��管我对自己所掌握的数据徏模知识有一定的自负�Q�读完该书后�Q�还是获益良多。本着好书大家一起分享的��x��Q�我把该书的每个章节的�ȝ��和技巧徏议列出来�Q�以方便手头暂时没有该书的朋友在数据建模时参考。该书所介绍的工具和模版可在作者的Web站点下蝲�Q�地址是：(x��)
　　www.wiley.com/compbooks/hoberman

　　�W�一章：(x��)使用��闻、类比和演示文稿来阐明数据徏模的概念

　　在一般的日常沟通中。我们可能会(x��)说出�q�听到许多故事、或者趣闻这些故事涉�?qi��ng)的论题范围很大。有些例子是周末发生在我们自��p�n边的事情�Q�或者是与我们的工作��目有关的经历。这些趣��L��助于加强我们和周围�h们的关系�Q�增�q�我们的愉�?zh��n)�情��A�Q�而且�Ҏ(gu��)��们有教育作用。我们能够把��p��a�表达出来的东西�Ş象化。有�Ӟ��当故事结束时�Q�给我们留下的是以前未曾惛_��的信息或更多的认识。在解释数据建模概念�Ӟ��闻是极其有效的。原因有如下几个�Q?br />　　它们建立��h��久的形象�?br />　　它们引�h入胜、��人愉�(zh��n)��?br />　　它们增经��Z��之间的关�p�R�?br />　　它们减缓压力�?/p>

　　成功�~�造�ƈ讲述一个数据徏模方面的��闻有下面三个简单的步骤�Q?br />　　1)定义一个论题。要在心(j��)中保证，你讲�q�的�q�个��闻有一个特定的目标或论题，也就是说�Q�这个故事是��Z��(ji��n)解释一个数据徏模的概念或术语�?br />　　2)选择你的故事。我们可以选择的故事类型多�U�多栗��我们要考虑选择一个有��ƈ有益�Q�而且能够明白无误��C��达主题意囄��短的故事�?br />　　3)演练你的故事。一旦找��C��(ji��n)合适的故事�Q�你要好好演�l�一番，直到你自信它能够在两分钟的时间内充分表达你的论题。要避免讲述拖拖拉拉的故事�?/p>

　　数据模型�c�L��
　　�c�L��是把两个或多个概念�q�行�怺�比较�Q�以��它们之间的相似或差异。类比是介绍外来事物或新鲜事物的一个很好的技巧，��其是向非计��机专业的�h士介�l�计��机的专业知识时。Hoberman在数据徏模中最常见的几个类比如下（他用�q�些�c�L��L��的打动管理层�l�他涨了(ji��n)一倍的工资^_^�Q�：(x��)
　　��M��域模型是一个居高��(f��)下的视点�?br />　　数据模型是一个设计图�?br />　　企业模型是一个世界地图�?br />　　标准��是城市(j��ng)规划�?br />　　元数据仓储库是一个图书馆�?br />　　数据仓库是“心(j��)脏”�?/p>

　　�W�二章：(x��)元数据宾果游�?br />　　��单来��_(d��)��即通过宾果卡片游戏的方式，调动��目团队成员的积极性，来确定数据模型，�q�确定元数据的有效性。元数据宾果游戏��“共赢”，如果�q�气好，游戏�l�束时每个�h都能赢�?/p>

　　�W�三章：(x��)��保高质量的定义
　　本章集中讨论一个被�U�Cؓ(f��)“定义检查单�?Definition Checklist)的工��P��它包含了(ji��n)��保定义的质量处于最高水�q�的准则�?/p>

　　�W�四章：(x��)数据建模者的��目计划
　　本章重点介绍��定数据建模阶段、�Q务、工具和旉��的四个工��P��(x��)
　　·数据建模阶段的工��P��(x��)用来��定最高层�ơ上的数据徏模步骤�?br />　　·阶段—�Q务—工��P��(x��)提取出“数据徏模阶�D�”的各个阶段�q�把他们分解成数据徏模�Q务�?br />　　·优先�U�三角�Ş�Q�你可以从以下三��中取两��Ҏ(gu��)��|��(x��)很高的质量、最短的旉��与最低的成本�Q�但你永�q�也别想三者兼得�?br />　　·可靠的估��工��P��(x��)“主体域工作量时限”根据应用程序的�c�d��Q�确定每个数据徏模阶�D�应占整个项目的癑ֈ�比。“�Q务工作量工具”提取在“阶�D�—�Q务—工具”中��定的每��Q务，�q�列出它们应占整个数据徏模工作��品的癑ֈ�比。这两个工具的组合可使你向项目经理提供一份具有一定精��度的合理估��?/p>

　　�W�五章：(x��)��M��域分�?br />　　本章主要探讨五个关键的工��P��q�五个工具对数据建模工作的主体域分析阶段有帮�l�作用。它们应该按照下面的��序被逐个完成�Q?br />　　1)��M��域检查单�Q�新应用�E�序中的��M��域的完整列表�Q�还有各个主体域的定义和同义词（或别名）(j��)�?br />　　2)��M��域CRUD(Create Read Update Delete)矩阵�Q�包含新应用�E�序和现有应用程序之间的��M��域方面的差别和重复之处，��定应用�E�序的范围�?br />　　3)In-the-Know模版�Q�确定完成这个新应用�E�序的数据间模工作��品所需要的、被用作资源的�h员和文档�?br />　　4)��M��域家族树(w��i)�Q�包含每一个主体域的源应用�E�序和若�q�其他的关键信息�Q�阐明主体域数据��来自哪里�?br />　　5)��M��域力度矩阵：(x��)使用一个电(sh��)子表格的格式�Q�记录每一个度量和事实��M��域的发布层次�?/p>

　　�W�六章：(x��)��M��域徏�?br />　　本章阐述三个队主体域信息�q�行建模的强大工��P��(x��)
　　·“业务清理板”模型�?br />　　·“应用程序清理板”模型�?br />　　·“早期现实性检查”模型�?/p>

　　�W�七章：(x��)逻辑数据分析
　　本章��x��四个逻辑数据分析工具�Q�它们应该按照下面的�ơ序被��用：(x��)
　　1)数据元素家族�?w��i)�?x��)包含应用�E�序的数据元素的完整列表�Q�以�?qi��ng)每个数据元素的来源和变换信息，�q�有其他几个关键的数据元素元数据�?br />　　2)数据元素�_�度矩阵�Q�用一个电(sh��)子表格的格式�Q�来记录每个度量和事实的发布层次�?br />　　3)数据质量记录模板�Q�展�C�每个数据元素的员数据和一些实际数据的�Ҏ(gu��)��?br />　　4)数据质量��认模板�Q�记录每个数据元素的元数据和一些实际数据的�Ҏ(gu��)��的结果�?/p>

　　�W�八章：(x��)规范化之旅和反向规范化生存指南（强烈推荐�Q�是我目前所读过最好的关系型数据库的规范化技术文档）(j��)
　　规范化是一个剔除冗余�ƈ应用规则的过�E�，它的目的是�ؓ(f��)�?ji��n)更好的理解和表辑֭�在于数据元素之间的依赖性和参与性。规范化包含6个层�ơ，最高层是第五范�?5NF)。一般的技术文档上都认��?NF卛_��Q�Steve Hoberman�l�我们指明了(ji��n)更高的目标：(x��)5NF。Graeme Simsion写过一本名为《Data Modeling Essentials》的书，在这本书中，他写道：(x��)“较高层�ơ的范式常被从业者误解�ƈ因此而被忽视�Q�或��Z��(ji��n)支持不可靠的建模旉��而被引用。”但是，我们需要理解这些较高层�ơ的规范化，因�ؓ(f��)它们体现�?ji��n)额外的规范化机会(x��)，�q�帮�l�我们进一步减��冗余信息、改�q�设计的灉|��性。尽��余下的三个规范化层�ơ有可能仅仅产生�ơ数很少的变化，但它们仍然具有一些提高灵�z�L��和效率的机�?x��)。下面是BCNF&4NF&5NF的定�?比国内教材上�|�列的数学公式容易理解得多^_^)�Q?br />　　BCNF=3NF�Q�下面的规则�Q?br />　　每一个数据元素都完全依赖于键、整个键�Q�而且除依赖于�q�个键以外，不依赖于��M��其他数据元素�?br />　　4NF=3NF+下面的规则：(x��)
　　要把主键中拥有三个或更多外徏数据元素、切割格外键之间不存在约束的那些实体分解成两个或更多个实体�?br />　　5NF=4NF+下面的规则：(x��)
　　把主键中拥有三个或更多的外键数据元素�Q�且�q�些外键数据元素之间存在着�U�束的实体分解成为所有的�U�束都需要的多对多的关系�?/p>

　　当我们攀�?NF的顶峰后�Q�再�Ҏ(gu��)��实际需求情冉|��q�行“反向规范化”增加数据冗余，从而简化开发，提高查询速度。反向规范化是这样一个过�E�：(x��)在定义了(ji��n)一个可靠的、完全规范化�?ji��n)的数据�l�构之后�Q�你借助�q�个�q�程�Q�有选择地引入一些重复的数据�Q�以�?j��)进��?gu��)��性能需求的实现。Steve Hoberman的“反向规范化生存指南”给如何适当增加冗余提供�?ji��n)一套可计算的评分标准。通过考察每个关系�?个问题，累加各个问题的得分之后，当得分大于等�?0�Ӟ��我们��对该关�p�进行反向规范化�?/p>

　　“反向规范化生存指南”的计分规则�Q?br />　　1.关系是什么类型的�Q�该问题��定我们所分析的关�pȝ��c�d��。父实体对于子实体具有什么样的关�p�？
　　层次关系(20�?
　　同等关系(-10�?
　　��定关系(-20�?
　　2.参与率是多少�Q�该问题��定一个关�p�M��的每个实体的参与性。换句话��_(d��)��对于一个给定的父实体数��|��大概�?x��)有几个子实体数��|��父与子的关系��接�q�“一对一”，我们对它�q�行反向规范化的��Z��(x��)��p��大�?br />　　多达“一对五”的比率(20�?
　　多达“一对一�䏀�的比率(-10�?
　　��过“一对一�䏀�的比率(-20�?
　　3.父实体中有多��个数据元素
　　��于10个数据元�?20�?
　　数据元素的数量介�?0�?0之间(-10�?
　　多于20个数据元�?-20�?
　　4.使用率是多少�Q�当用户需要来自子的信息时�Q�通常情况下，它们是否�q�需要来自父的信息呢�Q�换句话��_(d��)��q�两个实体的耦合或相关程度如何？
　　�怺�之间的关联很�?30�?
　　�怺�之间的关联较弱或者没有关�?-30�?
　　5.父实体时一个占位符吗：(x��)在不�q�的��来�Q�我们是否还打算向父实体加入更多的数据元素或关系�Q�如果答案是“不”，那么�q�行反向规范化的可行性就更强�?br />　　�?20�?
　　�?-20�?
　　6.变动�Ҏ(gu��)��率是多少�Q�该问题是�ؓ(f��)�?ji��n)确定，在同一旉��周期内，两个实体的插入和更新的频度是否相�q�。如果其中一个实体很��变化，而另一个实体却变动频繁�Q�那么，我们��非常們֐�于保持它们的规范化状态，把它们放在各自的表中�?br />　　相同(20�?
　　不同(-20�?

　　“反向规范化生存指南”的使用�Ҏ(gu��)��Q?br />　　1)把模型中的关�p�L��照优先��排序
　　2)选择一个关�p?br />　　3)对这个关�p�d��{�提�?br />　　4)如果得分�{�于或大�?0�Q�就�q�行反向规范�?br />　　5)�q�回步骤二，直到完成所有的关系�?/p>

　　�W�九(ji��)章：(x��)抽象化安全指南和�l��g
　　看过我的“浅谈数据库设计技�?�? ”的朋友应该�q�记得我丄��W�二个例子：(x��)�|�上�?sh��)子商务�q�_��上的商品信息表的设计。本章将我在上面例子中所用的�Ҏ(gu��)��上升��C��(ji��n)理论阶段�Q�采用了(ji��n)面向对象的设计，��所有商品的共有属性提取出来，抽象成一个超�c�，再加入一个表来记录各个不同实体之间的�l�节来实现超�cȝ��z��Q�从而实现设计的灉|��性。当出现下面两种条�g的�Q何场合，抽象化都是极其有用的�Q?br />　　设计需要永久维持下去：(x��)要求以后��可能的不修�Ҏ(gu��)��据库设计
　　需求可能发生变化：(x��)应用�E�序的需求发生变化，而要求业务流�E�重�l�或�q�行功能升��
　　数据仓库�Q�当新的分类�c�d��从源应用�E�序中传�q�来�Ӟ��我们无须�Ҏ(gu��)��据仓库的设计�q�行��M��改动�Q�而只需在分�cȝ��型实体加入一个新行即�?br />　　元数据仓储库�Q�和数据仓库的要求类�?/p>

　　当然�Q�抽象化�?x��)大大增加工作量和开发的复杂度，而�h们通常��x��的是非常短期的应用和眼前的成本，而不兛_��(j��)?y��u)��来的高得多的成本。所以，我非常赞同敏捯��Y件开发这个观点：(x��)在最初几乎不�q�行预先设计�Q�但是一旦需求发生变化，此时作�ؓ(f��)一名追求卓��的�E�序员，应该从头审查整个架构设计�Q�在此次修改中设计出能够满��日后�c�M��修改的系�l�架构�?/p>

　　“抽象组件”就是小型的抽象模型片段�Q�在许多的徏模场�?无论是什么行业、组�l�，甚至什么主体域的徏模场�?中，它们都可被反复��用。在键模阶段多次使用抽象化之后，你将开始看到出现的抽象化结构的��势。这些“抽象组件”有如下的目的：(x��)
　　加快设计速度
　　加快开发速度
　　提供通用且有用的机构

　　�W�十章：(x��)数据模型��化技�?br />　　本章通过��x��如何改进逻辑和物理数据模型的视觉外观�Q��我们的设计超��直接的应用�E�序需求。本章中讨论�?ji��n)五个类别的��化技巧：(x��)
　　逻辑数据元素排列技巧：(x��)�q�些技巧是一个推荐的、对你的逻辑数据模型中的每一个实体的数据元素�q�行排序的方法�?br />　　物理数据元素排序技巧：(x��)�q�些技巧关注数据模型中每一个实体的最�?j��ng)_��局�?br />　　实体布局技巧：(x��)�q�些技巧关注数据模型中的每一个实体的最�?j��ng)_��局
　　关系布局技巧：(x��)�q�些技巧关注如何调整重叠的关系�U�条以及(qi��ng)看�v来穿��（而不是绕�q�）(j��)无关实体的关�p?br />　　吸引注意力的技巧：(x��)�q�些技巧关注如何在我们的涉�?qi��ng)中�H�出的某些元素、实体或关系�?/p>

　　�W�十一章：(x��)规划一个长盛不衰的数据建模生��(d��ng)
　　�Ҏ(gu��)��据徏模者的十大忠告清单�Q?br />　　1)��C��Q�灵�z�L��、准��性和背景
　　2)建模只是你的工作的一��部�?br />　　3)��试其他角色
　　4)�?ji��n)�?5/5规则�Q?5%的时间将��p��?%的数据元素上
　　5)数据建模从不令�h厌烦(ch��)�Q�如果你一直在做数据徏模工作，而且发现自己�l�常感到厌烦(ch��)�Q�那么，你的��该改变一下了(ji��n)。这可能不是数据建模领域本��n令�h厌烦(ch��)�Q�而是你所在的特定的�Q务、公司或行业不再令�h兴奋。冒险一下，��试着道一个不同的��目或行业中�q�行数据建模工作吧！
　　6)站在技术前�?br />　　7)��量不要在模型上牉|��感情因素�Q�徏模者必��ȝ��解，��Z��在评审过�E�中的意见�ƈ不是针对模型的创��，而是针对�q�个模型的内宏V��即那句老话�Q�对事不对�h�?br />　　8)让你的创造力展开��膀�Q�在考虑记录数据需求和改进设计的新�Ҏ(gu��)��Ӟ��要紧可能有创造性。有创造性也许就意味着修改本书中的某些工具。这�q�可能意味着提出你自��q��?sh��)子表格或其他工兗��?br />　　9)单纯的理论太昂贵�?ji��n)�?x��)在设计活动过�E�中�Q�你要确保把�q�个观点牢记在心(j��)。�ؓ(f��)�q�个应用�E�序掏腰包的部门和组�l�期望看到的是能看得着的实用结果�?br />　　10)成�ؓ(f��)一个了(ji��n)不�v的会(x��)讲故事的人：(x��)作�ؓ(f��)一名数据徏模者，讲故事是工作的一个很重要的部分。�ؓ(f��)�?ji��n)帮�l�教化和影响��目�l�理以及(qi��ng)�Ҏ(gu��)��们行业缺乏理解的其他人，我们需要讲故事或趣闅R�?/p>

　　最后，我个��得，Steve Hoberman所提出的“抽象组件”的观念和面向对象设计中的的“设计模式”非常类伹{��即数据库专家在多次的数据徏模后�Q�将各个��目中的�c�M��部分抽象化，提取出特定的建模模型片段�Q�以后只需在新的项目中对这些模型片�D늻�化派生，卛_��快速构建出适合于该��目的数据库架构。不�q�，�q�些建模模型片段�q�没有统一�Q��Ş成标准，目前也没有出版这�cȝ��书籍。本人正在陆�l��ȝ��自己在这斚w��的经验，但是自知水��^有限�Q�不敢在高�h面前班门弄斧�Q�只希望自己日后陆箋发布的相��x��章能起到抛�{引玉的作用，争取�׃��国的�E�序员率先统一出数据徏模领域的“设计模式”�?/p>

weibogao 2007-01-11 12:01 发表评论

weibogao — Thu, 11 Jan 2007 03:56:00 GMT

　　开发比较复杂的企业多用��L(f��ng)��理信息系�l?MIS)�Q�不可能不涉�?qi��ng)到�pȝ��内多个用户之间的数据文�g的流转、审批等功能的开发。由于企业的需求��L��随着旉��推移不断发生变化�Q�加之各个企业内部所讄��的办公流�E�不��相同，一套通用性比较好的管理信息系�l�应该能让系�l�管理员自己定义公文转发的流�E��?/p>

　　��管�W�者没有机�?x��)在已参与开发了(ji��n)的MIS中实现出文�g转发��程自定义的功能�Q�但是，早在2002�q�初��曾深入思考过�q�方面的设计。当时由于某些原因不能公开自己的设计思�\�Q�现在市(j��ng)面上已经有不��MIS产品提供�q�样的功能，�W�者又已离职，所以是时候把我的设计思�\整理出来�Q�和大家分��n�?/p>

　　首先�Q�让我们分析需求，制定目标�?/p>

　　1)一般情况下�Q�企业内的公文�{发、审�Ҏ(gu��)��按部门或职位来�{送，卛_��岗不对�h。例如：(x��)某个��程的某个环节需要胦(ch��)务�ȝ��审批�Q�日后胦(ch��)务�ȝ��换�h�Q�该��程应该不受影响。而且�Q�流�E�中某个环节可能出现某个部门中的��M��一人都能审批，或者需要该部门的所有�h员共同审扏V�?br />　　2)��程中�{送，审批的公文一般分为文件和表单2�U�格式。文件格式的公文应该支持批处理，即一�ơ可以�{发多个文�Ӟ��审批时可以只退回其中某一个不合格的文�Ӟ��其他的文件可以�{送到下一个环节��l�处理。表单格式的公文应该能让用户自己定义表单格式�Q�确定表单中的表��V��同理，表单也应该支持批处理�?br />　　3)��程中处理公文的动作应该能让用户自己定义。这样一旦日后增加了(ji��n)新的处理动作�Q�也不用修改MIS�pȝ��的底层数据徏模。当�?d��ng)��要实现新的处理动作，�q�是需要在业务逻辑层编写相应的代码�Q�不�q�和修改底层数据建模比�v来，工作量要��得多�?br />　　4)每个��程的环节数不一定相同，应该能让用户讑֮�环节敎ͼ�指定公文��{中每个环节的发送部门和接受部门�Q�处理模式，最长等待时间�?br />　　5)当待处理的公文发出后�Q�系�l�应该在�{�待旉��中定期向该流�E�中下个环节的用�?�?发出通知�Q�提醒该用户(�?�?qi��ng)时处理�Q�直臛_��文已被处理。如果超出最长等待时��_(d��)��公文�q�未被用�?�?处理�Q�此�ơ流�E�处理失败。企业管理层可能�?x��)要求记录相关信息，以便在日后业务流�E�重�l?BPR)时参考�?br />　　6)某些企业�׃��Ҏ(gu��)��原因�Q�在某个��程中要求实现跨环节处理。例如，该流�E�有6步，执行到第二个环节时要求处理后可以跌��中间三个环节�Q�直接�{到最后一个环节等候处理。其实，�q�种情况下，�q�不一定要在技术层面上实现其灵�z�L��，�q�种特例毕竟是少数。用户只需定义一个新��程�Q�把上面��程的第1�Q?�Q?步复制加入进来，2个流�E�之间用��程名来区分卛_��。一个优�U�的系�l�架构设计师应该充分利用现有的工��P��不要什么都自行架设开发�?/p>

　　上面的需求对灉|��性要求较高，抽象化程度较深，所以在表现层和业务逻辑层的开发量较大�Q�初期投资较多，不过开发完毕后估计不需对底层数据库修改�Q�即可满��x��后不断变化的公文��{需求。如果不需要这么高的灵�z�L��，可以按实际项目简化某些假设条件。下面按照上面的需求进行用�?use case)分析和数据徏模�?/p>

　　1)�׃��程环节的发送方和接受方是对岗不对�h�Q�我们应该先描画出整个企业的机构讄��Q�确定每个部门的权利职责。其中大的部门内可能有若�q�子部门�Q�每个子部门内又有不同职位，负责处理相应的事务。所以，可先建立一个树(w��i)形关�pȝ��数据表来保存企业�l�构�Q�然后，采用权限表和用户�l�相�l�合的方式来保存每个部门每个职位的职能。这块的设计思�\见我之前发布的“浅谈数据库设计技�?�?�?�?”，我在下面直接�l�出大致的数据表�l�构�Q?/p>

部门�?Department_table)
名称　　　　�c�d��　　　　�U�束条�g　　　说明
Dp_id 　 int 　无重复　　 �c�d��标识�Q�主�?br />Dp_name　　 varchar(50) 不允��ؓ(f��)�I?�c�d��名称�Q�不允许重复
Dp_father int 不允��ؓ(f��)�I?该类别的父类别标识，如果是顶节点的话讑֮�为某个唯一�?br />Dp_layer varchar(6) 限定3�?初始��gؓ(f��)000000 �c�d��的先序遍历，主要为减��检索数据库的次�?/p>

功能�?Function_table)
名称　　　　�c�d��　　　　�U�束条�g　　　说明
f_id int 　无重复　　功能标识�Q�主�?br />f_name varchar(20) 不允��ؓ(f��)�I?功能名称�Q�不允许重复
f_desc varchar(50) 允许为空功能描述

用户�l�表(User_group)
名称　　　　�c�d��　　　　 �U�束条�g　　　说明
group_id int 无重�?用户�l�标识，主键
group_name varchar(20) 不允��ؓ(f��)�I?用户�l�名�U?br />group_power varchar(100) 不允��ؓ(f��)�I?用户�l�权限表�Q�内容�ؓ(f��)功能表f_id的集�?/p>

用户�?User_table)
名称　　　　�c�d��　　　　�U�束条�g　　　说明
user_id int 无重�?用户标识�Q�主�?br />user_name varchar(20) 无重�?用户�?br />user_pwd varchar(20) 不允��ؓ(f��)�I?用户密码
user_type int 不允��ؓ(f��)�I?所属用��L(f��ng)��标识�Q�和User_group.group_id兌��

　　说明�Q�其中，按部门的不同职位讄��不同权限的用��L(f��ng)��Q�如某个用户�l��ؓ(f��)“市(j��ng)场部业务员”，该用��L(f��ng)��的用户可在流�E�“报销甌��”中发送报销甌��?/p>

　　2)��管��程中的公文分�ؓ(f��)文�g和表�?�U�格式，但是每个文�g/表单都应该有其唯一标识�Q�名�U�等属性。所以，我们把公文抽象化�Q�把�q?�U�格式的公文的共有属性提取出来徏立一张公文表�?/p>

公文�?Document_table)
名称　　　　�c�d��　　　　�U�束条�g　　　说明
doc_id int 无重�?公文标识�Q�主�?br />doc_name varchar(50) 不允��ؓ(f��)�I?公文名称
doc_type char(1) 不允��ؓ(f��)�I?公文�c�d��

　　doc_type字段用来辨别公文格式�Q�目前只�?�U�格式，可设�?”表�C�文件格式，�?”表�C��单格式。估计未来新增公文格式不�?x��)太多，所以该字段只需一位字�W�。文件格式的公文一般是在文件内固定好格式，我们可用一个二�q�制的字�D늛�接保存整个文件的内容。文件格式的公文需要徏一个表来保存相关信息，其大致数据表如下�Q?/p>

文�g�?File_table)
名称　　　 �c�d��　　　　�U�束条�g　　　说明
file_id int 无重�?文�g标识�Q�主�?br />file_name varchar(50) 不允��ؓ(f��)�I?文�g名称
file_value binary 不允��ؓ(f��)�I?文�g内容
…�?/p>

　　表单格式的公文要让用戯��己定义表单格式，��定表单中的表项。有两种�Ҏ(gu��)��来实玎ͼ�(x��)
　　①每当用户徏立一个新格式的表单时�Q�就新徏立一个表�Q�把用户输入的表单表��当作该表的字段。这�U�方式的优点是表单查询速度较快方便�Q�业务逻辑层的开发量较小。缺�Ҏ(gu��)��不太灉|��Q�如果企业所使用的不同格式的表单较多(>20�U?�Q�整个数据库的结构显得比较�؜乱，而且大部分表单中都有相同的字�D�，�q�样也增加了(ji��n)数据冗余。这�U�方式的数据建模如下�Q?/p>

表单总表(Sheet_table)
名称　　　　�c�d��　　　　�U�束条�g　　　说明
sheet_id int 无重�?表单标识�Q�主�?br />sheet_name varchar(50) 不允��ؓ(f��)�I?表单名称
table_name varchar(20) 不允��ؓ(f��)�I?表单子表名，如Sub_table1/Sub_table2

表单子表1(Sub_table1)
名称　　　�c�d��　　　�U�束条�g　　　说明
sub_id int 无重�?表单子表标识�Q�主�?br />option1 varchar 不允��ؓ(f��)�I?表单表项1
option2 varchar 不允��ؓ(f��)�I?表单表项2
option3 varchar 不允��ؓ(f��)�I?表单表项3
…�?/p>

表单子表2(Sub_table2)
名称　　　�c�d��　　　�U�束条�g　　　说明
sub_id int 无重�?表单子表标识�Q�主�?br />option1 varchar 不允��ؓ(f��)�I?表单表项1
option2 varchar 不允��ؓ(f��)�I?表单表项2
option3 varchar 不允��ؓ(f��)�I?表单表项3
…�?/p>

…�?/p>

　　②对表单再进行一个抽象，把表单看成由若干个表单表��Ҏ(gu��)��l�合成的一个集合。这�U�方式的优点是相当灵�z�，用户建立新格式的表单时只用从已有表单表项中勾选出需要的表项卛_��Q�而且整个数据库结构清晎ͼ�没有数据冗余。缺�Ҏ(gu��)��开发比较复杂，工作量和上面相比高出不少�Q�而且表单查询速度较慢。下面是�q�种方式的数据徏模：(x��)

表单总表(Sheet_table)
名称　　　　�c�d��　　　　�U�束条�g　　　说明
sheet_id int 无重�?表单标识�Q�主�?br />sheet_name varchar(50) 不允��ؓ(f��)�I?表单名称

表单表项�?Option_table)
名称　　 �c�d��　　　　�U�束条�g　　　说明
op_id int 无重�?表单表项标识�Q�主�?br />op_name varchar(50) 不允��ؓ(f��)�I?表单表项名称
op_length int 不允��ؓ(f��)�I?表单表项长度
op_unit varchar(10) 允许为空表单表项单位

表单信息�?Sheetinfo_table)
名称　　　 �c�d��　　　　�U�束条�g　　说明
info_id int 　无重�?　表单信息标识�Q�主�?br />sheet_id int 不允��ؓ(f��)�I?所属表单标识，和Sheet_table.sheet_id兌��
op_id　 int 不允��ؓ(f��)�I?表单表项标识�Q�和Option_table.op_id兌��
info_value varchar() 不允��ؓ(f��)�I?表单信息�?/p>

　　3)我们可以把公文�{发的��程抽象化，看作一个实体超�c�R��徏表如下：(x��)

��程�?Flow_table)
名称　　　　 �c�d��　　　　 �U�束条�g　　　说明
flow_id int 无重�?��程标识�Q�主�?br />flow_name varchar(50) 不允��ؓ(f��)�I?��程名称
flow_stepnum int 不允��ؓ(f��)�I?��程步数
flow_desc varchar(200) 允许为空 ��程描述

　　��程中的每一步都可以抽象化成从发送方��x��受方的用例，其数据徏模大致如下：(x��)

处理动作�?Action_table)
名称　　�c�d��　　　　 �U�束条�g　　　说明
a_id int 无重�?动作标识�Q�主�?br />a_name varchar(20) 不允��ؓ(f��)�I?动作名称
a_call varchar(50) 不允��ؓ(f��)�I?动作所调用的模�?br />a_desc varchar(200) 允许为空动作描述

　　说明�Q�如果采用面向过�E�的开发方式，如纯脚本语言�Q�可以把每一个处理动作写成一个函敎ͼ�调用a_call字段记录的函敎ͼ�卛_��完成相应处理动作。如果采用面向对象的开发方式，可以用COM�l��g来封装处理动作，则a_call用来记录相应的COM�l��g的接口方法。如果是�?NET Framework环境下，可以采用Web服务的方式。当�?d��ng)��发送方、接受方以及(qi��ng)公文标识是作��入参数的�?/p>

��程环节�?Step_table)
名称　　　 �c�d��　　 �U�束条�g　　　说明
step_id int 无重�?环节标识�Q�主�?br />belong int 不允��ؓ(f��)�I?所属流�E�标识，和Flow_table.flow_id兌��
setp_order int 不允��ؓ(f��)�I?所属流�E�的步骤�ơ序
sender int 不允��ؓ(f��)�I?发送方标识�Q�和User_group.group_id兌��
receiver int 不允��ؓ(f��)�I?接受�Ҏ(gu��)��识，和User_group.group_id兌��
a_id int 不允��ؓ(f��)�I?处理动作标识�Q�和Action_table.a_id兌��
a_type int 不允��ؓ(f��)�I?接受�Ҏ(gu��)��需的处理�h�?br />max_wait int 不允��ؓ(f��)�I?最长等待时�?br />wait_unit varchar(5) 不允��ؓ(f��)�I?�{�待旉��的单�?/p>

　　说明�Q�a_type用来��定接受�Ҏ(gu��)��需的处理�h敎ͼ��?”表�C�需同职位的所有�h一起处理，�?”表�C�只需该职位的��L��一名员工处理，�?”表�C�需该职位的��L��两名员工一起处理，依次递推……一起处理的方式和处理动作有养I��例如是投��方式，��数服从多数�Q�还是某人有一��否��x��{�等。可能针�Ҏ(gu��)��些处理动作还得细化，�q�行相关的数据徏模，�q�里我就不细分下��M��(ji��n)�?/p>

　　4)下面分析公文转发的流�E�环节记录。此时相当于实例化一个流�E�环节的对象�Q�发送方和接受方应具体联�p�d��理信息�pȝ��的某�?�?用户�Q�而不是某个用��L(f��ng)��。每�l�过一环节�Q�我们除�?ji��n)要保存�q�方面的信息�Q�还必须保存该环节所转发的公文，以及(qi��ng)处理状况�{�信息。而且�Q�该环节所转发公文数量大于�{�于一�Q�所以可以参考我之前发布的“浅谈数据库设计技�?�?”中的“简�z�的扚w��m:n设计”，��大致如下�Q?/p>

��程环节记录�?Step_log)
名称　　　�c�d��　　 �U�束条�g　　　说明
log_id int 无重�?环节记录标识�Q�主�?br />step_id int 不允��ؓ(f��)�I?环节标识�Q�和Step_table.step_id兌��
sender varchar(100) 不允��ؓ(f��)�I?发送用��h��识，相关用户�l�的User_table.user_id的集�?br />receiver varchar(100) 不允��ؓ(f��)�I?接受用户标识�Q�相关用��L(f��ng)��的User_table.user_id的集�?br />doc_id int 不允��ؓ(f��)�I?转发公文标识�Q�和Document_table.doc_id兌��
batch_no int 不允��ؓ(f��)�I?扚w��转发公文�~�号�Q�同一��程环节转发的batch_no相同
state char(1) 不允��ؓ(f��)�I?处理状�?br />sub_date datetime 不允��ؓ(f��)�I?提交旉��
res_date datetime 允许为空处理回复旉��
comment varchar(255) 允许为空　　　处理回复注释

　　说明�Q?br />　　①同一��程环节转发的batch_no和该批第一条入库的log_id相同。�D例：(x��)假设当前最大log_id�?4�Q�接着某用户一�ơ�{发了(ji��n)3件公文，则批量插入的3条流�E�环节记录的batch_no都是65。之后另外一个用户通过某个��程环节转发�?ji��n)一件公文，再插入流�E�环节记录的batch_id�?8�?br />　　②state字段用来描述其流�E�环节所处的状态，是正待处理，已被处理通过�Q�已被处理驳回，�q�是��出最长等待时间被�pȝ��自动收回�{�等。通过�q�个字段我们�Ҏ(gu��)��受用户发出处理通知�Q�还可以可以很容易的查询出所有超出最长等待时间被�pȝ��自动收回的流�E�，以便企业��理层在日后业务��程重组(BPR)时参考�?br />　　③如果某份公文在某个��程中的某个环节被处理驳回，可以看作该公文在此次��程中被驛_��臌��v始点�Q�最初发送用户可�Ҏ(gu��)��处理回复注释修改公文后重新发送�?/p>

　　�ȝ��Q?br />　　企业公文��程自定义应该是把企业内已经固定�?ji��n)的公文转发、审�Ҏ(gu��)��E�电(sh��)子化�Q�实现高效的无纸化办公，对于非正式的口头讨论、商议、集�?x��)等商务�z�d��q�不适合。当企业累积�?ji��n)一定数量的�?sh��)子化公文�{发的记录后，可以在商业咨询专家和技术开发�h员的协助下对其进行数据挖掘，分析出其中的低效、无用环节，�q�行优化重组�Q�最�l�提高整个企业的竞争力。作为技术开发�h员，我们应该�Ҏ(gu��)��企业实际�q�作情况、资金投入规模，选择当前时期最适合的技术解��x��案，切不可�ؓ(f��)�?ji��n)展�C��q��技术实力，而把开发复杂化�Q�企业开发�ƈ不是�q�求技术最先进�Q�而且最适合�?/p>

weibogao 2007-01-11 11:56 发表评论

weibogao — Thu, 11 Jan 2007 03:50:00 GMT

　　�q�期看了(ji��n)idilent的文章《��用面向对象技术解军_��品打折问题》，文后有读者提��求：(x��)如果不同商品的折扣不同怎么办？或者有��C��N��五十这�U�方式，或不同会(x��)员等�U�的折扣不同�?怎么处理�Q�”idilent认�ؓ(f��)打折�q�个问题�q�不是能够通过一个数据库的字�D�就可以解决的。有不同的会(x��)员，不同的��品，不同的销售计划，而这些也是在不停的不变化和增加的。而会(x��)员和产品的打折，以及(qi��ng)店庆(ji��n)�{�打折，虽然都是折扣�Q�但是很难抽象成数据库中的一个字�D�|��者几个字�D�，不��用程序解冻I��而希望只是通过改变数据库中的数据，在目前阶�D�实现�v来可能还比较困难�?/p>

　　之前我曾参与�q�一个媄(ji��ng)��出�U�销售管理系�l�的��目开发，负责其中的架构设计和数据建模工作�Q�尽��最后该��目�׃��某些客观原因而被攑ּ��Q�但是该��目中也有打折优惠这斚w��的功能需求，我也思考过�q�一块的数据建模。其实，我们可以把商品销售打折这��L(f��ng)��商务规则分解成几个部分，分析各个部分之间的关�p�，从中扑և�关键点，再将其泛化数据徏模，卛_��实现让用戯��己定义打折规则。下面开始分析商品销售打折的商业规则�Q?/p>

　　一套商品销售管理信息系�l�，必定存在下面两个实体�Q�顾客，商品�Q�打折这�U�商业规则一定是围绕着�q�两个实体以�?qi��ng)相互间的关�p�而制定的。回��我们的购物�l�历�Q�打折的需求应该可以分��Z��U�：(x��)
　　1)对特定商品的折扣一般有如下几种情况�Q�按售�h(hu��n)�q�行一定百分比的打折；原�h(hu��n)->特�h(hu��n)(某个旉��D�内�q�行�?的打折；捆绑优惠销�?如购买某一(�?�U�商品后卛_��按较低的��h��或折扣购买另一(�?�U�商�?�?br />　　2)寚w��客的的打折方式一般采用会(x��)员制�Q�即是按�?x��)员�{��在交�Ҏ(gu��)��直接�l�与一定的折扣优惠�Q�或者在�?x��)员累积消费一定金额后�l�以一定比例的�q�点优惠�Q�该方式需要顾客办理会(x��)员卡之类的��n份标识卡�?br />　　3)�Ҏ(gu��)��额的打折方式一般是��֮�消费后送出的限定最后��用期限的代金券�?/p>

　　注意��C��面三大类折扣方式分解开来，都离不开商品�Q�所以这三种打折方式都是商品的共有属性，应该归入到商品表中。另外，一般大型超�?j��ng)多拥有多个分店�Q�而且可能出现各个分店的打折规则略有不同的情况�Q�上面的三种打折规则得同相应的分店一一对应。最后，数据建模大致如下�Q?/p>

店铺�?Shop)
名称 �c�d�� U�束条�g 说明
shop_id int 无重�?店铺标识�Q�主�?br />shop_name varchar(40) 不允��ؓ(f��)�I?店铺名称
shop_addr varchar(80) 不允��ؓ(f��)�I?店铺地址
…�?/p>

商品�c�d��?Ware_type)
名称 �c�d�� U�束条�g 说明
type_id int 无重�?商品�c�d��标识�Q�主�?br />type_name varchar(20) 不允��ؓ(f��)�I?商品�c�d��名称
father int 不允��ؓ(f��)�I?该类别的父类别标识，如果是顶节点的话讑֮�为某个唯一�?br />layer char(6) 限定3�?初始��gؓ(f��)000000 �c�d��的先序遍历，主要为减��检索数据库的次�?/p>

商品�?Ware)
名称 �c�d�� U�束条�g 说明
ware_id int 无重�?商品标识�Q�主�?br />ware_type int 不允��ؓ(f��)�I?所属商品类别，和W(xu��)are_type.type_id兌��
ware_name varchar(40) 不允��ؓ(f��)�I?商品名称
buy_price float 不允��ؓ(f��)�I?�q�货�?br />sell_price float 不允��ؓ(f��)�I?销售�h(hu��n)
d_type char(1) 不允��ؓ(f��)�I?商品打折方式
m_type char(1) 不允��ؓ(f��)�I?�?x��)员打折方�?br />has_coupon bit 默认��gؓ(f��)0 是否有代金券
…�?/p>

　　说明�Q?br />　　①d_type用来辨别该商品的商品打折方式�?0"表示该商品无商品折扣方式�Q?1"表示该商品采用百分比打折方式�Q?2"表示该商品采用特��h��折方式；"3"表示该商品采用捆�l�打折方式，是捆�l�打折规则中的必购商品；"4"表示该商品采用捆�l�打折方式，是捆�l�打折规则中的允购商品�?br />　　②m_type用来辨别该商品的�?x��)员打折方式�?0"表示该商品不参与�?x��)员折扣计算�Q?1"表示该商品采取会(x��)员百分比折扣方式�Q?2"表示该商品采取会(x��)员卡累积消费�q�点折扣方式�?br />　　③has_coupon用来指明该商品是否有代金券�?0"表示该商品无代金券；"1"反之�?/p>

商品库存�?Store_table)
名称 �c�d�� U�束条�g 说明
store_id int 无重�?库存标识�Q�主�?br />shop_id int 不允��ؓ(f��)�I?店铺标识�Q�和Shop.shop_id兌��
ware_id int 不允��ؓ(f��)�I?商品标识�Q�和W(xu��)are.ware_id兌��
number int 默认��gؓ(f��)0 店铺库存数量
unit varchar(10) 不允��ؓ(f��)�I?销售单�?/p>

商品折扣规则�?Discount)
名称 �c�d�� U�束条�g 说明
id int 无重�?折扣规则标识�Q�主�?br />s_id int 不允��ؓ(f��)�I?店铺标识�Q�和Shop.shop_id兌��
w_id int 不允��ؓ(f��)�I?商品标识�Q�和W(xu��)are.ware_id兌��
d_value float 不允��ؓ(f��)�I?打折数��|��用来记录癑ֈ�比或特�h(hu��n)
enddate datetime 不允��ؓ(f��)�I?该规则的�l�止日期
number int 允许为空该规则所允许的最大销�?br />unit varchar(10) 允许为空销售单�?/p>

商品捆绑打折�?Bind_discount)
名称 �c�d�� U�束条�g 说明
b_id int 无重�?捆绑打折规则标识�Q�主�?
shop_id int 不允��ؓ(f��)�I?店铺标识�Q�和Shop.shop_id兌��
1st_ware int 不允��ؓ(f��)�I?必购的商品标识的集合�Q�和W(xu��)are.ware_id兌��
min_req int 默认��gؓ(f��)1 最��必购数�?br />2nd_ware int 不允��ؓ(f��)�I?允购的商品标识的集合�Q�和W(xu��)are.ware_id兌��
max_buy int 默认��gؓ(f��)1 最大允购数�?br />d_type char(1) 不允��ؓ(f��)�I?打折方式�Q�是癑ֈ�比方式还是特��h��?br />d_value float 不允��ؓ(f��)�I?打折数��|��用来记录癑ֈ�比或特�h(hu��n)
enddate datetime 不允��ؓ(f��)�I?该规则的�l�止日期
number int 允许为空该规则所允许的最大销�?br />unit varchar(10) 允许为空销售单�?/p>

　　说明�Q?st_ware用来记录必购商品的集合，min_req表示在必购商品集合内的最��购买数量�?nd_ware用来记录允购商品的集合，max_buy表示辑ֈ�必购商品的最��购买数量后�Q�所允许购买的允购商品的最大允购数量。�D例说明：(x��)某捆�l�销售规定，凡是购买�?ji��n)某�p�d��商品中的��L��1�Ӟ��卛_��按特仯��买允购商品中的�Q�?��?件。这�U�促(j��)销方式大家都见�q�吧�Q�买二送一不过是其中的特例�|�了(ji��n)�?/p>

�?x��)员�{��?Member_type)
名称 �c�d�� U�束条�g 说明
type_id int 无重�?�?x��)员�{��标识�Q�主�?
s_id int 不允��ؓ(f��)�I?店铺标识�Q�和Shop.shop_id兌��
type_name varchar(10) 不允��ؓ(f��)�I?�?x��)员�{��名称
t_value float 不允��ؓ(f��)�I?打折癑ֈ�比或累积消费�q�点�?br />condition float 不允��ؓ(f��)�I?辑ֈ�该等�U�所需累积的消贚w��

�?x��)员�?Member)
名称 �c�d�� U�束条�g 说明
m_id int 无重�?�?x��)员标识�Q�主�?
m_name varchar(10) 不允��ؓ(f��)�I?�?x��)员姓�?br />type_id int 不允��ؓ(f��)�I?�?x��)员�{��标识�Q�和Member_type.type_id兌��
score float 默认��gؓ(f��)0 �?x��)员累积的消费积�?br />…�?/p>

代金券表(Coupon)
名称 �c�d�� U�束条�g 说明
c_id int 无重�?代金券标识，主键
c_name varchra(20) 不允��ؓ(f��)�I?代金券姓�?br />c_value float 不允��ؓ(f��)�I?代金数额
condition float 不允��ؓ(f��)�I?所需现金消费
enddate datetime 不允��ؓ(f��)�I?代金券的�l�止日期

　　当然�Q�由于本人所认知的打折方式�ƈ不全面，也没有和相关的业务�h士深入讨��q�方面的问题。所以，上面的数据徏模�ƈ不能保证覆盖现实商品销售中的的所有打折方式。不�q�，我相信，采用上面的数据徏模来定义打折规则�Q�覆盖率�q�是�?0%以上的。根�?5/5规则�Q�只要给我��够的旉��Q�再加上专业人士的协助，不计开发成本的话，100%的覆盖率是可以达到的^-^

　　最后，�׃��每张购物清单都是由商品组成，而每�U�商品的折扣的计��规则�ƈ不一定完全相同，所以我认�ؓ(f��)在用面向对象的设计方法，设计计算折扣的组件时�Q�采用装�?Decorator)模式比较适合�?/p>

weibogao 2007-01-11 11:50 发表评论

weibogao — Thu, 11 Jan 2007 03:34:00 GMT

1.1业务规则的��?Business Rule)
对于一些业务逻辑可能出现在多个数据表中，��装成Business Rule�Q�这样便于业务逻辑的重��C��用，也便于业务逻辑的维护�?/p>

��Z��(ji��n)便于�l�护业务逻辑�Q�可以考虑��Business Rule和Domains�l�合��h��使用。将业务Business Rule应用到Domains上，然后再把Domains应用到数据表的字�D�上�?/p>

例如�Q�在拆迁��目中，拆迁业务部分�Q�管理参��C��务部分，房源业务部分�Q�拆�q�合同部分的数据表中都有楼层�q�个字段�Q�因此先一个Business Rule�Q�然后定义一个Domain�Q�这��L(f��ng)��应的数据表的字段��可以��用这个Domain�?ji��n)�?/p>

1.2.自定义数据类�?Domains)的��?br />oralce提供�?ji��n)一些内�|�的数据�c�d��Q�但是用户也可以�Ҏ(gu��)��业务的需要，定义自定义的数据�c�d��?/p>

在自定义数据�c�d��里面包装业务逻辑�?/p>

正如上面的房屋楼层，我们可以定义一个独立的数据�c�d��(Domain)�l�护�Q�然后在相关数据表的

字段上��用这个自定义数据�c�d��?/p>

一般在定义自己的数据类型时候，可以在oracle基本�c�d��上定义，然后可以加上一些standard check或者Business Rules�?/p>

比如�Q�在拆迁��目中，面积�c�d��q�个字段在很多数据表都出��C��(ji��n)�Q�可以作��Z��个单独的数据�c�d��cȝ��护，定义一个�?面积�c�d��?Domains�Q�包含的�U�类有：(x��)0 --- 厅房面积,1 --- 使用面积,2 --- 单元面积,,3 --- ��d��{�面�U?4 --- 分摊面积�Q�。而且�׃��Powerdesigner的提供关联作�?�q�样便于当业务逻辑发生�?ji��n)变动，能够很快查询出那些对象受到�?ji��ng)响�?/p>

1.3序列�?Sequence)的��?
在powersigner的模型里面定义一堆了(ji��n)Sequence�Q�接下来的是要把他们和数据表的相兛_��D�关联�v来，特别是那些用于多个数据表字段的Sequence�?/p>

一个数据表原则上只允许一个字�D��用Sequence�Q��ƈ且在数据表的字段使用Sequence前，应该把该Sequence��d��到数据表的Extended Dependencies中�?/p>

如果一个数据表�?个字�D�|��者更多字�D��用了(ji��n)Sequence�Q�那模型��(g��)查时�?x��)给出提�C�Z��息�?/p>

使用的规则一般是只能应用到数据表的主键字�D�上�?/p>

主键字段��?数据�?“ID“或�?“编号“构成�?/p>

例如�Q�“房屋整合面�U��?数据表，那它的主键字�D?房屋整合面积�~�号�Q�对应的Sequence�?/p>

SEQ_房屋整合面积。其它数据表可能也��用到�?ji��n)这个Sequence�Q�那也需要在使用前设�|�引用关�p�R�?/p>

�Q�在数据表的Extended Dependencies 上设�|�引用关�p�）(j��)

1.4 Oracle Package的��?br />在Oracle Package里面可以定一些procedure �Q�但是Oracle包引用的数据库对象到底有哪些呢，�q�些信息��手动�l�护��h��。特别是Oracle Package使用�?ji��n)哪些数据表�Q�视图，以及(qi��ng)Oracle Packag�{�信息徏议维护�v来�?/p>

1.5包的使用
PowerDesigner的包相当于文件夹。用户可以把它当作一个维护业务逻辑的容器。PowerDesigner包一般徏议按照业务模块来建立。如果模块需要细分，可以考虑建立PowerDesigner子包来完成�?/p>

��容器里保存的是模型对象的快捷方式。原始信息徏议不要放到容器里面。因为在要是把这些信息放到容器里�Q�在PowerDesigner的模型合�q�或者逆向工程�Ӟ��q�种方式的信息可能得不到�l�护�?/p>

PowerDesigner的包下面的PhysicalDiagram�Q�徏议采用象ERWin的Subject Area那样�Q�按照某个主题或者业务角度的方式来组�l�PhysicalDiagram包含的对象，使得每个PhysicalDiagram的功能明��?/p>

1.6.视图(View)的��?br />视图一般是数据表或者视图上建立得来的（当然也可能引用了(ji��n)某个存储�q�程�Q�。一般视囄��模型中应该维护视囄��数据来源的引用信息�?/p>

在我们现在的��目中数据库模型没有对视图进行维护，为此需要在建立视图的Powerdesigner

模型�?/p>

我在Powerdesigner9.5环境下通过逆向工程不能够获得视�?view)的脚本，通过修改相关�?/p>

�|�参敎ͼ��q�是不能够获得脚本�?/p>

可以通过以下2�Ҏ(gu��)��获得视图(view)的脚本�?/p>

�Ҏ(gu��)��1�Q��用powerdesigner8.0的逆向工程获得视图的脚本，然后在Powerdesigner9.5中把�?/p>

囄��模型合�ƈ�q�来�Q�这样就可以对视图进行维护了(ji��n)�?/p>

�Ҏ(gu��)��2�Q��用Erwin逆向工程获得视图的Erwin模型�Q�然后再把模型保存�ؓ(f��)ERX�c�d��的文�?/p>

在Powerdesigner9.5中导入该文�g�Q�然后进行合�q�模型就可以�?/p>

PowerDesigner的视图模型处理能力比较差�Q�不能构�l�护视图的依赖关�p?也就是徏立视囑֯�数据源的依赖关系)�Q�这一�Ҏ(gu��)��显不如ERWin�?/p>

1.7.同义词（synonym�Q�的使用
同义词相当于�l�数据库对象一个别名，提供�?ji��n)位�|�和数据的独立性。在跨数据库用户讉K��对象�Ӟ��可以考虑建立同义词结合权限分配，��化数据库对象的访问�?/p>

1.8�Q�数据表的��?br />数据表的注释语句的更新�?/p>

业务背景�Q?/p>

在我们的��目中，Erwin模型中的数据表的注释语句没有同步到Oracle数据库。现在需要更数据库中的数据表的注释语句�?/p>

可能可以采取的实现方法：(x��)

�Ҏ(gu��)��1�Q�Erwin直接正向工程�Q�但是从Erwin直接正向工程�׃��注释语句中有回�R�W�号�Q�更��C��(x��)��p�|�?/p>

�Ҏ(gu��)��2�Q�如果把Erwin模型转换成�ؓ(f��)powerdesigner模型再更新数据表的注释语句，�q�样��可以避免回车符��L(f��ng)��问题�Q�按正常情况是可以行得通的�Q�但是由于Erwin模型中的逻辑模型和物理模型不一��_(d��)��甚至它们出现的顺序不一��_(d��)��q�样获得powerdesigner模型��׃��正确�?ji��n)，生成的修��?gu��)��据库的脚本也��׃��正确�?ji��n)�?/p>

实际采用的方法：(x��)

把Erwin模型转换成powerdesigner模型在Erwin中保存�ؓ(f��)ERX�c�d��Q�然后在PowerDesigner导入模型�Q�，�q�且把文件保存�ؓ(f��)PDM�c�d��Q�XML格式�Q�，删除模型中的视图�Q�domains,Business Rule,reference�{�信息，只留下相��x��据表本��n的信息，然后把模型文件的后缀修改XML�Q��ƈ且采用XMLSPY生成�q�个文�g的DTD文�g�Q�再采用Java�~�写�?ji��n)一个基于SAX的程序去解析XML文�g�Q�把各个数据表以�?qi��ng)字�D늚�注释语句提取出来�Q�然后更新数据库中数据表和字�D늚�注释语句�Q�这样就可以�?ji��n)�?/p>

1.9�Q�ERWin升��到PowerDesigner的相关问�?br />1.9.1 Domain的升�U?br />从Erwin3.52升��到PowerDesigner9.5�Ӟ��Domain信息和数据表的关联关�p�M��(x��)丢失�Q�需要手动重新添�?者间的关�p�R��当然可以通过�~�程修改PowerDesigner的模型文�Ӟ��d��2者之间的兌��关系。一般的PowerDesigner模型文�g较大�Q�只要有个几十张数据表肯定模型文件有1MB�Q�徏议采用SAX的方式添加信息�?/p>

注意�Q�添加数据表字段使用的Domain时候，需要设�|�数据表对Domain的引用关�p�（也就是Extended Dependencies�Q��?/p>

1.9.2 Business Rule的升�U?br />从Erwin3.52升��到Powerdesigner9.5�Q�Business Rule的表辑ּ�(脚本)需要修改的�Q�把所有的

Business Rule的表辑ּ�中的@column 修改�?COLUMN%

具体实现的方式，可以直接在Powerdesigner9.5里面修改�Q�或者把模型保存为XML格式�Q�文件类�?.pdm�Q?通过UltraEdit或者XMLSpy�{�工��h��修改�Q�一个查找替换旧搞定�?ji��n)。当然的注意

只能修改里面的内容，否则�?x��)修改一些不应该修改的地斏V�?/p>

同Domain一��P��从Erwin3.52升��到PowerDesigner9.5�Ӟ��Business信息和数据表的关联关�p�M��?x��)丢失。如果Business Rule 不是太多��手动修改模型文�g�?/p>

1.9.3.Sequence的升�U?br />.Sequence的升�U�徏议采用和Domain的方式，�~�程实现�l�护�?/p>

1.9.4.物理囄��升��
从Erwin3.52升��到Powerdesigner9.5�Q�物理图同样能够倒入Powerdesigner9.5中，但是Powerdesigner9.5的升�U�功能有些问题：(x��)在生成的物理图中数据表的信息有些问题�Q�物理图中的数据表的字段昄��不完全，而且很多时候数据表字段的类型都不能昄��完全。我使用java采用sax的方式把升��后的模型文�g�q�行解析�Q�然后重新生成物理图中数据表的位�|�信息（数据表的2个坐标：(x��)左上角坐标，右下角坐标）(j��)�Q�另外根据业务需要可以生成自��q��Powerdesigner9.5包�ƈ且可以创建物理图�Q�把数据表添加到物理图上�?/p>

1.9.5.其他说明
从Erwin3.52升��到Powerdesigner9.5�Q�我写了(ji��n)一些java�E�序解决�?ji��n)相关问题，如果哪位同行遇到�怼�的问�?/p>

可以交流一下�?/p>

2�Q�关于powerdesigner中的数据�l�构的变更管�?br />目前拆迁��目中数据结构的有些失控�Q�在�l�合powerdesigner包的概念的基��׃��提出如下一些徏议�?/p>

2.1�Q�数据结构按照业务模块进行维�?br />模型中所有的数据�l�构都在一个文件中�Q�而且在顶层文件夹中各个业务模块维护的是数据结构的快捷方式�?/p>

2.2�Q�数据结构按照其生命周期�q�行分类��理�?br />在各个业务模块的包下面徏立如下的包：(x��)

2.2.1临时��试数据�l�构�Q?br />是一些当前业务模块测试时使用的数据结构，可以随时被删�?/p>

2.2.2讨论中数据结构：(x��)
是数据结构处于讨��Z��Q�还没有��定下来�?/p>

2.2.3需要更新的数据�l�构�Q?br />是数据结构已�l�确定下来，但是�q�没有更新到数据库中�?/p>

2.2.4正式数据�l�构�Q?br />在数据库中被业务正常使用的数据结�?/p>

2.2.5作废中的数据�l�构�Q?br />在数据库中以前被业务正常使用�Q�现在已�l�不再��用，但是�q�没有进�?/p>

被作废的数据表中数据的迁�U�，没有完全作废的数据结构。如果要把这些数据结构进行作废，

需要先�q�行数据�q�移�Q�以�?qi��ng)其他相兛_��理�?/p>

2.2.6已经作废的数据结构：(x��)
在数据库已经不再被��用的业务数据表，相关的数据迁�U�d��l�完成，但是数据表还没有删除�Q?/p>