av中文字幕在线,亚洲黄色精品,亚洲激情视频网

weidagang2046 — Thu, 14 Dec 2006 05:05:00 GMT

作者：车东 Email: chedongATbigfoot.com/chedongATchedong.com

写于�Q?002/08 最后更斎ͼ� 11/29/2006 17:23:30
Feed Back >> (Read this before you ask question)
<�q�告>

关键词：Lucene java full-text search engine Chinese word segment

内容摘要�Q?/p>

Lucene是一个基于Java的全文烦引工具包�?/p>

��Z��Java的全文烦引引擎Lucene��介：关于作者和Lucene的历�?/a>

全文��索的实现�Q�Luene全文索引和数据库索引的比�?/a>

中文切分词机制简介：��Z��词库和自动切分词��法的比�?/a>

具体的安装和使用��介：�pȝ��l�构介绍和演�C?/a>

Hacking Lucene�Q�简化的查询分析器，删除的实玎ͼ�定制的排序，应用接口的扩�?/a>

从Lucene我们�q�可以学��C��?/a>

��Z��Java的全文烦�?��索引擎——Lucene

Lucene不是一个完整的全文索引应用�Q�而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各�U�应用中实现针对应用的全文烦�?��索功能�?/p>

Lucene的作者：Lucene的�A献�?a >Doug Cutting是一位资深全文烦�?��索专�Ӟ��曄��是V-Twin搜烦引擎(Apple的Copland操作�pȝ��的成��׃��一)的主要开发者，后在Excite担�Q高��pȝ��架构设计师，目前从事于一些INTERNET底层架构的研�I�。他贡献出的Lucene的目标是为各�U�中��型应用�E�序加入全文��索功能�?/p>

Lucene的发展历�E�：早先发布在作者自��q��www.lucene.com�Q�后来发布在SourceForge�Q?001�q�年底成为APACHE基金会jakarta的一个子��目�Q?a >http://jakarta.apache.org/lucene/

已经有很多Java��目都��用了Lucene作�ؓ其后台的全文索引引擎�Q�比较著名的有：

J ive�Q�WEB论坛�pȝ��Q?
Eyebrows�Q�邮件列表HTML归��/��览/查询�pȝ��Q�本文的主要参考文��?a >TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows�pȝ��的主要开发者之一�Q�而EyeBrows已经成�ؓ目前APACHE��目的主要邮件列表归��系�l��?
Cocoon:��Z��XML的web发布框架�Q�全文检索部分��用了Lucene
Eclipse:��Z��Java的开攑ּ�发��^収ͼ�帮助部分的全文烦引��用了Lucene

对于中文用户来说�Q�最兛_��的问题是其是否支持中文的全文��索。但通过后面对于Lucene的结构的介绍�Q�你会了解到�׃��Lucene良好架构设计�Q�对中文的支持只需对其语言词法分析接口�q�行扩展��p��实现对中文检索的支持�?/p>

全文��索的实现机制

Lucene的API接口设计的比较通用�Q�输入输出结构都很像数据库的�?=>记录==>字段�Q�所以很多传�l�的应用的文件、数据库�{�都可以比较方便的映��到Lucene的存储结�?接口中。��M��上看�Q�可以先�?b>Lucene当成一个支持全文烦引的数据库系�l?/b>�?/p>

比较一下Lucene和数据库�Q?/p>

Lucene	数据�?/td>
索引数据源：doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ \| Lucene Index\| -------------- / searcher \ �l�果输出�Q�Hits(doc(field1,field2) doc(field1...))	索引数据源：record(field1,field2...) record(field1..) \ SQL: insert/ _____________ \| DB Index \| ------------- / SQL: select \ �l�果输出�Q�results(record(field1,field2..) record(field1...))
Document�Q�一个需要进行烦引的“单元�?br />一个Document由多个字�D늻��?/td>	Record�Q�记录，包含多个字段
Field�Q�字�D?/td>	Field�Q�字�D?/td>
Hits�Q�查询结果集�Q�由匚w��的Document�l�成	RecordSet�Q�查询结果集�Q�由多个Record�l�成

全文��?�?like "%keyword%"

通常比较厚的书籍后面常常附关键词索引表（比如�Q�北京：12, 34��，上�v�Q?,77��……）�Q�它能够帮助读者比较快地找到相兛_��容的��늠�。而数据库索引能够大大提高查询的速度原理也是一��P��惛_��一下通过书后面的索引查找的速度要比一��一��地��d��定w��多少倍……而烦引之所以效率高�Q�另外一个原因是它是排好序的�?b>对于��索系�l�来说核心是一个排序问�?/b>�?/p>

�׃��数据库烦引不是�ؓ全文索引设计的，因此�Q?b>使用like "%keyword%"�Ӟ��数据库烦引是不�v作用�?/b>�Q�在使用like查询�Ӟ��搜烦�q�程又变成类��g��一��页��M��的遍历过�E�了�Q�所以对于含有模�p�查询的数据库服务来��_��LIKE�Ҏ��能的危��x��极大的。如果是需要对多个关键词进行模�p�匹配：like"%keyword1%" and like "%keyword2%" ...其效率也��可惌��知了�?/p>

所以徏立一个高效检索系�l�的关键是徏立一个类��g��U�技索引一��L��反向索引机制�Q�将数据源（比如多篇文章�Q�排序顺序存储的同时�Q�有另外一个排好序的关键词列表�Q�用于存储关键词==>文章映射关系�Q�利用这��L��映射关系索引�Q�[关键�?=>出现关键词的文章�~�号�Q�出现次敎ͼ�甚至包括位置�Q��v始偏�U�量�Q�结束偏�U�量�Q�，出现频率]�Q�检索过�E�就是把模糊查询变成多个可以利用索引的精��查询的逻辑�l�合的过�E?/b>。从而大大提高了多关键词查询的效率，所以，全文��索问题归�l�到最后是一个排序问题�?/p>

由此可以看出模糊查询相对数据库的�_��查询是一个非�怸��定的问题，�q�也是大部分数据库对全文��索支持有限的原因。Lucene最核心的特征是通过�Ҏ��的烦引结构实��C��传统数据库不擅长的全文烦引机�Ӟ��q�提供了扩展接口�Q�以方便针对不同应用的定制�?/p>

可以通过一下表格对比一下数据库的模�p�查询：

　 Lucene全文索引引擎数据�?/td>

索引 ��数据源中的数据都通过全文索引一一建立反向索引对于LIKE查询来说�Q�数据传�l�的索引是根本用不上的。数据需要逐个便利记录�q�行GREP式的模糊匚w��Q�比有烦引的搜烦速度要有多个数量�U�的下降�?/td>

匚w��效果通过词元(term)�q�行匚w��Q�通过语言分析接口的实玎ͼ�可以实现对中文等非英语的支持�?/td> 使用�Q�like "%net%" 会把netherlands也匹配出来，
多个关键词的模糊匚w��Q��用like "%com%net%"�Q�就不能匚w��词序颠倒的xxx.net..xxx.com

匚w��?/td> 有匹配度��法�Q�将匚w��E�度�Q�相似度�Q�比较高的结果排在前面�?/td> 没有匚w��E�度的控�Ӟ��比如有记录中net出现5词和出现1�ơ的�Q�结果是一��L��?/td>

�l�果输出通过特别的算法，��最匚w��度最高的�?00条结果输出，�l�果集是�~�冲式的��批量读取的�?/td> �q�回所有的�l�果集，在匹配条目非常多的时候（比如上万条）需要大量的内存存放�q�些临时�l�果集�?/td>

可定制�?/td> 通过不同的语�a�分析接口实现�Q�可以方便的定制出符合应用需要的索引规则�Q�包括对中文的支持）没有接口或接口复杂，无法定制

�l�论高负载的模糊查询应用�Q�需要负责的模糊查询的规则，索引的资料量比较�?/td> 使用率低�Q�模�p�匹配规则简单或者需要模�p�查询的资料量少

全文��索和数据库应用最大的不同在于�Q�让最相关�?/span> �?00条结果满��?8%以上用户的需�?br />
Lucene的创��C��处：

大部分的搜烦�Q�数据库�Q�引擎都是用B树结构来�l�护索引�Q�烦引的更新会导致大量的IO操作�Q�Lucene在实��C��Q�对此稍微有所改进�Q�不是维护一个烦引文�Ӟ��而是在扩展烦引的时候不断创建新的烦引文�Ӟ��然后定期的把�q�些新的��烦引文件合�q�到原先的大索引中（针对不同的更新策略，�Ҏ��的大��可以调��_��Q�这样在不媄响检索的效率的前提下�Q�提高了索引的效率�?/p>
Lucene和其他一些全文检索系�l?应用的比较：

　 Lucene 其他开源全文检索系�l?/td>

增量索引和批量烦�?/td> 可以�q�行增量的烦�?Append)�Q�可以对于大量数据进行批量烦引，�q�且接口设计用于优化扚w��索引和小扚w��的增量烦引�?/td> 很多�pȝ��只支持批量的索引�Q�有时数据源有一点增加也需要重建烦引�?/td>

数据�?/td> Lucene没有定义具体的数据源�Q�而是一个文��的�l�构�Q�因此可以非常灵�zȝ��适应各种应用�Q�只要前端有合适的转换器把数据源�{换成相应�l�构�Q�，很多�pȝ��只针对网��，�~�Z��其他格式文档的灵�z�L��?/td>

索引内容抓取 Lucene的文��是由多个字�D늻�成的�Q�甚臛_��以控刉��些字�D�需要进行烦引，那些字段不需要烦引，�q�一步烦引的字段也分为需要分词和不需要分词的�c�d��Q?br /> 需要进行分词的索引�Q�比如：标题�Q�文章内容字�D?br /> 不需要进行分词的索引�Q�比如：作�?日期字段 �~�Z��通用性，往往��文��整个烦引了

语言分析通过语言分析器的不同扩展实现�Q?br />可以�q��o掉不需要的词：an the of �{�，
西文语法分析�Q�将jumps jumped jumper都归�l�成jump�q�行索引/��?br />非英文支持：对亚�z�语�a��Q�阿拉伯语言的烦引支�?/td> �~�Z��通用接口实现

查询分析通过查询分析接口的实玎ͼ�可以定制自己的查询语法规则：
比如�Q?多个关键词之间的 + - and or关系�{?/td> 　

�q�发讉K�� 能够支持多用��L��使用　

　

关于亚洲语言的的切分词问�?Word Segment)

对于中文来说�Q�全文烦引首先还要解决一个语�a�分析的问题，对于英文来说�Q�语句中单词之间是天焉��过�I�格分开的，但亚�z�语�a�的中日韩文语句中的字是一个字挨一个，所有，首先要把语句中按“词”进行烦引的话，�q�个词如何切分出来就是一个很大的问题�?/p>
首先�Q�肯定不能用单个字符�?si-gram)为烦引单元，否则查“上��”时�Q�不能让含有“�v上”也匚w��?/p>
但一句话�Q�“北京天安门”，计算机如何按照中文的语言习惯�q�行切分呢？
“北�?天安门�?�q�是“北 �?天安门”？让计��机能够按照语言习惯�q�行切分�Q�往往需要机器有一个比较丰富的词库才能够比较准��的识别��句中的单词�?/p>
另外一个解决的办法是采用自动切分算法：��单词按�?元语�?bigram)方式切分出来�Q�比如：
"北京天安�? ==> "北京京天天安安门"�?/p>
�q�样�Q�在查询的时候，无论是查�?北京" �q�是查询"天安�?�Q�将查询词组按同��L��规则�q�行切分�Q?北京"�Q?天安安门"�Q�多个关键词之间按与"and"的关�pȝ��合，同样能够正确地映��到相应的烦引中。这�U�方式对于其他亚�z�语�a��Q�韩文，日文都是通用的�?/p>
��Z��自动切分的最大优�Ҏ��没有词表�l�护成本�Q�实现简单，�~�点是烦引效率低�Q�但对于中小型应用来��_��Z��2元语法的切分�q�是够用的。基�?元切分后的烦引一般大��和源文件差不多�Q�而对于英文，索引文�g一般只有原文�g�?0%-40%不同�Q?/p>

自动切分词表切分

实现实现非常��?/td> 实现复杂

查询增加了查询分析的复杂�E�度�Q?/td> 适于实现比较复杂的查询语法规�?/td>

存储效率索引冗余大，索引几乎和原文一样大索引效率高，为原文大��的30�Q�左�?/td>

�l�护成本无词表维护成�?/td> 词表�l�护成本非常高：中日韩等语言需要分别维护�?br />�q�需要包括词频统计等内容

适用领域嵌入式系�l�：�q�行环境资源有限
分布式系�l�：无词表同步问�?br />多语�a�环境�Q�无词表�l�护成本 �Ҏ��询和存储效率要求高的专业搜烦引擎

目前比较大的搜烦引擎的语�a�分析��法一般是��Z��以上2个机制的�l�合。关于中文的语言分析��法�Q�大家可以在Google查关键词"wordsegment search"能找到更多相关的资料�?/p>
安装和��?/b>

下蝲�Q?a >http://jakarta.apache.org/lucene/

注意�Q�Lucene中的一些比较复杂的词法分析是用JavaCC生成的（JavaCC�Q�JavaCompilerCompiler�Q�纯Java的词法分析生成器�Q�，所以如果从源代码编译或需要修改其中的QueryParser、定制自��q��词法分析器，�q�需要从https://javacc.dev.java.net/下蝲javacc�?/p>
lucene的组成结构：对于外部应用来说索引模块(index)和检索模�?search)是主要的外部应用入口

org.apache.Lucene.search/ 搜烦入口

org.apache.Lucene.index/ 索引入口

org.apache.Lucene.analysis/ 语言分析�?/td>

org.apache.Lucene.queryParser/ 查询分析�?/td>

org.apache.Lucene.document/ 存储�l�构

org.apache.Lucene.store/ 底层IO/存储�l�构

org.apache.Lucene.util/ 一些公用的数据�l�构

��单的例子演示一下Lucene的��用方法：
索引�q�程�Q�从命��o行读取文件名�Q�多个）�Q�将文�g分�\�?path字段)和内�?body字段)2个字�D�进行存储，�q�对内容�q�行全文索引�Q�烦引的单位是Document对象�Q�每个Document对象包含多个字段Field对象�Q�针对不同的字段属性和数据输出的需求，对字�D�还可以选择不同的烦�?存储字段规则�Q�列表如下：
�Ҏ�� 切词索引存储用�?/th>
Field.Text(String name, String value) Yes Yes Yes 切分词烦引�ƈ存储�Q�比如：标题�Q�内容字�D?/td>
Field.Text(String name, Reader value) Yes Yes No 切分词烦引不存储�Q�比如：META信息�Q?br />不用于返回显�C�，但需要进行检索内�?/td>
Field.Keyword(String name, String value) No Yes Yes 不切分烦引�ƈ存储�Q�比如：日期字段
Field.UnIndexed(String name, String value) No No Yes 不烦引，只存储，比如�Q�文件�\�?/td>
Field.UnStored(String name, String value) Yes Yes No 只全文烦引，不存�?/td>
public class IndexFiles {
//使用�Ҏ��Q? IndexFiles [索引输出目录] [索引的文件列表] ...
public static void main(String[] args) throws Exception {
String indexPath = args[0];
IndexWriter writer;
//用指定的语言分析器构造一个新的写索引器（�W?个参数表�C�是否�ؓ�q�加索引�Q?br /> writer = new IndexWriter(indexPath, new SimpleAnalyzer(), false);

for (int i=1; i System.out.println("Indexing file " + args[i]);
InputStream is = new FileInputStream(args[i]);

//构造包�?个字�D�Field的Document对象
//一个是路径path字段�Q�不索引�Q�只存储
//一个是内容body字段�Q�进行全文烦引，�q�存�?br /> Document doc = new Document();
doc.add(Field.UnIndexed("path", args[i]));
doc.add(Field.Text("body", (Reader) new InputStreamReader(is)));
//��文档写入烦�?br /> writer.addDocument(doc);
is.close();
};
//关闭写烦引器
writer.close();
}
}
　
索引�q�程中可以看刎ͼ�
语言分析器提供了抽象的接口，因此语言分析(Analyser)是可以定制的�Q�虽然lucene�~�省提供�?个比较通用的分析器SimpleAnalyser和StandardAnalyser�Q�这2个分析器�~�省都不支持中文�Q�所以要加入对中文语�a�的切分规则，需要修改这2个分析器�?
Lucene�q�没有规定数据源的格式，而只提供了一个通用的结构（Document对象�Q�来接受索引的输入，因此输入的数据源可以是：数据库，WORD文档�Q�PDF文��Q�HTML文��……只要能够设计相应的解析转换器将数据源构造成成Docuement对象卛_��q�行索引�?
对于大批量的数据索引�Q�还可以通过调整IndexerWrite的文件合�q��率属性（mergeFactor�Q�来提高扚w��索引的效率�?
��索过�E�和�l�果昄��Q?/p>
搜烦�l�果�q�回的是Hits对象�Q�可以通过它再讉K��Document==>Field中的内容�?/p>
假设�Ҏ��body字段�q�行全文��索，可以��查询结果的path字段和相应查询的匚w��?score)打印出来�Q?/p>
public class Search {
public static void main(String[] args) throws Exception {
String indexPath = args[0], queryString = args[1];
//指向索引目录的搜索器
Searcher searcher = new IndexSearcher(indexPath);
//查询解析器：使用和烦引同��L��语言分析�?br /> Query query = QueryParser.parse(queryString, "body",
new SimpleAnalyzer());
//搜烦�l�果使用Hits存储
Hits hits = searcher.search(query);
//通过hits可以讉K��到相应字�D늚�数据和查询的匚w��?br /> for (int i=0; i System.out.println(hits.doc(i).get("path") + "; Score: " +
hits.score(i));
};
}
}
在整个检索过�E�中�Q�语�a�分析器，查询分析器，甚至搜烦器（Searcher�Q�都是提供了抽象的接口，可以�Ҏ��需要进行定制�?
Hacking Lucene
��化的查询分析�?/b>
个�h感觉lucene成�ؓJAKARTA��目后，��d��了太多的旉��用于调试日趋复杂QueryParser�Q�而其中大部分是大多数用户�q�不很熟悉的�Q�目前LUCENE支持的语法：
Query ::= ( Clause )*
Clause ::= ["+", "-"] [ ":"] ( | "(" Query ")")
中间的逻辑包括�Q�and or + - &&||�{�符��P��而且�q�有"短语查询"和针对西文的前缀/模糊查询�{�，个�h感觉对于一般应用来��_��q�些功能有一些华而不实，其实能够实现目前�c�M��于Google的查询语句分析功能其实对于大多数用户来说已经够了。所以，Lucene早期版本的QueryParser仍是比较好的选择�?/p>
��d��修改删除指定记录�Q�Document�Q?/b>
Lucene提供了烦引的扩展机制�Q�因此烦引的动态扩展应该是没有问题的，而指定记录的修改也似乎只能通过记录的删除，然后重新加入实现。如何删除指定的记录呢？删除的方法也很简单，只是需要在索引时根据数据源中的记录ID专门另徏索引�Q�然后利用IndexReader.delete(Termterm)�Ҏ��通过�q�个记录ID删除相应的Document�?/p>
�Ҏ��某个字段值的排序功能
lucene�~�省是按照自��q��相关度算法（score�Q�进行结果排序的�Q�但能够�Ҏ��其他字段�q�行�l�果排序是一个在LUCENE的开发邮件列表中�l�常提到的问题，很多原先��Z��数据库应用都需要除了基于匹配度�Q�score�Q�以外的排序功能。而从全文��索的原理我们可以了解刎ͼ��M��不基于烦引的搜烦�q�程效率都会��D��效率非常的低�Q�如果基于其他字�D늚�排序需要在搜烦�q�程中访问存储字�D�，速度回大大降低，因此非常是不可取的�?/p>
但这里也有一个折中的解决�Ҏ��Q�在搜烦�q�程中能够媄响排序结果的只有索引中已�l�存储的docID和score�q?个参敎ͼ�所以，��Z��score以外的排序，其实可以通过��数据源预先排好序，然后�Ҏ��docID�q�行排序来实现。这样就避免了在LUCENE搜烦�l�果外对�l�果再次�q�行排序和在搜烦�q�程中访问不在烦引中的某个字�D�倹{�?/p>
�q�里需要修改的是IndexSearcher中的HitCollector�q�程�Q?/p>
...
　scorer.score(new HitCollector() {
private float minScore = 0.0f;
public final void collect(int doc, float score) {
if (score > 0.0f && // ignore zeroed buckets
(bits==null || bits.get(doc))) { // skip docs not in bits
totalHits[0]++;
if (score >= minScore) {
/* 原先�Q�Lucene��docID和相应的匚w��度score例入�l�果命中列表中：
* hq.put(new ScoreDoc(doc, score)); // update hit queue
* 如果用doc �?1/doc 代替 score�Q�就实现了根据docID��排或逆排
* 假设数据源烦引时已经按照某个字段排好了序�Q�而结果根据docID排序也就实现�?br /> * 针对某个字段的排序，甚至可以实现更复杂的score和docID的拟合�?br /> */
hq.put(new ScoreDoc(doc, (float) 1/doc ));
if (hq.size() > nDocs) { // if hit queue overfull
hq.pop(); // remove lowest in hit queue
minScore = ((ScoreDoc)hq.top()).score; // reset minScore
}
}
}
}
}, reader.maxDoc());
更通用的输入输出接�?/b>
虽然lucene没有定义一个确定的输入文��格式�Q�但��来��多的�h惛_��使用一个标准的中间格式作�ؓLucene的数据导入接口，然后其他数据�Q�比如PDF只需要通过解析器�{换成标准的中间格式就可以�q�行数据索引了。这个中间格式主要以XML��Z��Q�类似实现已�l�不�?�Q?个：
数据�? WORD PDF HTML DB other
\ | | | /
XML中间格式
|
Lucene INDEX
目前�q�没有针对MSWord文档的解析器�Q�因为Word文档和基于ASCII的RTF文��不同�Q�需要��用COM对象机制解析。这个是我在Google上查的相兌��料：http://www.intrinsyc.com/products/enterprise_applications.asp
另外一个办法就是把Word文档转换成text�Q?a >http://www.winfield.demon.nl/index.html

索引�q�程优化
索引一般分2�U�情况，一�U�是��批量的索引扩展�Q�一�U�是大批量的索引重徏。在索引�q�程中，�q�不是每�ơ新的DOC加入�q�去索引都重新进行一�ơ烦引文件的写入操作�Q�文件I/O是一仉��常消耗资源的事情�Q��?/p>
Lucene先在内存中进行烦引操作，�q�根据一定的扚w��q�行文�g的写入。这个批�ơ的间隔��大�Q�文件的写入�ơ数��少�Q�但占用内存会很多。反之占用内存少�Q�但文�gIO操作频繁�Q�烦引速度会很慢。在IndexWriter中有一个MERGE_FACTOR参数可以帮助你在构造烦引器后根据应用环境的情况充分利用内存减少文�g的操作。根据我的��用经验：�~�省Indexer是每20条记录烦引后写入一�ơ，每将MERGE_FACTOR增加50倍，索引速度可以提高1倍左叟�?br />
搜烦�q�程优化
lucene支持内存索引�Q�这��L��搜烦比基于文件的I/O有数量��的速度提升�?br />http://www.onjava.com/lpt/a/3273
而尽可能减少IndexSearcher的创建和�Ҏ��索结果的前台的缓存也是必要的�?br />
Lucene面向全文��索的优化在于首次索引��索后�Q��ƈ不把所有的记录�Q�Document�Q�具体内容读取出来，而�v只将所有结果中匚w��度最高的�?00条结果（TopDocs�Q�的ID攑ֈ��l�果集缓存中�q�返回，�q�里可以比较一下数据库��索：如果是一�?0,000条的数据库检索结果集�Q�数据库是一定要把所有记录内定w��取得以后再开始返回给应用�l�果集的。所以即使检索匹配��L��很多�Q�Lucene的结果集占用的内存空间也不会很多。对于一般的模糊��索应用是用不到这么多的结果的�Q�头100条已�l�可以满��?0%以上的检索需求�?br />
如果首批�~�存�l�果数用完后�q�要��d��更后面的�l�果时Searcher会再�ơ检索�ƈ生成一个上�ơ的搜烦�~�存数大1倍的�~�存�Q��ƈ再重新向后抓取。所以如果构造一个Searcher��L��1�Q?20条结果，Searcher其实是进行了2�ơ搜索过�E�：�?00条取完后�Q�缓存结果用完，Searcher重新��索再构造一�?00条的�l�果�~�存�Q�依此类推，400条缓存，800条缓存。由于每�ơSearcher对象消失后，�q�些�~�存也访问那不到了，你有可能惛_��l�果记录�~�存下来�Q�缓存数��量保证�?00以下以充分利用首�ơ的�l�果�~�存�Q�不让Lucene��费多次��索，而且可以分��q�行�l�果�~�存�?br />
Lucene的另外一个特�Ҏ��在收集结果的�q�程中将匚w��度低的结果自动过滤掉了。这也是和数据库应用需要将搜烦的结果全部返回不同之处�?/p>
我的一些尝�?/a>�Q?/p>
支持中文的Tokenizer�Q�这里有2个版本，一个是通过JavaCC生成的，对CJK部分按一个字�W�一个TOKEN索引�Q�另外一个是从SimpleTokenizer改写的，对英文支持数字和字母TOKEN�Q�对中文按�P代烦引�?
��Z��XML数据源的索引器：XMLIndexer�Q�因此所有数据源只要能够按照DTD转换成指定的XML�Q�就可以用XMLIndxer�q�行索引了�?
�Ҏ��某个字段排序�Q�按记录索引��序排序�l�果的搜索器�Q�IndexOrderSearcher�Q�因此如果需要让搜烦�l�果�Ҏ��某个字段排序�Q�可以让数据源先按某个字�D�|��好序�Q�比如：PriceField�Q�，�q�样索引后，然后在利用这个按记录的ID��序��索的搜烦器，�l�果��是相当于是那个字段排序的结果了�?
从Lucene学到更多
Luene的确是一个面对对象设计的典范
所有的问题都通过一个额外抽象层来方便以后的扩展和重用：你可以通过重新实现来达到自��q��目的�Q�而对其他模块而不需要；
��单的应用入口Searcher, Indexer�Q��ƈ调用底层一�p�d��l��g协同的完成搜索�Q务；
所有的对象的�Q务都非常专一�Q�比如搜索过�E�：QueryParser分析��查询语句�{换成一�p�d��的精��查询的�l�合(Query),通过底层的烦引读取结构IndexReader�q�行索引的读取，�q�用相应的打分器�l�搜索结果进行打�?排序�{�。所有的功能模块原子化程度非帔R��Q�因此可以通过重新实现而不需要修改其他模块。�?
除了灉|��的应用接口设计，Lucene�q�提供了一些适合大多数应用的语言分析器实玎ͼ�SimpleAnalyser,StandardAnalyser�Q�，�q�也是新用户能够很快上手的重要原因之一�?
�q�些优点都是非常值得在以后的开发中学习借鉴的。作��Z��个通用工具包，Lunece的确�l�予了需要将全文��索功能嵌入到应用中的开发者很多的便利�?/p>
此外�Q�通过对Lucene的学习和使用�Q�我也更深刻地理解了��Z��么很多数据库优化设计中要求，比如�Q?/p>
��可能对字段�q�行索引来提高查询速度�Q�但�q�多的烦引会�Ҏ��据库表的更新操作变慢�Q�而对�l�果�q�多的排序条�Ӟ��实际上往往也是性能的杀手之一�?
很多商业数据库对大批量的数据插入操作会提供一些优化参敎ͼ��q�个作用和烦引器的merge_factor的作用是�c�M��的，
20%/80%原则�Q�查的结果多�q�不�{�于质量好，��其对于�q�回�l�果集很大，如何优化�q�头几十条结果的质量往往才是最重要的�?
��可能让应用从数据库中获得比较小的结果集�Q�因为即使对于大型数据库�Q�对�l�果集的随机讉K��也是一个非常消耗资源的操作�?br />
参考资料：
Apache: Lucene Project
http://jakarta.apache.org/lucene/
Lucene开�?用户邮�g列表归档
Lucene-dev@jakarta.apache.org
Lucene-user@jakarta.apache.org
The Lucene search engine: Powerful, flexible, and free
http://www.javaworld.com/javaworld/jw-09-2000/jw-0915-Lucene_p.html
Lucene Tutorial
http://www.darksleep.com/puff/lucene/lucene.html
Notes on distributed searching with Lucene
http://home.clara.net/markharwood/lucene/
中文语言的切分词
http://www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment
搜烦引擎工具介绍
http://searchtools.com/
Lucene作者Cutting的几��论文和专利
http://lucene.sourceforge.net/publications.html
Lucene�?NET实现�Q�dotLucene
http://sourceforge.net/projects/dotlucene/
Lucene作者Cutting的另外一个项目：��Z��Java的搜索引擎Nutch
http://www.nutch.org/ http://sourceforge.net/projects/nutch/
关于��Z��词表和N-Gram的切分词比较
http://china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html

2005-01-08 Cutting在Pisa大学做的关于Lucene的讲座：非常详细的Lucene架构解说
特别感谢�Q?br />前网易CTO许良�?Jack Xu)�l�我的指��|��是您��我带入了搜索引擎这个行业�?/p>原文出处�Q?lt;a>http://www.chedong.com/tech/lucene.html

from:

weidagang2046 2006-12-14 13:05 发表评论

�Ҏ��	切词	索引	存储	用�?/th>
Field.Text(String name, String value)	Yes	Yes	Yes	切分词烦引�ƈ存储�Q�比如：标题�Q�内容字�D?/td>
Field.Text(String name, Reader value)	Yes	Yes	No	切分词烦引不存储�Q�比如：META信息�Q?br />不用于返回显�C�，但需要进行检索内�?/td>
Field.Keyword(String name, String value)	No	Yes	Yes	不切分烦引�ƈ存储�Q�比如：日期字段
Field.UnIndexed(String name, String value)	No	No	Yes	不烦引，只存储，比如�Q�文件�\�?/td>
Field.UnStored(String name, String value)	Yes	Yes	No	只全文烦引，不存�?/td>

深入��出理解索引�l�构

weidagang2046 — Fri, 08 Dec 2006 14:01:00 GMT
     摘要: �Q�一�Q�深入浅出理解烦引结�?         实际上，您可以把索引理解��Z��U�特�D�的目录。微软的 SQL SERVER 提供了两�U�烦引：聚集索引�Q? clustered index �Q�也�U�聚�cȝ��引、簇集烦引）和非聚集索引�Q? nonclustered index ...  阅读全文

weidagang2046 2006-12-08 22:01 发表评论

提高查询速度�Ҏ��ȝ��

weidagang2046 — Fri, 08 Dec 2006 13:55:00 GMT

�q�个帖子主要�ȝ��提高查询速度的方法，涉及到减��连接数据库�ơ数、徏立烦引、优化语句等斚w��?/p>
关于索引�Q�推荐�{载的�q�篇文章
http://blog.csdn.net/dutguoyi/archive/2006/01/10/575617.aspx

改善SQL语句的效�?br />http://community.csdn.net/Expert/topic/5087/5087396.xml?temp=.345669
数据量很大怎样加快索检速度
http://community.csdn.net/Expert/topic/5058/5058320.xml?temp=.1229517
索引建立�Ҏ��的区�?br />http://community.csdn.net/Expert/topic/5068/5068154.xml?temp=.3010218
频繁插入删除数据需要更新烦�?br />http://community.csdn.net/Expert/topic/4937/4937910.xml?temp=.8428614
��试了一下sql server 2005 全文��?br />http://community.csdn.net/Expert/topic/4878/4878430.xml?temp=.6049311

其他关于效率的高频问�?/p>
判断一个表的数据不在另一个表中最优秀�Ҏ��Q?br />http://community.csdn.net/Expert/topic/5038/5038742.xml?temp=.4704553
删除千万�U�表中重复记录的办法
http://community.csdn.net/Expert/topic/5089/5089261.xml?temp=.7907068

数据库数据查询变得不正常�c�d��问题

大数据量�Q�稳定运行一�D�|��候以后无法得到查询结果�?br />http://community.csdn.net/Expert/topic/4810/4810464.xml?temp=9.014529E-02

from: http://www.aygfsteel.com/zqli/archive/2006/12/08/86391.html

weidagang2046 2006-12-08 21:55 发表评论

weidagang2046 — Wed, 06 Dec 2006 15:57:00 GMT

�~�写高性能Web应用�E�序�?0个入门技�?br />
数据层性能
技�?1 �?�q�回多个�l�果�?
技�?2 �?分页的数据访�?
技�?3 �?�q�接�?
技�?4 �?ASP.NET �~�存 API
技�?5 �?每请求缓�?
技�?6 �?后台处理
技�?7 �?��输出缓存和代理服务�?/a>
技�?8 �?�q�行 IIS 6.0�Q�只要用于内核缓存）
技�?9 �?使用 Gzip 压羃
技�?10 �?服务�?/a>控�g视图状�?

使用 ASP.NET �~�写 Web 应用�E�序的简单程度��o��Z��敢相信。正因�ؓ如此��单，所以很�?br />开发�h员就不会花时间来设计其应用程序的�l�构�Q�以获得更好的性能了。在本文中，我将
讲述 10 个用于编写高性能 Web 应用�E�序的技巧。但是我�q�不会将�q�些��仅局限于
ASP.NET 应用�E�序�Q�因��些应用程序只�?Web 应用�E�序的一部分。本文不作�ؓ�?Web
应用�E�序�q�行性能调整的权威性指�?�?一整本书恐怕都无法��L��讲清楚这个问题。请��?br />本文视作一个很好的��L��?

成�ؓ工作狂之前，我原来喜�Ƣ攀岩。在�q�行��M��大型攀岩活动之前，我都会首先仔�l�查�?br />指南中的路线�Q�阅��M��前游客提出的��。但是，无论指南怎么好，您都需要真正的攀�?br />体验�Q�然后才能尝试一个特别具有挑战性的攀癅R��与之相��|��当您面��修复性能问题或�?br />�q�行一个高吞吐量站点的问题�Ӟ��您只能学习如何编写高性能 Web 应用�E�序�?br />
我的个�h体验来自�?Microsoft �?ASP.NET 部门作�ؓ基础架构�E�序�l�理的经验，在此�?br />间我�q�行和管�?www.ASP.NET�Q�帮助设计社�?a target="_blank">服务�?/a>的结构，�C�֌�服务�?/a>是几个著�?
ASP.NET 应用�E�序�Q�组合到一个��^台的 ASP.NET Forums�?Text �?nGallery�Q�。我��信
有些曄��帮助�q�我的技巧对您肯定也会有所帮助�?br />
您应该考虑��应用程序分为几个逻辑层。您可能听说�q?3 层（或�?n 层）物理体系�l�构
一词。这些通常都是规定好的体系�l�构方式�Q�将功能在进�E�和/或硬件之间进行了物理分离
。当�pȝ��需要扩大时�Q�可以很��L��地添加更多的��g。但是会出现一个与�q�程和机器蟩�?br />相关的性能下降�Q�因此应该避免。所以，如果可能的话�Q�请��量在同一个应用程序中一�?br />�q�行 ASP.NET ��及其相关组件�?br />
因�ؓ代码分离以及层之间的边界�Q�所以��?Web 服务或远�E�处理将会��得性能下降 20%
甚至更多�?br />
数据层有点与众不同，因�ؓ通常情况下，最好具有专用于数据�?/a>的硬件。然而进�E�蟩跃到
 数据�?/a>的成本依然很高，因此数据层的性能是您在优化代码时首先要考虑的问题�?br />
在深入应用程序的性能修复问题之前�Q�请首先��保对应用程序进行剖析，以便扑և�具体�?br />问题所在。主要性能计数器（如表�C�执行垃圑֛�收所需旉��癑ֈ�比的计数器）对于扑և��?br />用程序在哪些位置��p��了其主要旉��也非常有用。然而花�Ҏ��间的位置通常非常不直观�?br />
本文讲述了两�U�类型的性能改善�Q�大型优化（如��?ASP.NET �~�存�Q�，和进行自�w�重复的
��型优化。这些小型优化有时特别有意思。您对代码进行一点小��的更改�Q�就会获得很�?br />很多旉��。��用大型优化，您可能会看到整体性能的较大飞跃。而��用小型优化时�Q�对�?br />某个特定��h��可能只会节省几毫�U�的旉��Q�但是每天所有请求加��h��Q�则可能会��生巨�?br />的改善�?br />
数据层性能

谈到应用�E�序的性能调整�Q�有一个试�U�性的��试可用来对工作�q�行优先�U�划分：代码是否
讉K��数据�?/a>�Q�如果是�Q�频率是怎样的？��h��意，�q�一相同��试也可应用于��?Web 服务�?br />�q�程处理的代码，但是本文对这些内�Ҏ��做讲�q��?br />
如果某个特定的代码�\径中必需�q�行数据�?/a>��h��Q��ƈ且您认�ؓ要首先优化其他领域（如字
�W�串操作�Q�，则请停止�Q�然后执行这个试�U�性测试。如果您的性能问题不是非常严重的话
�Q�最好花一些时间来优化一下与数据�?/a>、返回的数据量、进�?a target="_blank">数据�?/a>的往�q�频率相关的�?br />�Ҏ��间�?br />
了解�q�些常规信息之后�Q�我们来看一下可能会有助于提高应用程序性能的十个技巧。首�?br />�Q�我要讲�q�可能会引�v最大改观的更改�?br />

技�?1 �?�q�回多个�l�果�?br />

仔细查看您的数据�?/a>代码�Q�看是否存在多次�q�入数据�?/a>的请求�\径。每个这��L��往�q�都�?br />降低应用�E�序可以提供的每�U�请求数量。通过在一�?a target="_blank">数据�?/a>��h��中返回多个结果集�Q�可�?br />节省�?a target="_blank">数据�?/a>�q�行通信所需的��L��间长度。同时因为减��了数据�?/a>服务�?/a>��理��h��的工�?br />�Q�还会��得系�l��׾~�性更强�?br />
虽然可以使用动�?SQL �q�回多个�l�果集，但是我首选��用存储过�E�。关于业务逻辑是否�?br />该驻留于存储�q�程的问题还存在一些争议，但是我认为，如果存储�q�程中的逻辑可以�U�束
�q�回数据的话�Q�羃��数据集的大��、羃短网�l�上所��p��旉��Q�不必筛选逻辑层的数据�Q�，
则应赞成�q�样做�?br />
使用 SqlCommand 实例及其 ExecuteReader �Ҏ��填充强类型的业务�c�L��Q�可以通过调用
NextResult ��结果集指针向前�U�d��。图 1 昄��了��用类型类填充几个 ArrayList 的示�?br />会话。只�?a target="_blank">数据�?/a>�q�回您需要的数据��进一步减��?a target="_blank">服务�?/a>上的内存分配�?

Figure 1 Extracting Multiple Resultsets from a DataReader
// read the first resultset
reader = command.ExecuteReader();

// read the data from that resultset
while (reader.Read()) {
    suppliers.Add(PopulateSupplierFromIDataReader( reader ));
}

// read the next resultset
reader.NextResult();

// read the data from that second resultset
while (reader.Read()) {
    products.Add(PopulateProductFromIDataReader( reader ));
}

技�?2 �?分页的数据访�?br />

ASP.NET DataGrid ��h��一个很好的功能�Q�数据分��|��持。在 DataGrid 中启用分��|��Q�一
�ơ会昄��固定数量的记录。另外，�?DataGrid 的底部还会显�C�分��?UI�Q�以便在记录之间
�q�行��D��。该分页 UI 使您能够在所昄��的数据之间向前和向后��D��Q��ƈ且一�ơ显�C�固�?br />数量的记录�?br />
�q�有一个小��的波折。��?DataGrid 的分��需要所有数据均与网��D��行绑定。例如，�?br />的数据层需要返回所有数据，那么 DataGrid ��׃��Z��当前��늭�选显�C�的所有记录。如�?br />通过 DataGrid �q�行分页时返回了 100,000 个记录，那么针对每个��h��会放�?99,975 �?br />记录�Q�假设每��大��ؓ 25 个记录）。当记录的数量不断增加时�Q�应用程序的性能��׃��?br />到媄响，因�ؓ针对每个��h��必须发送越来越多的数据�?br />
要编写性能更好的分��代码，一个极佳的方式是��用存储过�E�。图 2 昄��了针�?
Northwind 数据�?/a>中的 Orders 表进行分��늚�一个示例存储过�E�。简而言之，您此时要�?br />的只是传递页索引和页大小。然后就会计��合适的�l�果集，�q�将其返回�?

Figure 2 Paging Through the Orders Table
CREATE PROCEDURE northwind_OrdersPaged
(
    @PageIndex int,
    @PageSize int
)
AS
BEGIN
DECLARE @PageLowerBound int
DECLARE @PageUpperBound int
DECLARE @RowsToReturn int

-- First set the rowcount
SET @RowsToReturn = @PageSize * (@PageIndex + 1)
SET ROWCOUNT @RowsToReturn

-- Set the page bounds
SET @PageLowerBound = @PageSize * @PageIndex
SET @PageUpperBound = @PageLowerBound + @PageSize + 1

-- Create a temp table to store the select results
CREATE TABLE #PageIndex
(
    IndexId int IDENTITY (1, 1) NOT NULL,
    OrderID int
)

-- Insert into the temp table
INSERT INTO #PageIndex (OrderID)
SELECT
    OrderID
FROM
    Orders
ORDER BY
    OrderID DESC

-- Return total count
SELECT COUNT(OrderID) FROM Orders

-- Return paged results
SELECT
    O.*
FROM
    Orders O,
    #PageIndex PageIndex
WHERE
    O.OrderID = PageIndex.OrderID AND
    PageIndex.IndexID > @PageLowerBound AND
    PageIndex.IndexID < @PageUpperBound
ORDER BY
    PageIndex.IndexID

END

在社�?a target="_blank">服务�?/a>中，我们�~�写了一个分��?a target="_blank">服务�?/a>控�g�Q�以完成所有的数据分页。您��会看到
�Q�我使用的就是技�?1 中讨论的理念�Q�从一个存储过�E�返回两个结果集�Q�记录的��L��和请
求的数据�?br />
�q�回记录的��L��可能会根据所执行查询的不同而有所变化。例如，WHERE 子句可用来约�?br />�q�回的数据。�ؓ了计��在分页 UI 中显�C�的总页敎ͼ�必须了解要返回记录的��L��。例如，
如果��d��?1,000,000 条记录，�q�且要��用一�?WHERE 子句��其�{�选�ؓ 1000 条记录，
那么分页逻辑��需要了解记录的��L��才能正确呈现分页 UI�?br />

技�?3 �?�q�接�?br />

�?Web 应用�E�序�?SQL Server? 之间讄�� TCP �q�接可能是一个非常消耗资源的操作。Mi
crosoft 的开发�h员到目前为止能够使用�q�接池已�l�有一�D�|��间了�Q�这使得他们能够重用
数据�?/a>�q�接。他们不是针�Ҏ��个请求都讄��一个新�?TCP �q�接�Q�而是只在�q�接池中没有�?br />何连接时才设�|�新�q�接。当�q�接关闭�Ӟ��它会�q�回�q�接池，在其中它会保持与数据�?/a>的连
接，而不是完全破坏该 TCP �q�接�?br />
当然�Q�您需要小心是否会出现泄漏�q�接。当您完成��用连接时�Q�请一定要关闭�q�些�q�接�?br />再重复一遍：无论��M��人对 Microsoft?.NET Framework 中的垃圾回收有什么评论，请一
定要在完成��用连接时针对该连接显式调�?Close �?Dispose。不要相信公��p��a��q�行�?br />(CLR) 会在预先��定的时间�ؓ您清除和关闭�q�接。尽��?CLR 最�l�会破坏该类�Q��ƈ强制�q?br />接关闭，但是当针对对象的垃圾回收真正发生�Ӟ��q�不能保证�?

要以最优化的方式��用连接池�Q�需要遵守一些规则。首先打开�q�接�Q�执行操作，然后关闭
该连接。如果您必须如此的话�Q�可以针�Ҏ��个请求多�ơ打开和关闭连接（最好应用技�?1
�Q�，但是不要一直将�q�接保持打开状态�ƈ使用各种不同的方法对其进行进��Z��递。第二，
使用相同的连接字�W�串�Q�如果��用集成��n份验证的话，�q�要使用相同的线�E�标识）。如�?br />不��用相同的�q�接字符�Ԍ��例如�Ҏ��d��的用戯��定义�q�接字符�Ԍ��那么您将无法得到�q?br />接池提供的同一个优化倹{��如果您使用集成�w�䆾验证�Q�同时还要模拟大量用��P��q�接池的
效率也会大大下降。尝试跟�t�与�q�接池相关的��M��性能问题�Ӟ��.NET CLR 数据性能计数�?br />可能非常有用�?

每当应用�E�序�q�接资源�Ӟ��如在另一个进�E�中�q�行�?a target="_blank">数据�?/a>�Q�您都应该重点考虑�q�接该资
源所花时间、发送或��索数据所花时��_��以及往�q�的数量�Q�从而进行优化。优化应用程�?br />中�Q何种�cȝ��q�程跌��都是获得更佳性能的首要一炏V�?br />
应用层包含了�q�接数据层、将数据转换为有意义�c�d��例和业务��程的逻辑。例如社区服�?br />器，您要在其中填充Forums �?Threads集合�Q�应用业务规则（如权限）�Q�最重要的是要在
其中执行�~�存逻辑�?br />

技�?4 �?ASP.NET �~�存 API

�~�写应用�E�序代码行之前，一个首要完成的操作是设计应用层的结构，以便最大化利用
ASP.NET �~�存功能�?br />
如果您的�l��g要在 ASP.NET 应用�E�序中运行，则只需在该应用�E�序��目中包括一�?
System.Web.dll 引用。当您需要访问该�~�存�Ӟ��请��?HttpRuntime.Cache 属性（通过
Page.Cache �?HttpContext.Cache 也可讉K��q�个对象�Q��?br />
对于�~�存数据�Q�有几个规则。首先，如果数据可能会多�ơ��用时�Q�则�q�是使用�~�存的一�?br />很好的备选情��c��第二，如果数据是通用的，而不特定于某个具体的��h��或用��h��Q�则�?br />是��用缓存的一个很好的备选情��c��如果数据是特定于用��h��h��的，但是寿命较长的话
�Q�仍然可以对其进行缓存，但是�q�种情况可能�q�不�l�常使用。第三，一个经常被忽略的规
则是�Q�有时可能您�~�存得太多。通常在一�?x86 计算��Z��Q��ؓ了减��内存不��错误出现的
��Z��Q�您会想使用不高�?800MB 的专用字节运行进�E�。因此缓存应该有个限度。换句话�?br />�Q�您可能能够重用某个计算�l�果�Q�但是如果该计算采用 10 个参数的话，您可能要��试�~?br />�?10 个排列，�q�样有可能给您带来麻烦。一个要�?ASP.NET 的最常见支持是由于过度缓
存引��L��内存不��错误�Q�尤其是对于大型数据集�?br />

�~�存有几个极佳的功能�Q�您需要对它们有所了解。首先，�~�存会实现最�q�最��用的��法
�Q��?ASP.NET 能够在内存运行效率较低的情况下强制缓存清�?�Q?从缓存自动删除未�?br />用过的项目。第二，�~�存支持可以强制失效的过期依赖项。这些依赖项包括旉��、密钥和
文�g。时间经�怼�用到�Q�但是对�?ASP.NET 2.0�Q�引入了一个功能更强的新失效类型：�?br />据库�~�存失效。它指的是当数据�?/a>中的数据发生变化时自动删除缓存中的项。有�?a target="_blank">数据�?/a>
�~�存失效的详�l�信息，请参�?MSDN?Magazine 2004 �q?7 月的 Dino Esposito Cutting
Edge 专栏。要了解�~�存的体�pȝ��构，请参阅图 3�?br />
技�?5 �?每请求缓�?br />
在本文前面部分，我提��C��l�常遍历代码路径的一些小改善可能会导致较大的整体性能�?br />益。对于这些小改善�Q�其中有一个绝�Ҏ��我的最爱，我将其称之�ؓ"每请求缓�?�?br />
�~�存 API 的设计目的是��Z��数据缓存较长的一�D�|��_��或者缓存至满��某些条�g�Ӟ��?br />每请求缓存则意味着只将数据�~�存��h��的持�l�时间。对于每个请求，要经常访问某�?br />特定的代码�\径，但是数据却只需提取、应用、修�Ҏ��更新一�ơ。这听�v来有些理论化�Q?br />那么我们来�D一个具体的�C�Z��?br />
在社�?a target="_blank">服务�?/a>的论坛应用程序中�Q�页面上使用的每�?a target="_blank">服务�?/a>控�g都需要个性化的数据来��?br />定��用什么外观、��用什么样式表�Q�以及其他个性化数据。这些数据中有些可以长期�~�存
�Q�但是有些数据却只针�Ҏ��个请求提取一�ơ，然后在执行该��h��期间对其重用多次�Q�如�?br />用于控�g的外观�?br />
��Z��辑ֈ�每请求缓存，请��?ASP.NET HttpContext。对于每个请求，都会创徏一�?
HttpContext 实例�Q�在该请求期间从 HttpContext.Current 属性的��M��位置都可讉K��该实
例。该 HttpContext �c�d��有一个特�D�的 Items 集合属性；��d��到此 Items 集合的对象和
数据只在该请求持�l�期间内�q�行�~�存。正如您可以使用�~�存来存储经常访问的数据一��P��
您也可以使用 HttpContext.Items 来存储只��Z��每个��h��使用的数据。它背后的逻辑非常
��单：数据在它不存在的时候添加到 HttpContext.Items 集合�Q�在后来的查找中�Q�只是返
�?HttpContext.Items 中的数据�?br />

技�?6 �?后台处理

通往代码的�\径应该尽可能快速，是吗�Q�可能有时您会觉得针�Ҏ��个请求执行的或者每
n 个请求执行一�ơ的��d��所需资源非常多。发送电子邮件或者分析和验证传入数据��是�q?br />��L��一些例子�?br />
剖析 ASP.NET Forums 1.0 �q��新构建组成社�?a target="_blank">服务�?/a>的内�Ҏ��Q�我们发现添加新张脓�?br />代码路径非常慢。每�ơ添加新张脓�Ӟ��应用�E�序首先需要确保没有重复的张脓�Q�然后必��?br />使用"坏词"�{�选器分析该张��_��分析张脓的字�W�图释，对张贴添加标记�ƈ�q�行索引�Q�请�?br />时将张脓��d��到合适的队列�Q�验证附�Ӟ��最�l�张贴之后，立即向所有订阅者发出电子邮�?br />通知。很清楚�Q�这涉及很多操作�?br />
�l�研�I�发玎ͼ�大多数时间都花在了烦引逻辑和发送电子邮件上。对张脓�q�行索引是一个非
常耗时的操作，��Z��发现内置�?System.Web.Mail 功能要连�?SMYP 服务�?/a>�Q�然后连�l�发
送电子邮件。当某个特定张脓或主题领域的订阅者数量增加时�Q�执�?AddPost 功能所需�?br />旉��也越来越�ѝ�?br />
�q�不需要针�Ҏ��个请求都�q�行电子邮�g索引。理��x��况下�Q�我们想要将此操作进行批处理
�Q�一�ơ烦�?25 个张贴或者每五分钟发送一�ơ所有电子邮件。我们决定��用以前用于对�?br />据缓存失效进行原型设计的代码�Q�这个失效是用于最�l�进�?Visual Studio? 2005 的内�?br />的�?br />
System.Threading 命名�I�间中的 Timer �c�非常有用，但是�?.NET Framework 中不是很
有名�Q�至��对�?Web 开发�h员来说是�q�样。创��Z��后，�q�个 Timer �c�d��以一个可配置�?br />间隔针对 ThreadPool 中的某个�U�程调用指定的回调。这��p��C�，您可以对代码�q�行讄��
�Q��其能够在没有�?ASP.NET 应用�E�序�q�行传入��h��的情况下得以执行�Q�这是后台处理的
理想情况。您�q�可以在此后台进�E�中执行如烦引或发送电子邮件之�cȝ��操作�?

但是�Q�这一技术有几个问题。如果应用程序域卸蝲�Q�该计时器实例将停止触发其事件。另
外，因�ؓ CLR 对于每个�q�程的线�E�数量具有一个硬性标准，所以可能会出现�q�样的情形：
服务�?/a>负蝲很重�Q�其中计时器可能没有可在其基��上得以完成的�U�程�Q�在某种�E�度上可�?br />会造成延迟。ASP.NET 通过在进�E�中保留一定数量的可用�U�程�Q��ƈ且仅使用�ȝ��E�的一�?br />分用于请求处理，试图��上�q�情况发生的��Z��降到最低。但是，如果您具有很多异步操�?br />�Ӟ��q�可能就是一个问题了�?

�q�里没有��_��的空间来攄��该代码，但是您可以下载一个可以看懂的�C�Z��Q�网址�?
www.rob-howard.net。请了解一�?Blackbelt TechEd 2004 演示中的�qȝ��片和演示�?br />

技�?7 �?��输出缓存和代理服务�?/a>

ASP.NET 是您的表�C�层�Q�或者说应该是您的表�C�层�Q�；它由��c��用��h��件�?a target="_blank">服务�?/a>控�g�Q�H
ttpHandlers �?HttpModules�Q�以及它们生成的内容�l�成。如果您��h��一�?ASP.NET ��，
它会生成输出�Q�HTML、XML、图像或��M��其他数据�Q�，�q�且您针�Ҏ��个请求运行此代码�Ӟ��
它都会生成相同的输出�Q�那么您��拥有一个可用于��输出缓存的�l�佳备选内宏V�?

��此行内�Ҏ��加页的最上端

<%@ Page OutputCache VaryByParams="none" Duration="60" %>

��可以高效地为此��는�成一�ơ输出，然后对它�q�行多次重用�Q�时间最长�ؓ 60 �U�，此时�?br />��将重新执行�Q�输��Z��再一�ơ添加到 ASP.NET �~�存。通过使用一些低�U�程序化 API �?br />可以完成此行为。对于输出缓存有几个可配�|�的讄��Q�如刚刚讲到�?VaryByParams 属�?br />。VaryByParams 刚好被请求到�Q�但�q�允许您指定 HTTP GET �?HTTP POST 参数来更改缓
存项。例如，只需讄�� VaryByParam="Report" 卛_��?default.aspx?Report=1 �?
default.aspx?Report=2 �q�行输出�~�存。通过指定一个以分号分隔的列表，�q�可以指定其
他参数�?

很多人都不知道何时��用输出缓存，ASP.NET ��还会生成一些位于缓�?a target="_blank">服务�?/a>下游�?
HTTP 标头�Q�如 Microsoft Internet Security and Acceleration Server �?Akamai �?br />用的标头。设�|�了 HTTP �~�存标头之后�Q�可以在�q�些�|�络资源上对文档�q�行�~�存�Q�客��L��
��h��也可在不必返回原�?a target="_blank">服务�?/a>的情况下得以满��?br />
因此�Q��用页输出�~�存不会使得您的应用�E�序效率更高�Q�但是它可能会减��?a target="_blank">服务�?/a>上的�?br />载，因�ؓ下游�~�存技术会�~�存文��。当�Ӟ��q�可能只是匿名内容；一旦它成�ؓ下游之后�Q?br />您就再也不会看到�q�些��h��Q��ƈ且再也无法执行��n份验证以��L��对它的访问了�?br />

技�?8 �?�q�行 IIS 6.0�Q�只要用于内核缓存）

如果您未�q�行 IIS 6.0 (Windows Server? 2003)�Q�那么您��错�q�了 Microsoft Web 服务
器中的一些很好的性能增强。在技�?7 中，我讨��Z��输出�~�存。在 IIS 5.0 中，��h��?br />通过 IIS 然后�q�入 ASP.NET 的。涉及到�~�存�Ӟ��ASP.NET 中的 HttpModule 会接收该�?br />求，�q�返回缓存中的内宏V�?br />
如果您正在��?IIS 6.0�Q�就会发��C��个很好的��功能，�U�Cؓ内核�~�存�Q�它不需要对
ASP.NET �q�行��M��代码更改。当��h��?ASP.NET �q�行输出�~�存�Ӟ��IIS 内核�~�存会接收缓
存数据的一个副本。当��h��来自�|�络驱动�E�序�Ӟ��内核�U�别的驱动程序（无上下文切换�?br />用户模式�Q�就会接收该��h��Q�如果经�q�了�~�存�Q�则会将�~�存的数据刷新到响应�Q�然后完�?br />执行。这��p��C�，当您��内核模式缓存与 IIS �?ASP.NET 输出�~�存一起��用时�Q�就会看
��C�o��Z��敢相信的性能�l�果。在 ASP.NET �?Visual Studio 2005 开发过�E�中�Q�我一度是
负责 ASP.NET 性能的程序经理。开发�h员完成具体工作，但是我要看到每天�q�行的所有报
告。内核模式缓存结果��L��最有意思的。最常见的特征是�|�络充满了请�?响应�Q��?IIS
�q�行时的 CPU 使用率只有大�U?5%。这太��o人震惊了�Q�当然��?IIS 6.0 �q�有一些其他原
因，但是内核模式�~�存是其中最明显的一个�?br />

技�?9 �?使用 Gzip 压羃

虽然使用 gzip �q�不一定是服务�?/a>性能技巧（因�ؓ您可能会看到 CPU 使用率的提高�Q�，�?br />是��?gzip 压羃可以减少服务�?/a>发送的字节数量。这��׃��Z��觉得��速度加快了，�q�且
�q�减��了带宽的用量。根据所发送数据、可以压�~�的�E�度以及客户端浏览器是否支持�Q�IIS
只会向支�?gzip 压羃的客��L��发送经�q?gzip 压羃的内容，�?Internet Explorer
6.0 �?Firefox�Q�，您的服务�?/a>每秒可以服务于更多的��h��。实际上�Q�几乎每当您减少所
�q�回数据的数量时�Q�都会增加每�U�请求数�?

Gzip 压羃已经内置�?IIS 6.0 中，�q�且其性能�?IIS 5.0 中��用的 gzip 压羃要好的多
�Q�这是好消息。但不幸的是�Q�当��试�?IIS 6.0 中打开 gzip 压羃�Ӟ��您可能无法在
IIS 的属性对话中扑ֈ�该设�|�。IIS ��组在该服务�?/a>中置入了卓越�?gzip 功能�Q�但是忘
了包括一个用于启用该功能的管�?UI。要启用 gzip 压羃�Q�您必须深入�?IIS 6.0 �?
XML 配置讄��内部�Q�这样不会引起心脏虚弱）。顺便提一句，�q�归功于 OrcsWeb �?
Scott Forsyth�Q�他帮助我提��Z��?OrcsWeb 上宿�ȝ�� www.asp.net 服务�?/a>的这个问题�?br />

本文��׃��讲述步骤了，请阅�?Brad Wilson 的文章，�|�址�?IIS6 Compression。还有一
��有关�ؓ ASPX 启用压羃的知识库文章�Q�网址�?Enable ASPX Compression in IIS。但�?br />您应该注意，�׃��一些实施细节，IIS 6.0 中不能同时存在动态压�~�和内核�~�存�?br />

技�?10 �?服务�?/a>控�g视图状�?br />

视图状态是一个有��的名称�Q�用于表�C�在所生成��늚�隐藏输出字段中存储一些状态数据的
ASP.NET。当该页张脓�?a target="_blank">服务�?/a>�Ӟ��服务�?/a>可以分析、验证、�ƈ��此视图状态数据应用回�?br />��늚�控�g树。视囄��态是一个非常强大的功能�Q�因为它允许状态与客户端一起保持，�q�且
它不需�?cookie �?a target="_blank">服务�?/a>内存卛_��保存此状态。很�?ASP.NET 服务�?/a>控�g都��用视囄��
态来保持在与��元素进行交互期间创建的讄��Q�例如保存对数据�q�行分页时显�C�的当前��?br />�?

然而��用视囄��态也有一些缺炏V��首先，服务或请求页�Ӟ��它都会增加页的总负载。对�?br />贴回服务�?/a>的视囄��态数据进行序列化或取消序列化�Ӟ��也会发生额外的开销。最后，�?br />囄��态会增加服务�?/a>上的内存分配�?br />
几个服务�?/a>控�g有着�q�度使用视图状态的��势�Q�即使在�q�不需要的情况下也要��用它�Q�其
中最著名的是 DataGrid。ViewState 属性的默认行�ؓ是启用，但是如果您不需要，则可�?br />在控件或��别关闭。在控�g内，只需��?EnableViewState 属性设�|��ؓ false�Q�或者在��?br />中��用下列设�|�即可对其进行全局讄��Q?

<%@ Page EnableViewState="false" %>

如果您不回发��，或者��L��针对每个��h��重新生成��上的控�Ӟ��则应该在��别禁用视�?br />状态�?

我�ؓ您讲�q�C��一些我认�ؓ在编写高性能 ASP.NET 应用�E�序时有所帮助的技巧。正如我在本
文前面部分提到的那样�Q�这是一个初步指南，�q�不�?ASP.NET 性能的最后结果。（有关�?br />�?ASP.NET 应用�E�序性能的信息，请参�?Improving ASP.NET Performance。）只有通过
自己的亲�w�体验才能找��军_��体性能问题的最好方法。但是，在您的旅�E�中�Q�这些技�?br />应该会�ؓ您提供一些好的指南。在软�g开发中�Q�几乎没有绝对的东西�Q�每个应用程序都�?br />唯一的�?br />
from: http://www.chinahtml.com/programming/8/2006/11622676777784_2.shtml

weidagang2046 2006-12-06 23:57 发表评论

weidagang2046 — Sun, 03 Dec 2006 11:55:00 GMT
首先用postgresql的用��L��?(su - postgres) ,然后�q�入数据�?假设数据库名�U�Cؓ“house�?命��o�?

[postgres@ITC-S postgres]$ psql house
Welcome to psql 8.0.1, the PostgreSQL interactive terminal.
Type: copyright for distribution terms
　       h for help with SQL commands
　       ? for help with psql commands
　       g or terminate with semicolon to execute query
　       q to quit
house=#
输入encoding GBK
house=#set encoding GBK
然后��可以插入汉字了�?br />
from: http://publish.it168.com/2006/0219/20060219173801.shtml?positioncode=1547

weidagang2046 2006-12-03 19:55 发表评论

weidagang2046 — Sun, 03 Dec 2006 05:22:00 GMT

　　问题提出

　　现在几乎所有的应用�pȝ��都无法避免��用数据库�pȝ��。在JAVA世界里访问数据库是一仉��常轻杄��事情�Q�JDBC为JAVA应用�E�序讉K��数据库提供了一个统一的接口，通过使用JDBC接口开发者无需兛_��pȝ��最�l�采用哪�U�数据库�Q�因为JDBC仅仅是定义了讉K��几个JAVA的接口类�Q�具体的实现是由数据库厂商提供的�Q�这�U�做法其实与其他数据库连接方式例如ODBC是类似的。但是在实际的应用过�E�中�Q�开发者发现离JDBC设计的初衯��是有一定距��，��比如说在存储字�W�串时的�~�码问题�Q�我惛_��多开发者都会遇见这个问题，倒不是因��解决它有什么技术方面的隑ֺ��Q�而是它的的确��非常繁琐。我们必��d��每次写入或者读出字�W�串的时候进行编码和反编码处理；或者说我们可以写一个方法可以进行编码处理的�Q�但又必��d��每次数据库操作的时候调用，虽然调用很简单，可是我非得这样吗�Q�要是忘了编码那又要DEBUG了。当然你可能觉得�q��ƈ没有什么，或者你可能很勤快，喜欢写大量重复的代码�Q�可是你��N��没有觉得�q�种�J�琐的工作正在浪费你�q�于宝贵的青春吗�Q�停止你的键盘输入，让我们来解决�q�个问题吧！

　　解决思�\

　　在传�l�的应用�E�序中数据库操作部分我们可以惌��成两层，如图所�C�：一个是数据库的"�q�接�?�Q�另外一个业务数据操作层。在�q�里数据库的�q�接池是�q�义的，你可以把JDBC中的DriverManager也当成是�q�接池，具体的意思就是我们可以通过�q�层来获取到指定数据库的�q�接而不��d��心它是怎么获取的。如果这个时候数据库�pȝ��Q�有如Informix�Q�SQL Server�Q�要求对字符串进行�{码才能存储（例如最常见的GBK->ISO8859_1转码�Q�，那我们就必须在业务数据操作层来进行，�q�样有多��业务数据操作我们就要做多少�~�码转码的工作，太麻烦了�Q�代码中充斥中大量重复的内容。本文提出的解决�Ҏ��是利用对获取到的数据库�q�接实例�q�行二次��装�Q�也��是在数据库�q�接池与业务数据操作层之间加入了�q�接��装层，当然了，我们也完全可以直接将�q�接��装集成到数据库�q�接池内部。关于连接池的实现请参照我的另外一��文章《��用JAVA动态代理实现数据库�q�接池�?/p>

图一

　　我们知道�q�行�~�码和�{码工作都是集中在JDBC的两个接口PreparedStatement和ResultSet上进行的�Q�主要涉及PreparedStatement的setString�Ҏ��以及ResultSet的getString�Ҏ��。前面我们讲�q�需要加入一个连接封装层来对数据库连接实例进行二�ơ封装，但是怎么通过�q�个��装来改变PreparedStatement和ResultSet�q�两个接口的行�ؓ呢？�q�个问题其实也很��单，因�ؓPreparedStatement接口必须通过Connection接口来获取实例，而ResultSet接口又必��M��Statement或者PreparedStatement接口来获取实例，有了�q�样的��联关�p�，问题也就�q�刃而解了。还是利用我在文章《��用JAVA动态代理实现数据库�q�接池》中使用的动态接口代理技术。首先我们设计Connection接口的代理类_Connection�Q�这个代理类接管了Connection接口中所有可能获取到Statement或者PreparedStatement接口实例的方法，例如�Q�prepareStatement和createStatement。改变这两个�Ҏ��使之�q�回的是�l�过接管后的Statement或者PreparedStatement实例。通过对于Statement接口也有相应的代理类_Statement�Q�这个代理类接管用于获取ResultSet接口实例的所有方法，包括对setString�Ҏ��的接��以军_��是否对字�W�串�q�行�~�码处理。对于接口ResultSet的接��类_ResultSet��q��应的比较��单，它只需要处理getString�Ҏ��卛_��?/p>
　　关键代码

　　前面我们大概介绍了这个解��x��案的思�\�Q�下面我们给出关键的实现代码包括Connection的代理类�Q�Statement的代理类�Q�ResultSet的代理类。这些代码是在原来关于数据库�q�接池实现的基础上进行扩充��之增加对自动�~�码处理的功能。有需要源码打包的可以通过电子邮�g跟我联系�?/p>
_Connection.java

/*
* Created on 2003-10-23 by Liudong
*/
package lius.pool;
import java.sql.*;
import java.lang.reflect.*;

/*
*
* 数据库连接的代理�c?
* @author Liudong
*/
class _Connection implements InvocationHandler{
private Connection conn = null;
private boolean coding = false;
//指定是否�q�行字符串�{码操�?br /> _Connection(Connection conn, boolean coding){
  this.conn = conn;
  this.coding = coding;
  initConnectionParam(this.conn);

}

/**
* Returns the conn.
* @return Connection
*/

public Connection getConnection() {
  Class[] interfaces = conn.getClass().getInterfaces();
  if(interfaces==null||interfaces.length==0){
   interfaces = new Class[1];
   interfaces[0] = Connection.class;

  }

  Connection conn2 = (Connection)Proxy.newProxyInstance( conn.getClass().getClassLoader(), interfaces,this);
  return conn2;

}

/**
* @see java.lang.reflect.InvocationHandler#invoke
*/
public Object invoke(Object proxy, Method m, Object[] args) throws Throwable {
  String method = m.getName();
  //调用相应的操�?br />  Object obj = null;
  try{
   obj = m.invoke(conn, args);
   //接管用于获取语句句柄实例的方�?br />   if((CS.equals(method)||PS.equals(method))&&coding)
    return new _Statement((Statement)obj,true).getStatement();

  } catch(InvocationTargetException e) {
   throw e.getTargetException();
  }
  return obj;
}

private final static String PS = "prepareStatement";
private final static String CS = "createStatement";
}

_Statement.java

/*
* Created on 2003-10-23 by Liudong
*/

package lius.pool;
import java.sql.*;
import java.lang.reflect.*;

/**
* 数据库语句对象实例的代理�c?
* @author Liudong
*/
class _Statement implements InvocationHandler{
private Statement statement ; //保存所接管对象的实例�?br /> private boolean decode = false; //指定是否�q�行字符串�{码�?br />
public _Statement(Statement stmt,boolean decode) {
  this.statement = stmt;
  this.decode = decode;
}

/**
* 获取一个接��后的对象实例�?
* @return
*/
public Statement getStatement() {
  Class[] interfaces = statement.getClass().getInterfaces();
  if(interfaces==null||interfaces.length==0){
   interfaces = new Class[1];
   interfaces[0] = Statement.class;
  }
  Statement stmt = (Statement)Proxy.newProxyInstance(
   statement.getClass().getClassLoader(),
   interfaces,this);
  return stmt;

}

/**
* �Ҏ��接管
*/
public Object invoke(Object proxy, Method m, Object[] args) throws Throwable {
  String method = m.getName(); //接管setString�Ҏ��
  if(decode && SETSTRING.equals(method)) {
   try{
    String param = (String)args[1];
    if(param!=null)
     param = new String(param.getBytes(),"8859_1");
    return m.invoke(statement,new Object[]{args[0],param});
   } catch(InvocationTargetException e){
    throw e.getTargetException();

   }
  }

  //接管executeQuery�Ҏ��

  if(decode && EXECUTEQUERY.equals(method)){
   try{
    ResultSet rs = (ResultSet)m.invoke(statement,args);
    return new _ResultSet(rs,decode).getResultSet();

   }catch(InvocationTargetException e){
    throw e.getTargetException();
    }
  }

  try{
   return m.invoke(statement, args);
  } catch(InvocationTargetException e) {
   throw e.getTargetException();
   }
}
//两个要接��的�Ҏ��?br />
private final static String SETSTRING = "setString";
private final static String EXECUTEQUERY = "executeQuery";
}

_ResultSet.java

/*
* Created on 2003-10-23 by Liudong
*/

package lius.pool;
import java.sql.ResultSet;
import java.lang.reflect.InvocationHandler;
import java.lang.reflect.InvocationTargetException;
import java.lang.reflect.Method;
import java.lang.reflect.Proxy;

/**
* 数据库结果集的代理类
* @author Liudong
*/
class _ResultSet implements InvocationHandler{
private ResultSet rs = null;
private boolean decode = false;

public _ResultSet(ResultSet rs,boolean decode) {
  this.rs = rs;
  this.decode = decode;
}

public ResultSet getResultSet(){
  Class[] interfaces = rs.getClass().getInterfaces();
  if(interfaces==null||interfaces.length==0){
   interfaces = new Class[1];
   interfaces[0] = ResultSet.class;
  }

  ResultSet rs2 = (ResultSet)Proxy.newProxyInstance(rs.getClass().getClassLoader(),interfaces,this);
  return rs2;

}

/**
* �l�果getString�Ҏ��
*/
public Object invoke(Object proxy, Method m, Object[] args) throws Throwable {
  String method = m.getName();
  if(decode && GETSTRING.equals(method)){
   try{
    String result = (String)m.invoke(rs,args);
    if(result!=null)
     return new String(result.getBytes("8859_1"));
    return null;

   }catch(InvocationTargetException e){
    throw e.getTargetException();
    }

  }

  try{
   return m.invoke(rs, args);
  }catch(InvocationTargetException e){
   throw e.getTargetException();
  }
}

private final static String GETSTRING = "getString";

}

　　现在我们已经把三个接口的代理�c�d��好了�Q�下一步就是怎么来��用这三个�c�R��其实对于��用者来讲�ƈ不需要关心三个类�Q�只需要了解_Connection��可以了�Q�因为另外两个是_Connection直接调用的。�ؓ了��用_Connection我们必须传入两个参数�Q�第一个是数据库实际的数据库连接实例，另外一个是布尔��g��表是否进行�{码处理。我们必��d��通过实际的情况获取到数据库连接后再传入_Connection的构造函��C��为参敎ͼ�下面例子告诉你如何来使用_Connection�q�个�c�：

　　Connection conn = getConnection(); //获取数据库连�?br />　　boolean coding = false; //从配�|�或者其他地方读取是否进行�{码的配置
　　//接管数据库连接实例�?br />　　_Connection _conn = new _Connection(conn,coding);
　　//获得接管后的数据库连接实例，以后直接使用conn2而不是conn
　　Connection conn2 = _conn.getConnection();

　　因�ؓ对一个应用系�l�来�Ԍ��数据库连接的获取必然有统一的方法，在这个方法中加入对连接的接管��可以一��x��逸的解决数据库的�~�码问题�?/p>
　　性能比较

　　功能没有问题了，开发者接下来��׃��兛_��性能的问题，因�ؓ在进行一些对响应速度要求很高或者大数据量的处理情况下性能��成��Z��个非常突出的问题。由于JAVA中的动态接口代理采用的是反��（Reflection�Q�机�Ӟ��同时又加入我们自��q��一些代码例如方法名判断�Q�字�W�串转码�{�操作因此在性能上肯定比不上直接使用没有�l�过接管的数据库�q�接。但是这�Ҏ��能上的差别是不是我们可以忍受的呢，为此我做了一个试验对二者进行了比较�Q?/p>
　　��试环境��单描�q�ͼ�

　　使用ACCESS数据库，��Z��张结构一��L��表，计算从获取连接后到插入数据完毕后的时间差�Q�两个程序（直连数据库和使用�q�接接管�Q�都�q�行的字�W�串的�{码操作�?/p>
　　��试�l�果�Q?/p>

插入记录�?/td> 直连数据库程序耗时单位�Q�ms 使用�q�接接管�E�序耗时性能比较

1000 2063 2250 9.0%

5000 8594 8359 -2.7%

10000 16750 17219 2.8%

15000 22187 23000 3.6%

20000 27031 27813 2.9%

　　从上面这张测试结果表中来看，二者的性能的差别非常小�Q�尽��在两万条数据的扚w��插入的时候时间差别也不会多于一�U�钟�Q�这��L��l�果应该说还是��o人满意的�Q�毕竟�ؓ了程序良好的�l�构有时候牺牲一点点性能�q�是值得的�?/p>
　　本文��是我之前文章《��用JAVA动态代理实现数据库�q�接池》中提出的数据库�q�接池实现的�q�一步完善，同样使用动态接口代理的技术来解决数据库编码的问题。JAVA的这个高�U�技术可以用来解册��多实际中非常��手的问题，��像本文提到的编码问题的处理以及数据库连接池的实玎ͼ�同时在WEB开发框架的实现上也有非常大的作为。欢�q�对�q�方面感兴趣的朋友来信共同来研究�?br />
from: http://www.javafan.net/article/20041212111952983.html

weidagang2046 2006-12-03 13:22 发表评论

weidagang2046 — Tue, 28 Nov 2006 06:59:00 GMT

l         如果可能�Q�避免访问数据库
l         为应用选择最好最快的 JDBC 驱动 ,参�?a >本站文章 �?JDBC3.0提供了新的特性来提高性能�Q�诸如连接池�Q?statemente池的改进
l        �Ҏ��据库使用�q�接池�ƈ且重用连接，而不要重复打开和关闭连接。最佳的�q�接池大��是当连接池大到��_��使服务请求不�{�待
l         ��量使用支持 JDBC3.0 的驱动，因�ؓ JDBC3.0 支持包括 DataSource 对象�Q�连接池�Q�分布式事务支持�Q?RowSets �?prepared statement 池等性能增强�Ҏ�?/span>
l         Prepared statement 池（自从 JDBC3.0 开始有�Q�高速缓存已�l�预先优化�ƈ�q�行了的 SQL 查询�Q�这��P��他们被再�ơ请求的时候，不必�l�历再次的优化预处理�Q�避免最优化步骤�Q�诸如检查语法，验证地址�Q�优化访问�\径和执行计划�Q��?Statement 池是一个很好的�Q�重要的性能优化�Ҏ��
l         JDBC3.0 中的 Statement 池和�q�接池能合作�׃�n statement 池，�q�样�Q�能使用一个已高速缓存的 statement �Q�该 statement 来自另外一个连接）的连接，在由��M��q�接执行�?一些SQL 首次被执行时�Q��生的 statement 准备开销仅一��?/span>
l         RowSet对象�?ResultSet 对象�怼��Q�但是能提供当断开�q�接的时候对数据库数据的讉K��。这允许数据以它最��单的形式被高效的高速缓�?/span>
l         用同一个连接执行多�?statements
l         关闭 autocommit �Q�但不要让事务打开太久
l         避免��事务分布开�Q�事务跨��多个连接）
l         最��化数据库的行和列数据获取。��?setMaxRows, setMaxFieldSize,�?SetFetchSize
l         使用最高效的数据类型：字符串比整数型快�Q�整数型比��Q点类型和旉��戳类型都要高效（是否不太理解^&^�Q�这是针对DB2数据库处理来说的�Q�处理character�c�d��最快，而处理integer�c�d��通常需要一些�{换或者字节排序）
l         使用 updateXXX()�Ҏ��更新�Q?updateXXX() 在可更新的结果集上调用。结果集已经定位��C��一�?, 因此当��用一�?UPDATE statement �Ӟ��可以消除通常的查找要更新的数据行的开销
l         Cache��M��h��的元数据�Q?metadata �Q��ƈ��可能少的��用元数据 �Ҏ��Q�其慢的�E�度一用便�?/span>
l         避免在元数据查询中��?null 参数
l         使用虚拟查询获得一行的元数据，不要使用getcolumns()�Q�假如应用允许用户��用列数据�Q�应用是使用getColumns来返回列的信息给用户�q�是准备一个虚拟查询而后调用getMetadata呢？
l         使用存储�q�程�Q�避免多余的�|�络传输
l         在存储过�E�中使用参量�Q�不要将数据挨个地放在statement中，最��化解析开销。此条针对DB2来说�Q�其它数据库未必适用。SQL��L��以字�W�串形式发送给DB2数据库，例如�Q?/span>
CallableStatement cstmt = conn.prepareCall ("call getCustName (12345)");
ResultSet rs = cstmt.executeQuery ();
DB2服务器必��解析该SQL�Q�验证参量类型，�q�将参量转化为正��的数据�c�d��?/p>
l         寚w��要重复执行的statement使用预处理statement�Q�PreparedStatement�Q?/span>
l         选择使用最��x��标：对连�l�读取��用游标；对双向滚动��用游标。对仅返回一行的查询避免使用游标�?/span>
l         在JVM中Cache频繁��h��的数据，避免不必要的数据库请�?/span>
l         采用预读取机�Ӟ�� 扚w��取行�Q�而不要一�ơ一�?。调整批大小和预取行的数量。避免��用预�?BLOB 数据�?/span>
l         除非�l�对需要，否则避免�U�d��数据
l         在数据穿�q�网�l�之前要使流化数据（ Streamline data �Q?/span>
l         避免每次处理一行，��可能一起处理多行�?/span>
l         在表中统计个敎ͼ�例如�Q��?select count(*) from myTable,yourTable where �?/span>�Q�属于资源密集型的。试试首先选入临时表，仅返回该计数�Q�count�Q�，然后发送精��的二次查询获得临时表中的行的子集�?/span>
l         �?/span>当的使用 SQL 能减��资源请求。��用返回所需数据的最��值的查询�Q�避�?select * 查询。一个返回小的数据子集的复杂查询�Q�比一个简单的�Q�返回超�q�所需的大量数据的��单查询更高效�?/span>
l         使你的查询尽可能�_��y�Q�例如：��可能精��地最��化要传输的数据�Q��其是所需的子�?/span>
l         努力扚w��更新�Q�将 statement 攉��C��P��然后在一个事务里面一��h��行。如果可能，使用有条件的逻辑和��时变量来辑ֈ� statement 批处�?/span>
l         永远不要�?DBMS 事务跨越用户输入
l         考虑使用乐观锁。乐观锁使用旉��戳验证数据是否还没有被其他用��h��变，否则事务��p�|
l         使用恰当的更斎ͼ�例如�Q�更新行/表中已经存在的数据，而不要添加或者删除行/表。在适当的位�|�更新数据要比移动数据快得多�Q�如果更新需要的�I�间比表设计能提供的更多�Q�这可能是需要的。如果你设计的行需要空间初始化�Q�更新将会更快。交易是你的表可能需要更多的��盘�I�间�Q�但可能速度更快。由于磁盘空间是便宜的，使用一点点能提高性能�Q�这应该说是非常有�h值的投资
l         分开存储正在操作的数据和历史数据�Q�更一般的情况是将频繁使用的数据和不常使用的数据分开存储�Q?/span>
l         ��可能小的保留你的操作数据集�Q�避免必��读那些不相关的数据
l         DBMS可以很好的�ƈ行运转，��量��应用设计成当和 DBMS交互时应用能做其他事情�?/span>
l         使用��水�U�操作和�q�行操作�?��应用设计成支持大量�q�行�q�程�Q?使应用运行更快。如果要处理多步�Q�努力设计好应用�Q�以使后来的步骤能够在�Q何优先的�q�程已经完成的数据部分上开始工作，而不是必��ȝ��C��先进�E�完�?/span>
l       事物的保护��别越高，性能损失��p��大。事物��别按增长的顺序�ؓ�Q?TRANSACTION_NONE, TRANSACTION_READ_UNCOMMITTED, TRANSACTION_READ_COMMITTED, TRANSACTION_REPEATABLE_READ, TRANSACTION_SERIALIZABLE。��用Connection.setTransactionIsolation() 讄��你想要的事物�U�别
l      默认的自动提交模式由于��每一个数据库命��o都成��Z��个单独的事务�Q�这会严重媄响性能�Q�关闭自动提交（Connection.setAutoCommit(false) �Q�，明确声明事务
l         通过整合多个事务��Z��个的扚w��操作�Q��ƈ在一个statement中��用Statement.addBatch() 和Statement.executeBatch()
l     Savepoints (from JDBC3.0)需要昂�늚�资源。一旦不再需要，��q��M��用Connection.releaseSavepoint()释放掉Savepoints
l         ConnectionPoolDataSource (from JDBC3.0)和PooledConnection接口��接池提供了built-in支持
l         使用setLogWriter() (from Driver, DataSource, or ConnectionPooledDataSource; from JDBC3.0) 帮助跟踪JDBC��?/span>
l         使用Connection.setReadOnly(true)优化只读数据库（操作�Q�交�?/span>
l         使用Connection.nativeSQL()察看SQL查询如何在数据库�U�执行，帮助��保SQL已被优化
l         切记�Q�一旦可能，立刻关闭Statement和ResultSet
l         使用DatabaseMetaData获得数据库功能性信�?/span>
l         一直捕捉和处理数据库警告和异常
l         使用最恰当的数据类型明��数据的�c�d��Q�例如：以date�c�d��存储日期�Q�儿不要用varchar
l         使用可滚动ResultSet (JDBC 2.0)

from: http://www.ijsp.net/2/2003-9/20/0000431.shtml

weidagang2046 2006-11-28 14:59 发表评论

我怎样创徏一个序列号或是自动递增的字�D�？

weidagang2046 — Sun, 26 Nov 2006 09:06:00 GMT

PostgreSQL 支持 SERIAL 数据�c�d��。（字段定义为SERIAL后）��自动创��Z��个序列生成器�Q�例如：

CREATE TABLE person ( id SERIAL, name TEXT );

会自动�{换�ؓ以下SQL语句�Q?

CREATE SEQUENCE person_id_seq; CREATE TABLE person ( id INT4 NOT NULL DEFAULT nextval('person_id_seq'), name TEXT );

from: http://www.pgsqldb.org/twiki/bin/view/PgSQL/PostgreFAQ#4.11.1

weidagang2046 2006-11-26 17:06 发表评论

weidagang2046 — Sun, 26 Nov 2006 08:02:00 GMT

1. 在项目中�l�常��到的数据库分页查询, ORM 一般都支持的不�? 如果�?ORM, �q�部分程序往往要自己扩�? �?SqlMap 对各�U�查询语句不分彼�? 一概在 Map 文�g里定义�?/p>
2. 对一些稍微复杂些的语�? 例如在对金额�{�敏感数据操作时, 一个常用的操作序列�?
a. 先取出当前金�?br />b. �q�算后得到更新的金额
c. 执行 Update 语句: Update < tableName > set amount= < New amount > where amount= < Old amount >
�q�种操作�?ORM 不能支持�? SqlMap 能很好的支持�?/p>
3. SqlMap �?Domain 对象可以直接攑֜�业务�? 一�?ORM 的对数据讉K��的基�c�要攑֜�数据讉K��?因�ؓ带有�Ҏ��据访问的接口, 攑֜�业务层不合�?, 增加了代码的冗余度�?/p>
4. �?ORM 的目的是什�? 最主要的目的是减少重复的底层编�E�工作量, SqlMap 完全可以做到�?/p>
再说�?SqlMap 的不��?

1. 因�ؓ不象 ORM 那样生成�E�_��可靠的对数据讉K��的基�c? 所以要�?Map 操作做好充��的单元测�? 增加了测试的工作量�?/p>
2. 每次改动数据�? Map �?Domain 文�g往往要手工修�? 因�ؓ SqlMap 的灵�z�L�? 往往我们会手工调�?Map 而不会直接��?Generator 生成的代码�?br />
from: http://matrix.foresee.cn/blogs/simon/archives/001638.html

weidagang2046 2006-11-26 16:02 发表评论

weidagang2046 — Fri, 27 Oct 2006 04:17:00 GMT
在以下的文章中，我将以“办公自动化”系�l��ؓ例，探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分��c��以下代码说明了我们实例中数据库的“红头文件”一表的部分数据�l�构�Q?
CREATE TABLE [dbo].[TGongwen] (    --TGongwen是红头文件表�?/p>
   [Gid] [int] IDENTITY (1, 1) NOT NULL ,
--本表的id��P��也是主键
   [title] [varchar] (80) COLLATE Chinese_PRC_CI_AS NULL ,
--�U�头文�g的标�?/p>
   [fariqi] [datetime] NULL ,
--发布日期
   [neibuYonghu] [varchar] (70) COLLATE Chinese_PRC_CI_AS NULL ,
--发布用户
   [reader] [varchar] (900) COLLATE Chinese_PRC_CI_AS NULL ,
--需要浏览的用户。每个用户中间用分隔�W��?”分开
) ON [PRIMARY] TEXTIMAGE_ON [PRIMARY]
GO

　　下面�Q�我们来往数据库中��d��1000万条数据�Q?/p>
declare @i int
set @i=1
while @i<=250000
begin
    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-2-5','通信�U?,'通信�U?办公�?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l�侦支队,��h��U?��d��支队,外事�U?,'�q�是最先的25万条记录')
    set @i=@i+1
end
GO

declare @i int
set @i=1
while @i<=250000
begin
    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-9-16','办公�?,'办公�?通信�U?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l�侦支队,��h��U?外事�U?,'�q�是中间�?5万条记录')
    set @i=@i+1
end
GO

declare @h int
set @h=1
while @h<=100
begin
declare @i int
set @i=2002
while @i<=2003
begin
declare @j int
        set @j=0
        while @j<50
            begin
declare @k int
            set @k=0
            while @k<50
            begin
    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values(cast(@i as varchar(4))+'-8-15 3:'+cast(@j as varchar(2))+':'+cast(@j as varchar(2)),'通信�U?,'办公�?通信�U?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l�侦支队,��h��U?外事�U?,'�q�是最后的50万条记录')
            set @k=@k+1
            end
set @j=@j+1
        end
set @i=@i+1
end
set @h=@h+1
end
GO

declare @i int
set @i=1
while @i<=9000000
begin
    insert into Tgongwen(fariqi,neibuyonghu,reader,title) values('2004-5-5','通信�U?,'通信�U?办公�?王局�?刘局�?张局�?admin,刑侦支队,特勤支队,交��E警支�?�l�侦支队,��h��U?��d��支队,外事�U?,'�q�是最后添加的900万条记录')
    set @i=@i+1000000
end
GO
　　通过以上语句�Q�我们创��Z��25万条由通信�U�于2004�q?�?日发布的记录�Q?5万条由办公室�?004�q?�?日发布的记录�Q?002�q�和2003�q�各100�?500条相同日期、不同分�U�的由通信�U�发布的记录�Q�共50万条�Q�，�q�有由通信�U�于2004�q?�?日发布的900万条记录�Q�合�?000万条�?br />
from: http://www.pconline.com.cn/pcedu/empolder/db/sql/0501/538958.html

weidagang2046 2006-10-27 12:17 发表评论

SQL查询的分��|��\

weidagang2046 — Fri, 27 Oct 2006 04:17:00 GMT
如果用一般的SELECT * 查询SQL数据�?然后用recordset�q�行分页的话,在返回结果很多的情况下将会是一个�O长的�q�程,而且很消耗内�?你可能会有感�?用access也比SQL�?
其实我们可以只取出我们每��需要显�C�的记录�?�q�样的速度是惊人的,非常�?�q�里我们会用到聚集烦引来快速确定我们需要取出的记录数的位置.如下�?
if p>1 then 'p为PAGE��|��
if n="next" then'下一��?br />sql="select top 26 * from song1 where id > "&pk&" and contains(songtitle,'"&songname&"')" 'PK为当前页的最大ID�?br />elseif n="prev" then'上一��?br />sql="select top 26 * from song1 where id < "&previd&" and contains(songtitle,'"&songname&"') order by id desc"'previd最��ID
end if
else
sql="select top 26 * from song1 where contains(songtitle,'"&songname&"')"'没有指定PAGE�?默认�W�一��?br />end if
�q�里用到了全文检�?速度也是很快�?我在52万记录下��试,最快可�?6MS(机器C1.7. DDR 256M),感觉比较可以,我用like代码模糊查询��|��试过,在结果集很多的情况下比全文更�?但是如果�l�果很少(整个表只有那么几�?��是漫长的过�E?因�ؓ要对全表�q�行扫描!
按上面的�Ҏ��不能得出所查询�l�果得总记录数,�q�里我们可以用select count(*) 来获取记录��L��,速度��还�q�得�?不过感觉要慢一�?特别是记录集很多得情�?不过�q�样占用得内存很��得.
以上是我最�q�搞SQL查询得心�?

from: http://www.fixdown.com/article/article/2121.htm

weidagang2046 2006-10-27 12:17 发表评论

weidagang2046 — Fri, 27 Oct 2006 04:16:00 GMT

　　建立表：

CREATE TABLE [TestTable] (
[ID] [int] IDENTITY (1, 1) NOT NULL ,
[FirstName] [nvarchar] (100) COLLATE Chinese_PRC_CI_AS NULL ,
[LastName] [nvarchar] (100) COLLATE Chinese_PRC_CI_AS NULL ,
[Country] [nvarchar] (50) COLLATE Chinese_PRC_CI_AS NULL ,
[Note] [nvarchar] (2000) COLLATE Chinese_PRC_CI_AS NULL
) ON [PRIMARY]
GO

插入数据�Q?2万条�Q�用更多的数据测试会明显一�?
SET IDENTITY_INSERT TestTable ON

declare @i int
set @i=1
while @i<=20000
begin
insert into TestTable([id], FirstName, LastName, Country,Note) values(@i, ''FirstName_XXX'',''LastName_XXX'',''Country_XXX'',''Note_XXX'')
set @i=@i+1
end

SET IDENTITY_INSERT TestTable OFF

-------------------------------------

分页�Ҏ��一�Q?利用Not In和SELECT TOP分页)
语句形式�Q?
SELECT TOP 10 *
FROM TestTable
WHERE (ID NOT IN
(SELECT TOP 20 id
FROM TestTable
ORDER BY id))
ORDER BY ID

SELECT TOP ��大��?*
FROM TestTable
WHERE (ID NOT IN
(SELECT TOP ��大��?��|�� id
FROM �?
ORDER BY id))
ORDER BY ID

-------------------------------------

分页�Ҏ��二：(利用ID大于多少和SELECT TOP分页�Q?
语句形式�Q?
SELECT TOP 10 *
FROM TestTable
WHERE (ID >
(SELECT MAX(id)
FROM (SELECT TOP 20 id
FROM TestTable
ORDER BY id) AS T))
ORDER BY ID

SELECT TOP ��大��?*
FROM TestTable
WHERE (ID >
(SELECT MAX(id)
FROM (SELECT TOP ��大��?��|�� id
FROM �?
ORDER BY id) AS T))
ORDER BY ID

-------------------------------------

分页�Ҏ��三：(利用SQL的游标存储过�E�分��?
create procedure XiaoZhengGe
@sqlstr nvarchar(4000), --查询字符�?
@currentpage int, --�W�N��?
@pagesize int --每页行数
as
set nocount on
declare @P1 int, --P1是游标的id
@rowcount int
exec sp_cursoropen @P1 output,@sqlstr,@scrollopt=1,@ccopt=1,@rowcount=@rowcount output
select ceiling(1.0*@rowcount/@pagesize) as 总页�?-,@rowcount as 总行�?@currentpage as 当前��?
set @currentpage=(@currentpage-1)*@pagesize+1
exec sp_cursorfetch @P1,16,@currentpage,@pagesize
exec sp_cursorclose @P1
set nocount off

其它的方案：如果没有主键�Q�可以用临时表，也可以用�Ҏ��三做�Q�但是效率会低�?
��优化的时候，加上主键和烦引，查询效率会提高�?

通过SQL 查询分析器，昄��比较�Q�我的结论是:
分页�Ҏ��二：(利用ID大于多少和SELECT TOP分页�Q�效率最高，需要拼接SQL语句
分页�Ҏ��一�Q?利用Not In和SELECT TOP分页) 效率�ơ之�Q�需要拼接SQL语句
分页�Ҏ��三：(利用SQL的游标存储过�E�分��? 效率最差，但是最为通用

在实际情况中�Q�要具体分析。�?/font>

from: http://cfan.net.cn/info/15547.html

weidagang2046 2006-10-27 12:16 发表评论

存储�q�程从入门到熟练(多个存储�q�程完整实例及调用方�?

weidagang2046 — Fri, 27 Oct 2006 04:14:00 GMT

①�ؓ什么要使用存储�q�程?
因�ؓ它比SQL语句执行�?
②存储过�E�是什�?
把一堆SQL语句�|�在一�?�q�可以根据条件执行不同SQL语句.(AX写作本文时观�?
③来一个最��单的存储�q�程
CREATE PROCEDURE dbo.testProcedure_AX
AS
select userID from USERS order by userid desc
�?dbo.testProcedure_AX是你创徏的存储过�E�名,可以改�ؓ:AXzhz�{?别跟关键字冲�H�就行了.AS下面��是一条SQL语句,不会写SQL语句的请回避.
④我怎么在ASP.NET中调用这个存储过�E?
下面黄底的这两行��够使了.
        public static string GetCustomerCName(ref ArrayList arrayCName,ref ArrayList arrayID)
        {
            SqlConnection con=ADConnection.createConnection();
            SqlCommand cmd=new SqlCommand("testProcedure_AX",con);
            cmd.CommandType=CommandType.StoredProcedure;
            con.Open();
            try
            {
                SqlDataReader dr=cmd.ExecuteReader();
                while(dr.Read())
                {
                    if(dr[0].ToString()=="")
                    {
                        arrayCName.Add(dr[1].ToString());
                    }
                }
                con.Close();
                return "OK!";
            }
            catch(Exception ex)
            {
                con.Close();
                return ex.ToString();
            }
        }
�?其实��是把以�?br />SqlCommand cmd=new SqlCommand("select userID from USERS order by userid desc",con);
中的SQL语句替换为存储过�E�名,再把cmd的类型标注�ؓCommandType.StoredProcedure(存储�q�程)
⑤写个带参数的存储过�E�吧,上面�q�个��单得有点惨不忍睹,不过�q�是蛮实用的.
参数带就带两,一个的没面�?太小家子气了.
CREATE PROCEDURE dbo.AXzhz
/*
�q�里写注�?br />*/
@startDate varchar(16),
@endDate varchar(16)
AS
select id from table_AX where commentDateTime>@startDate and commentDateTime<@endDate order by contentownerid DESC
�?@startDate varchar(16)是声明@startDate �q�个变量,多个变量名间用�?】隔开.后面的SQL��可以��用这个变量了.
⑥我怎么在ASP.NET中调用这个带参数的存储过�E?
public static string GetCustomerCNameCount(string startDate,string endDate,ref DataSet ds)
{
            SqlConnection con=ADConnection.createConnection();
//-----------------------注意�q�一�D?-------------------------------------------------------------------------------------------------------
            SqlDataAdapter da=new SqlDataAdapter("AXzhz",con);
            para0=new SqlParameter("@startDate",startDate);
            para1=new SqlParameter("@endDate",endDate);
            da.SelectCommand.Parameters.Add(para0);
            da.SelectCommand.Parameters.Add(para1);
            da.SelectCommand.CommandType=CommandType.StoredProcedure;
//-------------------------------------------------------------------------------------------------------------------------------

            try
            {
                con.Open();
                da.Fill(ds);
                con.Close();
                return "OK";
            }
            catch(Exception ex)
            {
                return ex.ToString();
            }
        }
�?把命令的参数��d��q�去,��OK�?br />鸟的,改字体颜色的东西太垃圾了,改不�?大家凑活着�?
⑦我�q�想看看SQL命��o执行成功了没�?
注意看下面三行红色的语句
CREATE PROCEDURE dbo.AXzhz
/*
@parameter1 用户�?br /> @parameter2 新密�?br />*/
@password nvarchar(20),
@userName nvarchar(20)
AS
declare @err0 int
update WL_user set password=@password where UserName=@userName
set @err0=@@error
select @err0 as err0
�?先声明一个整型变量@err0,再给其赋��gؓ@@error(�q�个是系�l�自动给出的语句是否执行成功,0为成�?其它为失�?,最后通过select把它选择出来,某位高�h说可以通过Return�q�回,��出本�h的认知范�?俺暂时不�?以后再补充吧
⑧那怎么从后台获得这个执行成功与否的值呢?
下面�q�段代码可以告诉你答�?
    public static string GetCustomerCName()
        {
            SqlConnection con=ADConnection.createConnection();

            SqlCommand cmd=new SqlCommand("AXzhz",con);
            cmd.CommandType=CommandType.StoredProcedure;
            para0=new SqlParameter("@startDate","2006-9-10");
            para1=new SqlParameter("@endDate","2006-9-20");
            da.SelectCommand.Parameters.Add(para0);
            da.SelectCommand.Parameters.Add(para1);
            con.Open();
            try
            {
               Int32 re=(int32)cmd.ExecuteScalar();
                con.Close();
                if (re==0)
                 return "OK!";
                else
                 return "false";
            }
            catch(Exception ex)
            {
                con.Close();
                return ex.ToString();
            }
        }
�?��是通过SqlCommand的ExecuteScalar()�Ҏ��取回�q�个�?�q�句话是从MSDN上找�?��为改�?
     int re=(int)cmd.ExecuteScalar(); 99%正确,现在没时间验�?期待您的��试!!!
⑨我要根据传入的参数判断执行哪条SQL语句!!~
下面�q�个存储�q�程可以满��我们的要�?竟然是Pascal/VB的写�?Begin----End ,不是{},,,对��用C#的我来说,�q�个语法有点恶心.........
ALTER PROCEDURE dbo.selectCustomerCNameCount
@customerID int
AS
if @customerID=-1
begin
select contentownerid ,userCName,count(*) as countAll from view_usercomment group by contentownerid,userCName order by contentownerid DESC
end
else
begin
select contentownerid ,userCName,count(*) as countAll from view_usercomment where contentownerid=@customerID group by contentownerid,userCName order by contentownerid DESC
end
好了,俺的水��^只止于此,也够菜鸟们喝一壶的�?�q�有更多东西�{�着我们��d��?无尽的征�?!!!!!!!!!!

from: http://www.knowsky.com/340678.html

weidagang2046 2006-10-27 12:14 发表评论

数据库烦引应�?ms-sql)

weidagang2046 — Fri, 27 Oct 2006 04:13:00 GMT

一、烦引的概念
        索引��是加快��索表中数据的�Ҏ��?a >数据�?/a>的烦引类��g��书籍的烦引。在书籍中，索引允许用户不必��阅完整个书��p��q�速地扑ֈ�所需要的信息。在数据库中�Q�烦引也允许数据库程序迅速地扑ֈ�表中的数据，而不必扫描整个数据库�?/p>
二、烦引的特点
    1.索引可以加快数据库的��索速度
    2.索引降低了数据库插入、修攏V��删除等�l�护��d��的速度
    3.索引创徏在表上，不能创徏在视图上
    4.索引既可以直接创建，也可以间接创�?
    5.可以在优化隐藏中�Q��用烦�?
    6.使用查询处理器执行SQL语句�Q�在一个表上，一�ơ只能��用一个烦�?
    7.其他
三、烦引的优点
    1.创徏唯一性烦引，保证数据库表中每一行数据的唯一�?br />    2.大大加快数据的检索速度�Q�这也是创徏索引的最主要的原�?br />    3.加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义�?br />    4.在��用分�l�和排序子句�q�行数据��索时�Q�同样可以显著减��查询中分组和排序的旉��?br />    5.通过使用索引�Q�可以在查询的过�E�中使用优化隐藏器，提高�pȝ��的性能�?/p>
四、烦引的�~�点
    1.创徏索引和维护烦引要耗费旉��Q�这�U�时间随着数据量的增加而增�?br />    2.索引需要占物理�I�间�Q�除了数据表占数据空间之外，每一个烦引还要占一定的物理�I�间�Q�如果要建立聚簇索引�Q�那么需要的�I�间��׃��更大
    3.当对表中的数据进行增加、删除和修改的时候，索引也要动态的�l�护�Q�降低了数据的维护速度
五、烦引分�c?br />    1.直接创徏索引和间接创建烦�?br />    直接创徏索引�Q?CREATE INDEX mycolumn_index ON mytable (myclumn)
    间接创徏索引�Q�定义主键约束或者唯一性键�U�束�Q�可以间接创建烦�?br />    2.普通烦引和唯一性烦�?br />    普通烦引：CREATE INDEX mycolumn_index ON mytable (myclumn)
    唯一性烦引：保证在烦引列中的全部数据是唯一的，对聚��烦引和非聚��烦引都可以使用
    CREATE UNIQUE COUSTERED INDEX myclumn_cindex ON mytable(mycolumn)
    3.单个索引和复合烦�?br />    单个索引�Q�即非复合烦�?br />    复合索引�Q�又叫组合烦引，在烦引徏立语句中同时包含多个字段名，最�?6个字�D?br />    CREATE INDEX name_index ON username(firstname,lastname)
    4.聚簇索引和非聚簇索引(聚集索引�Q�群集烦�?
   聚簇索引�Q�物理烦引，与基表的物理��序相同�Q�数据值的��序��L��按照��序排列
    CREATE CLUSTERED INDEX mycolumn_cindex ON mytable(mycolumn) WITH
    ALLOW_DUP_ROW(允许有重复记录的聚簇索引)
   非聚��烦引：CREATE UNCLUSTERED INDEX mycolumn_cindex ON mytable(mycolumn)
六、烦引的使用
   1.当字�D�|��据更新频率较低，查询使用频率较高�q�且存在大量重复值是��使用聚簇索引
    2.�l�常同时存取多列�Q�且每列都含有重复值可考虑建立�l�合索引
    3.复合索引的前导列一定好控制好，否则无法起到索引的效果。如果查询时前导列不在查询条件中则该复合索引不会被��用。前导列一定是使用最频繁的列
    4.多表操作在被实际执行前，查询优化器会�Ҏ��q�接条�g�Q�列出几�l�可能的�q�接�Ҏ��q�从中找出系�l�开销最��的最��x��案。连接条件要充䆾考虑带有索引的表、行数多的表�Q�内外表的选择可由公式�Q�外层表中的匚w��行数*内层表中每一�ơ查扄��ơ数��定�Q�乘�U�最��ؓ最��x��?br />    5.where子句中对列的��M��操作�l�果都是在sql�q�行旉��列计算得到的，因此它不得不�q�行表搜索，而没有��用该列上面的索引�Q�如果这些结果在查询�~�译时就能得刎ͼ�那么��可以被sql优化器优化，使用索引�Q�避免表搜烦(例：select * from record where substring(card_no,1,4)=�?378�?
&& select * from record where card_no like �?378%�?��M��对列的操作都��导致表扫描�Q�它包括数据库函数、计��表辑ּ��{�等�Q�查询时要尽可能��操作移至等号右�?br />    6.where条�g中的’in’在逻辑上相当于’or’，所以语法分析器会将in ('0','1')转化为column='0' or column='1'来执行。我们期望它会根据每个or子句分别查找�Q�再��结果相加，�q�样可以利用column上的索引�Q�但实际上它却采用了"or�{�略"�Q�即先取出满��x��个or子句的行�Q�存入��时数据库的工作表中，再徏立唯一索引以去掉重复行�Q�最后从�q�个临时表中计算�l�果。因此，实际�q�程没有利用column上烦引，�q�且完成旉��q�要受tempdb数据库性能的媄响。in、or子句�怼�使用工作表，使烦引失效；如果不��生大量重复��|��可以考虑把子句拆开�Q�拆开的子句中应该包含索引
    7.要善于��用存储过�E�，它��sql变得更加灉|��和高�?br />
from: http://www.knowsky.com/339315.html

weidagang2046 2006-10-27 12:13 发表评论

weidagang2046 — Fri, 29 Sep 2006 09:39:00 GMT
说到数据�?/font>�Q�我认�ؓ不能不先谈数据结构�?996�q�_��在我初入大学学习计算机编�E�时�Q�当时的老师��告诉我们说�Q�计��机�E�序�Q�数据结构＋��法。尽��现在的�E�序开发已由面向过�E��ؓ主逐步�q�渡到面向对象�ؓ主，但我�q�是深深赞同8�q�前老师的告诉我们的公式�Q�计��机�E�序�Q�数据结构＋��法。面向对象的�E�序开发，要做的第一件事��是�Q�先分析整个�E�序中需处理的数据，从中提取出抽象模板，以这个抽象模板设计类�Q�再在其中逐步��d��处理其数据的函数(即算�?�Q�最后，再给�c�M��的数据成员和函数划分讉K��权限�Q�从而实现封装�?
　　数据库的最初雏形据说源自美国一个奶牛场的记账薄(�U�质的，由此可见�Q�数据库�q�不一定是存储在电脑里的数据^_^)�Q�里面记录的是该奶牛场的收支账目�Q�程序员在将其整理、录入到电脑中时从中受到启发。当按照规定好的数据�l�构所采集到的数据量大��C��定程度后�Q�出于程序执行效率的考虑�Q�程序员��其中的��索、更新维护等功能分离出来�Q�做成单独调用的模块�Q�这个模块后来就慢慢发展、演变成现在我们所接触到的数据库管理系�l?DBMS)——程序开发中的一个重要分支�?/p>
　　下面�q�入正题�Q�首先按我个人所接触�q�的�E�序�l�数据库设计人员的功底分一下类�Q?br />　　�Q�、没有系�l�学习过数据�l�构的程序员。这�cȝ��序员的作品往往只是他们的即兴玩��P��他们往往习惯只设计有限的几个表，实现某类功能的数据全部塞在一个表中，各表之间几乎毫无兌��。网上不��的免费��理软�g都是�q�样的东西，当程序功能有限，数据量不多的时候，其程序运行�v来没有什么问题，但是如果用其��理比较重要的数据，风险性非常大�?br />　　�Q�、系�l�学习过数据�l�构�Q�但是还没有开发过对程序效率要求比较高的管理��Y件的�E�序员。这�c�M�h多半刚从学校毕业不久�Q�他们在设计数据库表�l�构�Ӟ��严格按照教科书上的规定，��L��E-R囑֒�3NF(别灰心，所有的数据库设计高手都是从�q�一步开始的)。他们的作品�Q�对于一般的access型轻量��的管理��Y�Ӟ��已经够用。但是一旦该�pȝ��需要添加新功能�Q�原有的数据库表差不多得�q�行大换血�?br />　　�Q�、第二类�E�序员，在经历过数次�E�序效率的提升，以及功能升��的折腑֐��Q�终于升�U�成为数据库设计的老鸟�Q�第一�cȝ��序员��g��的高人。这�cȝ��序员可以胜�Q二十个表以上的中型商业数据管理系�l�的开发工作。他们知道该在什么样的情况下保留一定的冗余数据来提高程序效率，而且其设计的数据库可拓展性较好，当用户需要添加新功能�Ӟ��原有数据库表只需做少量修改即可�?br />　　�Q�、在�l�历�q�上十个�c�M��数据库管理��Y件的重复设计后，�W�三�cȝ��序员中坚持下来没有�{行，而是希望从中扑և�“偷懒”窍门的有心��Z��慢慢觉悟�Q�从而完成量变到质变的�{换。他们所设计的数据库表结构有一定的�q�见�Q�能够预��到未来功能升��所需要的数据�Q�从而预先留下伏�W�。这�cȝ��序员目前大多晋��成数据挖掘方面的高��软�g开发�h员�?br />　　�Q�、第三类�E�序员或�W�四�cȝ��序员�Q�在对现有的各家数据库管理系�l�的原理和开发都有一定的�ȝ��后，要么在其基础上进行二�ơ开发，要么自行开发一套有自主版权的通用数据库管理系�l��?/p>
　　我个人正处于�W�三�cȝ��末期�Q�所以下面所列出的一些设计技巧只适合�W�二�c�d��部分�W�三�c�L��据库设计人员。同�Ӟ��׃��我很��碰到有兴趣在这斚w��深钻下去的同行，所以文中难免出现错误和遗漏�Q�在此先行声明，�Ƣ迎大家指正�Q�不要藏�U�哦8)
　　一、树型关�pȝ��数据�?br />　　不少�E�序员在�q�行数据库设计的时候都遇到�q�树型关�pȝ��数据�Q�例如常见的�c�d��表，即一个大�c�，下面有若�q�个子类�Q�某些子�c�d��有子�c�这��L��情况。当�c�d��不确定，用户希望可以在�Q意类别下��d��新的子类�Q�或者删除某个类别和其下的所有子�c�，而且预计以后其数量会逐步增长�Q�此时我们就会考虑用一个数据表来保存这些数据。按照教�U�书上的教导�Q�第二类�E�序员大概会设计出类��D��L��数据表结构：
�c�d��表_1(Type_table_1)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
type_id   　 int    　   无重复　　   �c�d��标识�Q�主�?br />type_name　　 char(50)    不允��ؓ�I� �?�c�d��名称�Q�不允许重复
type_father   int         不允��ؓ�I� �?该类别的父类别标识，如果是顶节点的话讑֮�为某个唯一�?/p>
　　�q�样的设计短��精悍，完全满��3NF�Q�而且可以满��用户的所有要求。是不是�q�样��p��呢？�{�案是NO�Q�Why�Q?/p>
　　我们来估计一下用户希望如何罗列出�q�个表的数据的。对用户而言�Q�他当然期望按他所讑֮�的层�ơ关�p�M��ơ罗列出所有的�c�d��Q�例如这��P��
�ȝ��?br />　　�c�d��1
　　　　�c�d��1.1
　　　　　　�c�d��1.1.1
　　　　�c�d��1.2
　　�c�d��2
　　　　�c�d��2.1
　　�c�d��3
　　　　�c�d��3.1
　　　　�c�d��3.2
　　…�?/p>
　　看看��Z��实现�q�样的列表显�C?树的先序遍历)�Q�要对上面的表进行多��次��索？注意�Q�尽��类�?.1.1可能是在�c�d��3.2之后��d��的记录，�{�案仍然是N�ơ。这��L��效率对于��量的数据没什么媄响，但是日后�c�d��扩充到数十条甚至上百条记录后�Q�单单列一�ơ类型就要检索数十次该表�Q�整个程序的�q�行效率��׃��敢恭�l�了。或许第二类�E�序员会��_��那我再徏一个��时数�l�或临时表，专门保存�c�d��表的先序遍历�l�果�Q�这样只在第一�ơ运行时��索数十次�Q�再�ơ罗列所有的�c�d��关系时就直接读那个��时数�l�或临时表就行了。其实，用不着再去分配一块新的内存来保存�q�些数据�Q�只要对数据表进行一定的扩充�Q�再�Ҏ��加类型的数量�q�行一下约束就行了�Q�要完成上面的列表只需一�ơ检索就行了。下面是扩充后的数据表结构：
�c�d��表_2(Type_table_2)
名称　　　　　�c�d��　　　　�U�束条�g　　　                    说明
type_id   　 int     　无重复　　                   �c�d��标识�Q�主�?br />type_name　　 char(50)    不允��ؓ�I�                 �?�c�d��名称�Q�不允许重复
type_father   int         不允��ؓ�I�                 �?该类别的父类别标识，如果是顶节点的话讑֮�为某个唯一�?br />type_layer    char(6)     限定3�?初始��gؓ000000       �c�d��的先序遍历，主要为减��检索数据库的次�?/p>
　　按照�q�样的表�l�构�Q�我们来看看上面例子记录在表中的数据是怎样的：
type_id      type_name          type_father          type_layer
1             �ȝ��别             �?0                 000000
2             �c�d��1                1                 010000
3             �c�d��1.1              2                 010100
4             �c�d��1.2              2                 010200
5             �c�d��2                1                 020000
6             �c�d��2.1              5                 020100
7             �c�d��3                1                 030000
8             �c�d��3.1              7                 030100
9             �c�d��3.2              7                 030200
10            �c�d��1.1.1            3                 010101
…�?/p>
　　现在按type_layer的大��来��索一下：SELECT * FROM Type_table_2 ORDER BY type_layer
列出记录集如下：
type_id      type_name          type_father          type_layer
1             �ȝ��别             �?0                 000000
2             �c�d��1                1                 010000
3             �c�d��1.1              2                 010100
10            �c�d��1.1.1            3                 010101
4             �c�d��1.2              2                 010200
5             �c�d��2                1                 020000
6             �c�d��2.1              5                 020100
7             �c�d��3                1                 030000
8             �c�d��3.1              7                 030100
9             �c�d��3.2              7                 030200
…�?/p>
　　现在列出的记录顺序正好是先序遍历的结果。在控制昄��c�d��的层�ơ时�Q�只要对type_layer字段中的数��D��行判断，�?位一�l�，如大�?则向右移2个空根{��当�Ӟ��我这个例子中讑֮�的限制条件是最�?层，每层最多可�?9个子�c�d��Q�只要按用户的需求情况修改一下type_layer的长度和位数�Q�即可更攚w��制层数和子类别数。其实，上面的设计不单单只在�c�d��表中用到�Q�网上某些可按树型列表显�C�的论坛�E�序大多采用�c�M��的设计�?/p>
　　或许有�h认�ؓ�Q�Type_table_2中的type_father字段是冗余数据，可以除去。如果这��P��在插入、删除某个类别的时候，��得对type_layer 的内容进行比较繁琐的判定�Q�所以我�q�没有消去type_father字段�Q�这也正�W�合数据库设计中适当保留冗余数据的来降低�E�序复杂度的原则�Q�后面我会�D一个故意增加数据冗余的案例�?/p>
　　
　　二、商品信息表的设�?br />　　假设你是一家百货公司电脑部的开发�h员，某天老板要求你�ؓ公司开发一套网上电子商务��^収ͼ�该百货公司有数千�U�商品出售，不过目前仅打��先在网上销售数十种方便�q�输的商品，当然�Q�以后可能会陆箋在该电子商务�q�_��上增加新的商品出售。现在开始进行该�q�_��数据库的商品信息表的设计。每�U�出售的商品都会有相同的属性，如商品编��P��商品名称�Q�商品所属类别，相关信息�Q�供货厂商，内含件数�Q�库存，�q�货��P��销售�h�Q�优惠�h。你很快��p��计出4个表�Q�商品类型表(Wares_type)�Q�供货厂商表(Wares_provider)�Q�商品信息表(Wares_info)�Q?/p>
商品�c�d��?Wares_type)
名称　　　　　�c�d��　　　　�U�束条�g　　　                    说明
type_id   　 int    　   无重复　　                   �c�d��标识�Q�主�?br />type_name　　 char(50)    不允��ؓ�I�                 �?�c�d��名称�Q�不允许重复
type_father   int         不允��ؓ�I�                 �?该类别的父类别标识，如果是顶节点的话讑֮�为某个唯一�?br />type_layer    char(6)     限定3�?初始��gؓ000000       �c�d��的先序遍历，主要为减��检索数据库的次�?/p>
供货厂商�?Wares_provider)
名称　　　　　�c�d��　　　　�U�束条�g　　　                    说明
provider_id   int    　   无重复　　                   供货商标识，主键
provider_name char(100)   不允��ؓ�I�                 �?供货商名�U?/p>
商品信息�?Wares_info)
名称　　　　 �c�d��　　　　�U�束条�g　　　                    说明
wares_id       int    　无重复　　                     商品标识�Q�主�?br />wares_name     char(100) 不允��ؓ�I�                   �?商品名称
wares_type　　 int        不允��ؓ�I�　　　　　　　　　　商品�c�d��标识�Q�和Wares_type.type_id兌��
wares_info     char(200) 允许为空                       相关信息
provider       int        不允��ؓ�I�                   �?供货厂商标识�Q�和Wares_provider.provider_id兌��
setnum         int        初始��gؓ1                      内含件数�Q�默认�ؓ1
stock          int        初始��gؓ0                      库存�Q�默认�ؓ0
buy_price      money      不允��ؓ�I�                   �?�q�货�?br />sell_price     money      不允��ؓ�I�                   �?销售�h
discount       money      不允��ؓ�I�                   �?优惠�?/p>
　　你拿着�q?个表�l�老板��查，老板希望能够再添加一个商品图片的字段�Q�不�q�只有一部分商品有图片。OK�Q�你在商品信息表(Wares_info)中增加了一个haspic的BOOL型字�D�，然后再徏了一个新表——商品图片表(Wares_pic)�Q?/p>
商品囄��?Wares_pic)
名称　　　　 �c�d��　　　　�U�束条�g　　　                    说明
pic_id        int    　   无重复　　                     商品囄��标识�Q�主�?br />wares_id      int         不允��ؓ�I�                   �?所属商品标识，和Wares_info.wares_id兌��
pic_address　 char(200)   不允��ؓ�I�　　　　　　　　　　囄��存放路径
　　�E�序开发完成后�Q�完全满��板目前的要求，于是正式启用。一�D�|��间后�Q�老板打算在这套��^��C��推出新的商品销售，其中�Q�某�c�d��品全部都需��d��“长度”的属性。第一轮折腾来了……当�Ӟ��你按照添加商品图片表的老方法，在商品信息表(Wares_info)中增加了一个haslength的BOOL型字�D�，又徏了一个新表——商品长度表(Wares_length)�Q?/p>
商品长度�?Wares_length)
名称　　　　 �c�d��　　　　�U�束条�g　　　                    说明
length_id     int    　   无重复　　                     商品囄��标识�Q�主�?br />wares_id      int         不允��ؓ�I�                   �?所属商品标识，和Wares_info.wares_id兌��
length　      char(20)    不允��ؓ�I�　　　　　　　　　　商品长度说明
　　刚刚改完没多久，老板又打��上一�Ҏ��的商品，�q�次某类商品全部需要添加“宽度”的属性。你咬了咬牙�Q�又照方抓药�Q�添加了商品宽度�?Wares_width)。又�q�了一�D�|��_��老板��C��的商品中有一些需要添加“高度”的属性，你是不是开始觉得你所设计的数据库按照�q�种方式增长下去�Q�很快就能变成一个迷宫呢�Q�那么，有没有什么办法遏制这�U�不可预见性，但却�c�M��重复的数据库膨胀呢？我在阅读《敏捯��Y件开发：原则、模式与实践》中发现作者�D�q�类似的例子�Q?.3　“Copy”程序。其中，我非常赞同敏捯��Y件开发这个观点：在最初几乎不�q�行预先设计�Q�但是一旦需求发生变化，此时作�ؓ一名追求卓��的�E�序员，应该从头审查整个架构设计�Q�在此次修改中设计出能够满��日后�c�M��修改的系�l�架构。下面是我在需要添加“长度”的属性时所提供的修�Ҏ��案：
　　��L��商品信息�?Wares_info)中的haspic字段�Q�添加商品额外属性表(Wares_ex_property)和商品额外信息表(Wares_ex_info)2个表来完成添加新属性的功能�?/p>
商品额外属性表(Wares_ex_property)
名称　　　　 �c�d��　　　　�U�束条�g　　　                    说明
ex_pid        int    　   无重复　　                     商品额外属性标识，主键
p_name        char(20)    不允��ؓ�I�                   �?额外属性名�U?/p>
商品额外信息�?Wares_ex_info)
名称　　　　    �c�d��　　　　�U�束条�g　　　                    说明
ex_iid          int    　   无重复　　                     商品额外信息标识�Q�主�?br />wares_id        int         不允��ؓ�I�                   �?所属商品标识，和Wares_info.wares_id兌��
property_id　   int         不允��ؓ�I�　　　　　　　　　　商品额外属性标识，和Wares_ex_property.ex_pid兌��
property_value char(200)   不允��ؓ�I�                   �?商品额外属性�?/p>
　　在商品额外属性表(Wares_ex_property)中添�?条记录：
ex_pid            p_name
1                商品囄��
2                商品长度
　　再在整个电子商务�q�_��的后台管理功能中�q�加一��商品额外属性管理的功能�Q�以后添加新的商品时出现新的属性，只需利用该功能往商品额外属性表(Wares_ex_property)中添加一条记录即可。不要害怕变化，被第一颗子弹击中�ƈ不是坏事�Q�坏的是被相同轨道飞来的�W�二颗、第三颗子弹��M��。第一颗子�Ҏ��得越早，所受的伤越重，之后的抵抗力也越�?)
三、多用户及其权限��理的设�?br />　　开�?a >数据�?/font>��理�cȝ��软�g�Q�不可能不考虑多用户和用户权限讄��的问题。尽��目前市面上的大、中型的后台数据库系�l��Y仉��提供了多用户�Q�以及细��x��个数据库内某张表的权限设�|�的功能�Q�我个�h��Q�一套成熟的数据库管理��Y�Ӟ��q�是应该自行设计用户��理�q�块功能�Q�原因有二：
　　1.那些大、中型后台数据库�pȝ��软�g所提供的多用户及其权限讄��都是针对数据库的共有属性，�q�不一定能完全满��某些特例的需求；
　　2.不要�q�多的依赖后台数据库�pȝ��软�g的某些特�D�功能，多种大、中型后台数据库�pȝ��软�g之间�q�不完全兼容。否则一旦日后需要�{换数据库�q�_��或后台数据库�pȝ��软�g版本升��Q�之前的架构设计很可能无法重用�?/p>
　　下面看看如何自行设计一套比较灵�zȝ��多用��L��理模块，卌��数据库管理��Y件的�pȝ��理员可以自行添加新用户�Q�修改已有用��L��权限�Q�删除已有用戗��首先，分析用户需求，列出该数据库��理软�g所有需要实现的功能�Q�然后，�Ҏ��一定的联系对这些功能进行分�c�，��x��某类用户需使用的功能归��Z��c�；最后开始徏表：
　　
功能�?Function_table)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
f_id          int    　   无重复　　   功能标识�Q�主�?br />f_name        char(20)    不允��ؓ�I� �?功能名称�Q�不允许重复
f_desc        char(50)    允许为空     功能描述
用户�l�表(User_group)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
group_id      int         无重复      �?用户�l�标识，主键
group_name    char(20)    不允��ؓ�I�  �?用户�l�名�U?br />group_power   char(100)   不允��ؓ�I�  �?用户�l�权限表�Q�内容�ؓ功能表f_id的集�?/p>
用户�?User_table)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
user_id       int         无重复      �?用户标识�Q�主�?br />user_name     char(20)    无重复      �?用户�?br />user_pwd      char(20)    不允��ؓ�I�  �?用户密码
user_type     int         不允��ؓ�I�  �?所属用��L��标识�Q�和User_group.group_id兌��
　　采用�q�种用户�l�的架构设计�Q�当需要添加新用户�Ӟ��只需指定新用��h��属的用户�l�；当以后系�l�需要添加新功能或对旧有功能权限�q�行修改�Ӟ��只用操作功能表和用户�l�表的记录，原有用户的功能即可相应随之变化。当�Ӟ��q�种架构设计把数据库��理软�g的功能判定移��C��前台�Q��得前台开发相对复杂一些。但是，当用��h��较大(10��Z��?�Q�或日后软�g升��的概率较大时�Q�这个代��h��值得的�?/p>

　　四、简�z�的扚w��m:n设计
　　��到m:n的关�p�，一般都是徏�?个表�Q�m一个，n一个，m:n一个。但是，m:n有时会遇到批量处理的情况�Q�例如到图书馆借书�Q�一般都是允许用户同时借阅n本书�Q�如果要求按�Ҏ��询借阅记录�Q�即列出某个用户某次借阅的所有书�c�，该如何设计呢�Q�让我们建好必须�?个表先：
书籍�?Book_table)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
book_id       int         无重复      �?书籍标识�Q�主�?br />book_no       char(20)    无重复      �?书籍�~�号
book_name     char(100)   不允��ؓ�I�  �?书籍名称
…�?/p>
借阅用户�?Renter_table)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
renter_id     int         无重复      �?用户标识�Q�主�?br />renter_name   char(20)    不允��ؓ�I�  �?用户姓名
…�?/p>
借阅记录�?Rent_log)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
rent_id       int         无重复      �?借阅记录标识�Q�主�?br />r_id          int         不允��ؓ�I�  �?用户标识�Q�和Renter_table.renter_id兌��
b_id          int         不允��ؓ�I�  �?书籍标识�Q�和Book_table.book_id兌��
rent_date     datetime    不允��ؓ�I�  �?借阅旉��
…�?/p>
　　��Z��实现按批查询借阅记录�Q�我们可以再��Z��个表来保存批量借阅的信息，例如�Q?/p>
扚w��借阅�?Batch_rent)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
batch_id      int         无重复      �?扚w��借阅标识�Q�主�?br />batch_no      int         不允��ؓ�I�  �?扚w��借阅�~�号�Q�同一批借阅的batch_no相同
rent_id       int         不允��ؓ�I�  �?借阅记录标识�Q�和Rent_log.rent_id兌��
batch_date    datetime    不允��ؓ�I�  �?扚w��借阅旉��
　　�q�样的设计好吗？我们来看看�ؓ了列出某个用��h��ơ借阅的所有书�c�，需要如何查询？首先��索批量借阅�?Batch_rent)�Q�把�W�合条�g的的所有记录的rent_id字段的数据保存�v来，再用�q�些数据作�ؓ查询条�g带入到借阅记录�?Rent_log)中去查询。那么，有没有什么办法改�q�呢�Q�下面给��Z��U�简�z�的扚w��设计�Ҏ��Q�不需��d��新表�Q�只需修改一下借阅记录�?Rent_log)卛_��。修改后的记录表(Rent_log)如下�Q?/p>
借阅记录�?Rent_log)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
rent_id       int         无重复      �?借阅记录标识�Q�主�?br />r_id          int         不允��ؓ�I�  �?用户标识�Q�和Renter_table.renter_id兌��
b_id          int         不允��ؓ�I�  �?书籍标识�Q�和Book_table.book_id兌��
batch_no      int         不允��ؓ�I�  �?扚w��借阅�~�号�Q�同一批借阅的batch_no相同
rent_date     datetime    不允��ؓ�I�  �?借阅旉��
…�?/p>
　　其中�Q�同一�ơ借阅的batch_no和该批第一条入库的rent_id相同。�D例：假设当前最大rent_id�?4�Q�接着某用户一�ơ借阅�?本书�Q�则扚w��插入�?条借阅记录的batch_no都是65。之后另外一个用��L��了一套碟�Q�再插入出租记录的rent_id�?8。采用这�U�设计，查询扚w��借阅的信息时�Q�只需使用一条标准T_SQL的嵌套查询即可。当�Ӟ��q�种设计不符�?NF�Q�但是和上面标准�?NF设计比�v来，哪一�U�更好呢�Q�答案就不用我说了吧�?/p>

　　五、冗余数据的取舍
　　上篇的“树型关�pȝ��数据表”中保留了一个冗余字�D�，�q�里的例子更�q�一步——添加了一个冗余表。先看看例子�Q�我原先所在的公司��Z��解决员工的工作餐�Q�和附近的一家小��馆联系�Q�每天吃饭记账，费用按�h数��^摊，月底由公司现金结��，每个人每个月的工作餐费从工资中扣除。当�Ӟ��每天吃饭的�h员和人数都不是固定的�Q�而且�Q�由于每��工作餐的所点的菜色不同�Q�每��的��p��也不相同。例如，星期一中餐5��?0元，晚餐2��?0�Q�星期二中餐6��?6元，晚餐3��?8元。�ؓ了方便计��每个�h每个月的工作��费�Q�我写了一个简陋的��餐记�̎��理�E�序�Q�数据库里有3个表�Q?/p>
员工�?Clerk_table)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
clerk_id      int         无重复      �?员工标识�Q�主�?br />clerk_name    char(10)    不允��ؓ�I�  �?员工姓名
每餐总表(Eatdata1)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
totle_id      int         无重复      �?每餐总表标识�Q�主�?br />persons       char(100)   不允��ؓ�I�  �?��餐员工的员工标识集�?br />eat_date      datetime    不允��ؓ�I�  �?��餐日期
eat_type      char(1)     不允��ؓ�I�  �?��餐�c�d��Q�用来区分中、晚��?br />totle_price   money       不允��ؓ�I�  �?每餐总花�?br />persons_num   int         不允��ؓ�I�  �?��餐人数
��餐计费�l�表(Eatdata2)
名称　　　　　�c�d��　　　　�U�束条�g　　　说明
id            int         无重复      �?��餐计费�l�表标识�Q�主�?br />t_id          int         不允��ؓ�I�  �?每餐总表标识�Q�和Eatdata1.totle_id兌��
c_id          int         不允��ؓ�I�  �?员工标识标识�Q�和Clerk_table.clerk_id兌��
price         money       不允��ؓ�I�  �?每�h每餐��p��
　　其中�Q�就��计费细�?Eatdata2)的记录就是把每餐总表(Eatdata1)的一条记录按��餐员工�q�x��拆开�Q�是个不折不扣的冗余表。当�Ӟ��也可以把每餐总表(Eatdata1)的部分字�D�合�q�到��餐计费�l�表(Eatdata2)中，�q�样每餐总表(Eatdata1)��成了冗余表�Q�不�q�这��h��设计出来的就��计费细表重复数据更多，相比来说�q�是上面的方案好些。但是，��是��餐计费�l�表(Eatdata2)�q�个冗余表，在做每月每�h��费�l�计的时候，大大��化了�~�程的复杂度�Q�只用类��D��么一条查询语句即可统计出每�h每月的寄��次数和��费��d��Q?/p>
SELECT clerk_name AS personname,COUNT(c_id) as eattimes,SUM(price) AS ptprice FROM Eatdata2 JOIN Clerk_tabsle ON (c_id=clerk_id) JOIN eatdata1 ON (totleid=tid) WHERE eat_date>=CONVERT(datetime,'"&the_date&"') AND eat_date
　　惌��一下，如果不用�q�个冗余表，每次�l�计每�h每月的餐�Ҏ��d��时会多麻烦，�E�序效率也够呛。那么，到底什么时候可以增加一定的冗余数据呢？我认为有2个原则：
　　�Q�、用��L��整体需求。当用户更多的关注于�Q�对数据库的规范记录按一定的��法�q�行处理后，再列出的数据。如果该��法可以直接利用后台数据库系�l�的内嵌函数来完成，此时可以适当的增加冗余字�D�，甚至冗余表来保存�q�些�l�过��法处理后的数据。要知道�Q�对于大扚w��数据的查询，修改或删除，后台数据库系�l�的效率�q�远高于我们自己�~�写的代码�?br />　　�Q�、简化开发的复杂度。现代��Y件开发，实现同样的功能，�Ҏ��有很多。尽��不必要求程序员�_�N��绝大部分的开发工具和�q�_��Q�但是还是需要了解哪�U�方法搭配哪�U�开发工��L��E�序更简�z�，效率更高一些。冗余数据的本质��是用空间换旉��Q�尤其是目前��g的发展远�q�高于��Y�Ӟ��所以适当的冗余是可以接受的。不�q�我�q�是在最后再��一下：不要�q�多的依赖��^台和开发工��L��Ҏ��来��化开发，�q�个度要是没把握好的话，后期�l�护升��会栽大跟头的�?br />
from: http://www.knowsky.com/4937.html

weidagang2046 2006-09-29 17:39 发表评论

weidagang2046 — Fri, 29 Sep 2006 09:37:00 GMT
在这��文章的�W�二章中�Q�我们已�l�徏立了一个供我们使用的非常简单的�W�话数据库，�q�个库中只包括了一个名叫Jokes的数据表。这作�ؓ我们使用MySQL数据库的入门已经是��够了�Q�但是在关系型数据库的设计中�q�有很多其它的东�ѝ��在�q�一章中�Q�我们会�Ҏ��们的例子�q�行扩充�Q�学习一些有关MySQL的新知识�Q��ƈ试图理解�q�掌握关�p�d��数据库所能提供的功能�?br />
首先�Q�我们得说明我们对许多问题的解决只是不正规的�Q�也��是说非正式的）。正如你在许多计��机�U�学专业中了解的那样�Q�数据库设计是一个严肃的领域�Q�数据库设计必须包括对它的测试�ƈ会涉及到一些数学的原理。但�q�些可能是超�q�我们这��文章的范围了。要得到更多的信息，你可以停下来到http://www.datamodel.org/�ȝ��看，在那儿你可以看到许多好的书籍�Q��ƈ得到一些关于这个问题的有用的资源�?br />
�l�予应有的权�?/b>
在开始之前，让我们回忆一下我们的Jokes数据表的�l�构�Q�这个表包含三个列：ID、JokeText�?JokeDate。这些列可以使我们标识笑话（ID�Q�，明了他们的内容（JokeText�Q�以及他们被加入的时��_��JokeDate�Q��?br />
现在我们惌��保存我们的笑话中的其它一些信息：提交者的姓名。这看上��d��自然�Q�我们需要在我们的Jokes数据表中��d��一个新的列。SQL的ALTER命��o�Q�我们在之前没看到过�q�个命��o�Q�可以帮助我们完成这件事。��用mysql命��o行程序登录到MySQL服务器，选择你的数据库（如果你��用我们在�W�二章中的命名，数据库名应该是joke�Q�，然后输入下面的命令：
mysql> ALTER TABLE Jokes ADD COLUMN
-> AuthorName VARCHAR(100);

�q�将会在我们的数据表中增加一个叫AuthorName的列。其数据�c�d��是一个可变长度的字符�Ԍ��其最大长度是100个字�W�（�q�对于最复杂的名字应该也是��够了�Q�。让我们再添加一列用来保存作者的e-mail地址�Q?br />
mysql> ALTER TABLE Jokes ADD COLUMN
-> AuthorEMail VARCHAR(100);

要得到更多的有关ALTER命��o的信息，请参看MySQL参考手册。要��认我们是不是正��地��d��了两列，你可以要求MySQL为我们对�q�个表进行描�q�ͼ�

看上��d��不错。明昑֜��Q�我们需要对我们在第四章中徏立的��d��新笑话的HTML以及PHP格式的代码进行调��_��但是我们会把�q�留�l�你作�ؓ一个练习。��用UPDATE查询�Q�你现在可以对表中的所有笑话添加作者的详细资料。然而，在你开始接受这个数据结构之前，我们必须考虑一下我们在�q�儿选择的设计是否确当。在�q�种情况下，我们会发��C��些我们还没有做到的事情�?br />
一个基本的规则�Q�保持事物的分离
在你建立数据库驱动的�|�站的过�E�中�Q�你已经觉得仅仅是有一个笑话列表是不够的。事实上�Q�除了你自己的笑话以外，你开始接收其他�h提交的笑话。你军_��做一个让全世界�h都可以共享笑话的�|�站。你有没有听说过Internet电媄数据库（IMDB�Q�？实际上你现在做的是Internet�W�话数据库（IJDB�Q�！�Ҏ��一个笑话添加作者的姓名和e-mail地址肯定是最�Ҏ��惛_��的办法，但是�q�种�Ҏ��会导致一些潜在的问题�Q?br />
如果一个经常投�E�的名叫Joan Smith的�h改变了她的e-mail地址��会发生什么什么情况呢�Q�她会开始��用新地址来提交新的笑话，但是对于所有的旧笑话，你所能看到的�q�是旧的地址。从你的数据库来看，你也许只能认为有两�h名字都叫Joan Smith的�h在向你的数据库中提交�W�话。如果她是特别体贴的�Q�她也许会通知你改变地址�Q�你可以��所有的旧笑话改成新的地址�Q�但是如果你遗漏了一个，那就意味着你的数据库中存储了错误的信息。数据库设计专家��这�U�类型的问题�U�C��Z��个“更正异常”�?br />
很自然地你会惛_��从你的数据库中得到所有曾�l�向你的站点提交�q�笑话的人的列表。实际上�Q�你可以使用下面的查询很�Ҏ��地得到这��L��列表�Q?br />
mysql> SELECT DISTINCT AuthorName, AuthorEMail -> FROM Jokes;

上面查询中DISTINCT是告诉MySQL不输出重复的�l�果行。例如，如果Joan Smith向我们的站点提交�q?0个笑话，如果我们使用了DISTINCT选项�Q�她的名字和e-mail地址��会只在列表中出��C��ơ，否则会出�?0�ơ�?br />
如果因�ؓ某种原因�Q�你军_��要从数据库中删除某个特定的作者所提交的所有笑话，但是�Q�与此同�Ӟ��你将不能再通过e-mail与他们联�p�！而你的e-mail清单可能是你的网站的收入的主要来源，所以你�q�不惛_��因�ؓ你不喜欢他们提交的笑话，��删除他们的e-mail地址。数据库设计专家��这�U�C��为“删除异常”�?br />
你�ƈ不能保证不会出现�q�样的情况：Joan Smith输入的姓名一会儿是“Joan Smith”，一会儿是“J. Smith”，一会儿又是“Smith, Joan”。这��得你要确定一个特定的作者变得非常困难（特别是Joan Smith又经�怋�用几个不同的email地址的时候）�?br />
�q�些问题的解军_��实很��单。只要你不再��作者的信息存储到Jokes数据表中�Q�而是建立一个新的数据表来存储作者列表。因为我们在Jokes数据表中使用了一个叫ID的列来用一个数据标识每个笑话，所以我们在新的数据表中使用了同样名字的列来标识我们的作者。我们可以在我们的Jokes表中使用“author ID's”来建立�W�话和他的作者之间的兌��。全部的数据库设计应该是�q�样的：

上面的两个表包含了三个笑话和两个作者。Jokes表的AID列（“Author ID”的�~�写�Q�提供了两个表之间的兌��Q�指出Kevin Yank 提交了笑�?和笑�?�Q�Joan Smith提交了笑�?�Q�。在�q�里�Q�你�q�需要注意到每一个作者只会在数据库中出现一�ơ，而且他们是独立于他们提交的笑话而存在的�Q�因此我们已�l�解决了我们上面提出的那些问题�?br />
�q�个数据库设计的最重要的特征是�Q�因为我们要存储两种�c�d��的事物（�W�话和作者）�Q�所以我们设计两个表。这是我们在数据库设计中要遵守的一个基本规则：对于每一个要存储其信息的实体�Q�或事物�Q�，我们都应该给他一个自��q��表�?br />
重新生成上面的数据是非常��单的�Q�只要��用两个CREATE TABLE 查询��p��了）�Q�但是因为我们想要在做这些变动时不会有破坏性的效果�Q�也��是说不会丢失我们已�l�存入的�W�话�Q�，所以我们需要再�ơ��用ALTER命��o�?首先�Q�我们删除Jokes表中有关作者的列：
mysql> ALTER TABLE Jokes DROP COLUMN AuthorName;
Query OK, 0 rows affected (0.00 sec)
Records: 0 Duplicates: 0 Warnings: 0
mysql> ALTER TABLE Jokes DROP COLUMN AuthorEMail;
Query OK, 0 rows affected (0.00 sec)
Records: 0 Duplicates: 0 Warnings: 0

现在我们建立我们的新的数据表�Q?
mysql> CREATE TABLE Authors (
-> ID INT NOT NULL AUTO_INCREMENT PRIMARY KEY,
-> Name VARCHAR(100),
-> EMail VARCHAR(100)
-> );

最后，我们在我们的Jokes表中��d��AID列：
mysql> ALTER TABLE Jokes ADD COLUMN AID INT;
现在剩下来的��是向新的表中添加一些作者，�q��过填充AID列来�Ҏ��据库中已�l�存在的�W�话指定作者�?br />
处理多个�?/b>
现在我们的数据被分布在两个表当中�Q�要从其中获得数据看上去变得更加复杂了。例如，我们最初的目标是：昄��一个笑话的列表�q�在每一个笑话后面显�C�Z��者的姓名和e-mail地址。在我们的单表结构中�Q�要获得所有的信息�Q�只需要在我们的PHP代码中��用一个SELECT语句��p��了：
$jokelist = mysql_query(
"SELECT JokeText, AuthorName, AuthorEMail ".
"FROM Jokes");
while ($joke = mysql_fetch_array($jokelist)) {
$joketext = $joke["JokeText"];
$name = $joke["AuthorName"];
$email = $joke["AuthorEMail"]; // Display the joke with author information
echo( "
$joketext
" .
"(by �Q�HREF='mailto:$email'�Q?name)
" );
}

在我们的新系�l�中�Q�这样做初看��h��是不可能了。因为有��x��个笑话的作者的详细资料不是存储在Jokes表中�Q�我们可能想到的一个解��x��案是我们对于我们惌��昄��的笑话单独地获得�q�些资料。代码将是这��L��Q?br />
// Get the list of jokes
$jokelist = mysql_query(
"SELECT JokeText, AID FROM Jokes");
while ($joke = mysql_fetch_array($jokelist)) {
// Get the text and Author ID for the joke
$joketext = $joke["JokeText"];
$aid = $joke["AID"];
// Get the author details for the joke
$authordetails = mysql_query(
"SELECT Name, Email FROM Authors WHERE ID=$aid");
$author = mysql_fetch_array($authordetails);
$name = $author["Name"];
$email = $author["EMail"];
// Display the joke with author information
echo( "
$joketext
" .
"(by �Q�A HREF='mailto:$email'�Q?name)
" );
}

很�؜乱，而且对于每一个显�C�的�W�话都包含了一个对数据库的查询�Q�这��会我们的页面的昄��非常�~�慢。现在看来，“老方法”可能是更好的解��x��案，��管它有其自�w�的��q��?br />�q�运的是�Q�关�p�d��数据库可以很�Ҏ��地处理多个表中的数据�Q�在SELECT语句中��用一个新的被�U�C��为“join”的格式�Q�我们可以找��C��全其��的办法。连接可以��我们象对存储在单个表中的数据那样对待多个表中的关联数据。一个连接的格式应该是这��L��Q?br />
mysql> SELECT FROM
-> WHERE ;

在我们目前的情况下，我们所需要的列是Jokes表中的JokeText列以及Authors表中的Name列和Email列。Jokes表和Authors表的兌��条�g是Jokes表中的AID列的值等于Authors表中的ID列的倹{��下面是一个连接的例子�Q�前两个查询只是用来昄��我们的两个表中所包含的内容）�Q?br />
现在明白了吗�Q�第三个SELECT的结果就是一个连接，它将存储在两个表中的数据兌��数据昄��C��一个结果表中，��管我们的数据是存储在两个表中的�Q�我们仍然可以��用一个数据库查询��p��得我们的Web��面所需要的�W�话列表的全部信息�?br />
在这里，要注意一个问题，因�ؓ在两个表中都有一个叫ID的列�Q�所以我们在用到Authors表中的ID列时我们必须指定表名�Q�Authors.ID�Q�。如果我们没有指定表名，MySQL��无法知道我们指的是哪一个表中的ID�Q�这会导致这��L��一个错误：
mysql> SELECT LEFT(JokeText,20), Name, Email
-> FROM Jokes, Authors WHERE AID = ID;
ERROR 1052: Column: 'ID' in where clause is ambiguous

现在我们知道如何有效率地从我们的两个表中获取信息了，我们可以利用�q�接来重新编写我们的�W�话列表的程序：
$jokelist = mysql_query(
"SELECT JokeText, Name, EMail " .
"FROM Jokes, Authors WHERE AID=Authors.ID");
while ($joke = mysql_fetch_array($jokelist)) {
$joketext = $joke["JokeText"];
$name = $joke["Name"];
$email = $joke["EMail"];
// Display the joke with author information
echo( "
$joketext
" .
"(by �Q�A HREF='mailto:$email'�Q?name)
" );
}

随着你对数据库的使用�Q�你会越来越发现�q�接的功能有多大的意义。例如，下面的查询用来显�C�所有由Joan Smith写的�W�话�Q?br />
mysql> SELECT JokeText FROM Jokes, Authors WHERE
-> Name="Joan Smith" AND AID=Authors.ID;

上面的查询的输出�l�果仅仅来源于Jokes表，但是我们使用了一个连接来通过存储在Authors表中的值搜索笑话。在我们的这��文章中会有更多的这��L��_��y的查询，在实际应用中�Q�连接是�l�常会被使用的，而且在绝大多数的情况下，�q�会很大�E�度地简化我们的工作�Q?br />
��单的数据关系
对于�l�定的情�늚�最好的数据模型往往军_��于我们所工作的两�U�数据之间的关系�c�d��。我�q�篇文章中，我们��对典型的关�pȝ��型进行研�IӞ��q�学会如何在一个关�p�d��数据中用最好的�Ҏ��描述它�?br />
对于��单的一对一的关�p�，只要用一个表��p��够了。一对一关系的一个例子就是我们在前面已经看到的在�W�话数据库中的每一个作者的e-mail地址。因为对于每一个作者只有一个e-mail地址�Q�而且对于一个e-mail地址对应的也只有一个作者，��它们分��C��个数据库中是没有道理的�?br />
多对一的关�p�d��能会�E�微复杂一点，但是在之前其实我们也已经解决了这个问题，我们的数据库中的每一个笑话只会有一个作者，但是同一个作者可能写了很多笑话。笑话和作者之间的关系��是一个多对一的关�p�R��我们曾�l�有�q�一个初步的解决�Ҏ��Q�那��是��与�q�个�W�话兌��的作者的信息也促成在同一个数据库中。但是这样做�Q�对于同一个数据会有许多拷贝，�q�不仅会在同步上造成困难�Q�而且会浪费空间。将数据分开��C��个数据表中�ƈ使用一个ID列来�q�接两个表（象上面所说的那样使用�q�接�Q�，所有的问题会得到很好的解决�?br />
到目前�ؓ止，我们�q�没接触��C��对多的关�p�，但是惌��q�样的一个关�p�d��该是不困隄��。在我们之前建立的数据库中，我们假定一个作者只有一个e-mail地址。事实上情况�q�不��L��q�样的，作出�q�个限制的理由只是因为我们只需要一个e-mail地址来与作者联�p�R��我们简单地假设了作者��M��输入他们常用的e-mail地址�Q�或者至��是一个正�怋�用的e-mail地址。如果我们想要支持多个e-mail地址�Q�我们将面对一个一对多的关�p�（一个作者会有几个e-mail地址�Q�但是一个e-mail地址只会与一个确定的作者对应）�?br />
一个没有经验的数据库设计者面对一个一对多的关�p�L��Q�他首先会想到的是试图把多个数据存储��C��个数据库域中�Q�就象这��P��

�q�种�l�构在投入��用后�Q�要从数据库中获得一个单个的e-mail地址�Q�将不得不通过搜烦逗号�Q�或者你所选择的用来分隔的其他�W�号�Q�来分割字符�Ԍ��q�样做�ƈ不简单，而且会很耗时。设想一下如果要用PHP来删除某个作者的某个e-mail地址�Q�那也将会是很困隄��事。另外，对于EMail列我们需要很长的长度�Q�这会导致磁盘空间的��费�Q�因为大多数的作者都只会有一个e-mail地址�?br />
解决一对多的关�p�d��我们上面解决多对一的关�p�L��非常�c�M��的。实际上两者之前只是一个简单的颠倒。我们可��Authors表分成两个表�Q�Authors和EMails�Q�然后在EMails表中使用作者的ID�Q�AID�Q�这��L��一个列来实��C��个表之间的连接：

使用一个连接，昄��某个作者的所有E-mail地址��会是很��单的�Q?br />
多对多的关系
Ok�Q�现在你有了一个发布在你的�|�站上的�E�_��增长的笑话数据库。事实上�Q�这�U�增长是非常�q�速的�Q�笑话的数量会变得难以管理！你的讉K��者将面对一个庞大的��面�Q�在�q�个��面上杂乱地排列了数以百计的�W�话。现在，我们不得不考虑作一些变动了�?br />
你决定将你的�W�话攄��C��同的目录中，�q�些目录可能是“Knock-Knock�W�话”、“Crossing the Road�W�话”、“Lawyer�W�话”和“Political�W�话”。记住我们之前的处理规则�Q�因为我们的�W�话目录是一个不同类型的“事物”，所以我们要为它们徏立一个新的数据表�Q?br />
mysql> CREATE TABLE Categories (
-> ID INT NOT NULL AUTO_INCREMENT PRIMARY KEY,
-> Name VARCHAR(100),
-> Description TEXT
-> );
Query OK, 0 rows affected (0.00 sec)

对你的笑话定义其所属目录将会是一个困隄��d��。因��Z��个“political”笑话可能也是一个“crossing the road”笑话，同样�Q�一个“knock-knock”可能也是一个“lawyer”笑话。一个单个的�W�话可能属于许多目录�Q�每一个目录也会包含许多笑话。这是一个多对多的关�p�R�?br />
许多没有�l�验的设计者又会想到将几个数据存储��C��个列中，最直接的解��x��案是在Jokes表中增加Categories列，�q�在其中列�D�W�话所属的目录的ID。现在适用我们的第二个处理规则了：如果你需要在一个列中存储多个��|��那证明你的设计可能是有缺��L��?br />
描述一个多对多关系的正��方法是使用一个“lookup”表。这个表不包含�Q何实际的数据�Q�只是用来定义关联的事物。这儿是我们�q�部分的数据库设计的�C�意图：

JokeLookup 表将�W�话的ID�Q�JID�Q�的目录的ID�Q�CID�Q�进行了兌��。从上面的例子我们可以看出，以“How many lawyers...”开头的�W�话既属于“Lawyer”目录，又属于“Light Bulb”目录�?br />
建立lookup表的�Ҏ��和徏立其他表的方法基本一栗��不同点在于选择主键。我们之前所建立的每一个表都有一个名为ID的列�Q�这一列被我们定义为PRIMARY KEY。将一个列定义��Z��键意味着�q�一列不会出现重复倹{��而且可以加快��Z��q�一列的�q�接操作的速度�?

对于我们的lookup表来��_��没有一个单个的列可以保证不出现重复倹{��每一个笑话可以属于几个目录，所以一个joke ID可能会出现多�ơ；同样的，一个目录可能包含多个笑话，所以一个category ID也可能会出现多次。我们所要求的只是相同的数据对不应重复出现。因为我们这个表的唯一作用��是用来实现�q�接�Q�所以��用主键来提高�q�接操作的速度�Ҏ��们肯定有价倹{��所以，我们通常会�ؓlookup表徏立一个多列的主键�Q?br />
mysql> CREATE TABLE JokeLookup (
-> JID INT NOT NULL,
-> CID INT NOT NULL,
-> PRIMARY KEY(JID,CID)
-> );

现在我们的表中的JID和CID共同�l�成了这个表的主键。保持lookup表中数据的唯一性是有�h值的�Q�防止重复定义某一个笑话属于某一个目录）�Q�而且�q�会提高�q�个表用来连接时的速度�?br />使用我们的lookup表中包含的目录分配，我们可以使用�q�接来徏立几个有��而且非常实用的查询。下面的查询列出了“Knock-Knock”目录下的所有笑话：
mysql> SELECT JokeText
-> FROM Jokes, Categories, JokeLookup
-> WHERE Name="Knock-Knock" AND
-> CID=Categories.ID AND JID=Jokes.ID;

下面�q�个查询列�D了以“How many lawyers...”开头的�W�话所属的所有目录：
mysql> SELECT Categories.Name
-> FROM Jokes, Categories, JokeLookup
-> WHERE JokeText LIKE "How many lawyers%"
-> AND CID=Categories.ID AND JID=Jokes.ID;

下面的查询，同时使用了我们的Authors表�Ş成了一个四个表的连接（�Q�！�Q�）�Q�列举了写过 Knock-Knock�W�话的所有作者的名字�Q?br />
mysql> SELECT Authors.Name
-> FROM Jokes, Authors, Categories, JokeLookup
-> WHERE Categories.Name="Knock-Knock"
-> AND CID=Categories.ID AND JID=Jokes.ID
-> AND AID=Authors.ID;

�l�语
�q�一章中�Q�我们学习了正确的数据库设计的基本原则，以及MySQL�Q�实际上�Q�对其他关系型数据库同样适用�Q�如何对描述事�g之间的不同类型的关系提供支持。我们不仅仅探讨了一对一的关�p�，�q�详�l�讨��Z��多对一、一对多以及多对多的关系�?br />
在这一�q�程中，我们�q�学习了一些有关SQL命��o的新的东�ѝ��特别的�Q�我们学习了如何使用一个SELECT去连接多个表中的数据�q�将其反映到一个结果集中�?br />
在第六章中，我们��用我们已�l�获得的知识�Q��ƈ加上很少的一些新知识�Q�去用PHP构徏一个内容管理系�l�。我们希望这个系�l�可以提供一个可定制的、安全的、基于Web的界面来��理数据库的内容�Q�而不再是在MySQL命��o行中来解决问题�?br />
from: http://www0.ccidnet.com/tech/web/2001/12/03/92_3846.html

weidagang2046 2006-09-29 17:37 发表评论

SQL查询某类中的最高分

weidagang2046 — Tue, 15 Aug 2006 01:16:00 GMT
表className中有如下分类:
classID className
1              ��服
2            裤子
5            帽子
10            鞋子
表productInfo有如下记�?
productID             productName            parentID            clickNum

1                            男士衣服                      1                         90            --��服�c�d��中这条记录的点击率最�?br />2                            奛_��服                      1                         80
3                            男士裤子                      2                         70
4                            奛_��裤子                      2                         90            --裤子�c�d��中这条记录点�ȝ��最�?br />5                            男士帽子                      5                         15
6                            奛_��帽子                      5                        30            --帽子�c�d��中这条点�ȝ��最�?br />7                            男士鞋子                      10                       65            --鞋子�c�d��中这条点�ȝ��最�?br />8                            奛_��鞋子                      10                       52
9                            奛_��鞋子1                    10                       54
现在要求分别把衣�?裤子,帽子,鞋子�q�些�c�d��中点�ȝ��最高的一条记录找出来,然后再降序排�?�l�果应如�?
productID             productName            clickNum
1                           男士��服                     90
4                            奛_��裤子                      90
7                            男士鞋子                      65
6                            奛_��帽子                      30

select * from goods as g1 where

    not exists

    (select * from goods as g2 where
         g1.parentId = g2.parentId and g2.clickNum > g1.clickNum
    )


weidagang2046 2006-08-15 09:16 发表评论

weidagang2046 — Thu, 10 Aug 2006 14:33:00 GMT
　　一、适合读者对象：数据库开�?/font>�E�序员，数据库的数据量很多，涉及到对SP�Q?a class="bluekey" target="_blank">存储�q�程�Q�的优化的项目开发�h员，�Ҏ��据库有浓厚兴��的人�?　

　　二、介�l�：在数据库的开发过�E�中�Q�经�怼�遇到复杂的业务逻辑和对数据库的操作�Q�这个时候就会用SP来封装数据库操作。如果项目的SP较多�Q�书写又没有一定的规范�Q�将会媄响以后的�pȝ��l�护困难和大SP逻辑的难以理解，另外如果数据库的数据量大或者项目对SP的性能要求很，��׃��遇到优化的问题，否则速度有可能很慢，�l�过亲��n�l�验�Q�一个经�q�优化过的SP要比一个性能差的SP的效率甚至高几百倍�?　

　　三、内容：　

　　1、开发�h员如果用到其他库的Table或View�Q�务必在当前库中建立View来实现跨库操作，最好不要直接��用“databse.dbo.table_name”，因�ؓsp_depends不能昄��SP所使用的跨库table或view�Q�不方便校验。　　

　　2、开发�h员在提交SP前，必须已经使用set showplan on分析�q�查询计划，做过自��n的查询优化检查�?　

　　3�?a class="bluekey" target="_blank">高程序运行效率，优化应用�E�序�Q�在SP�~�写�q�程中应该注意以下几点：　　

　　a)SQL的��用规范：

　　　i.　��量避免大事务操作，慎用holdlock子句�Q�提高系�l��ƈ发能力�?

　　　ii.　��量避免反复讉K��同一张或几张表，��其是数据量较大的表�Q�可以考虑先根据条件提取数据到临时表中�Q�然后再做连接�?

　　　iii.　��量避免使用游标�Q�因为游标的效率较差�Q�如果游标操作的数据��过1万行�Q�那么就应该改写�Q�如果��用了游标�Q�就要尽量避免在游标循环中再�q�行表连接的操作�?

　　　iv.　注意where字句写法�Q�必��考虑语句��序�Q�应该根据烦引顺序、范围大��来��定条�g子句的前后顺序，��可能的�?a class="bluekey" target="_blank">字段��序与烦引顺序相一��_��范围从大到小�?

　　　v.　不要在where子句中的�?”左边进行函数、算术运��或其他表达式运��，否则�pȝ��可能无法正��用烦引�?

　　　vi.　��量使用exists代替select count(1)来判断是否存在记录，count函数只有在统计表中所有行数时使用�Q�而且count(1)比count(*)更有效率�?

　　　vii.　��量使用�?gt;=”，不要使用�?gt;”�?

　　　viii.　注意一些or子句和union子句之间的替�?

　　　ix.　注意表之间连接的数据�c�d��Q�避免不同类型数据之间的�q�接�?

　　　x.　注意存储�q�程中参数和数据�c�d��的关�p�R�?

　　　xi.　注意insert、update操作的数据量�Q�防止与其他应用冲突。如果数据量��过200个数据页面（400k�Q�，那么�pȝ��会�q�行锁升�U�，��锁会升��成表�U�锁�?　　

　　b)索引的��用规范：

　　　i.　索引的创��与应用结合考虑�Q�徏议大的OLTP表不要超�q?个烦引�?

　　　ii.　��可能的使用索引字段作�ؓ查询条�g�Q�尤其是聚簇索引�Q�必要时可以通过index index_name来强制指定烦�?

　　　iii.　避免对大表查询时�q�行table scan�Q�必要时考虑新徏索引�?

　　　iv.　在��用烦引字�D�作为条件时�Q�如果该索引是联合烦引，那么必须使用到该索引中的�W�一个字�D�作为条件时才能保证�pȝ��使用该烦引，否则该烦引将不会被��用�?

　　　v.　要注意烦引的�l�护�Q�周期性重建烦引，重新�~�译存储�q�程。　　

　　c)tempdb的��用规范：

　　　i.　��量避免使用distinct、order by、group by、having、join、cumpute�Q�因��些语句会加重tempdb的负担�?

　　　ii.　避免频繁创徏和删除��时表�Q�减��系�l�表资源的消耗�?

　　　iii.　在新��Z��时表�Ӟ��如果一�ơ性插入数据量很大�Q�那么可以��用select into代替create table�Q�避免log�Q�提高速度�Q�如果数据量不大�Q��ؓ了缓和系�l�表的资源，��先create table�Q�然后insert�?

　　　iv.　如果临时表的数据量较大，需要徏立烦引，那么应该��创��Z��时表和徏立烦引的�q�程攑֜�单独一个子存储�q�程中，�q�样才能保证�pȝ��能够很好的��用到该��时表的烦引�?

　　　 v.　如果使用��C��临时表，在存储过�E�的最后务必将所有的临时表显式删除，先truncate table�Q�然后drop table�Q�这样可以避免系�l�表的较长时间锁定�?

　　　 vi.　慎用大的临时表与其他大表的连接查询和修改�Q�减低系�l�表负担�Q�因��U�操作会在一条语句中多次使用tempdb的系�l�表。　　
　　d)合理的算法��用：　　

　　�Ҏ��上面已提到的SQL优化技术和ASE Tuning手册中的SQL优化内容,�l�合实际应用,采用多种��法�q�行比较,以获得消耗资源最��、效率最高的�Ҏ��。具体可用ASE调优命��o�Q�set statistics io on, set statistics time on , set showplan on �{��?br />
from: http://dev.yesky.com/251/2099251.shtml

weidagang2046 2006-08-10 22:33 发表评论

weidagang2046 — Thu, 10 Aug 2006 14:32:00 GMT
SQL Server中有几个可以让你��、调整和优化SQL Server性能的工兗��在本文中，我将说明如何用SQL Server的工��h��优化数据库烦引的使用�Q�本文还涉及到有关烦引的一般性知识�?br />
关于索引的常�?/strong>

影响到数据库性能的最大因素就是烦引。由于该问题的复杂性，我只可能��单的谈谈�q�个问题�Q�不�q�关于这斚w��的问题，目前有好几本不错的书�c�可供你参阅。我在这里只讨论两种SQL Server索引�Q�即clustered索引和nonclustered索引。当考察建立什么类型的索引�Ӟ��你应当考虑数据�c�d��和保存这些数据的column。同��P��你也必须考虑数据库可能用到的查询�c�d��以及使用的最为频�J�的查询�c�d��?/p>
索引的类�?/h5>
如果column保存了高度相关的数据�Q��ƈ且常常被��序讉K��Ӟ��最好��用clustered索引�Q�这是因为如果��用clustered索引�Q�SQL Server会在物理上按升序�Q�默认）或者降序重排数据列�Q�这样就可以�q�速的扑ֈ�被查询的数据。同��P��在搜��L��制在一定范围内的情况下�Q�对�q�些column也最好��用clustered索引。这是因为由于物理上重排数据�Q�每个表��g��只有一个clustered索引�?/p>
与上面情�늛�反，如果columns包含的数据相��x��较差，你可以��用nonculstered索引。你可以在一个表��g��使用高达249个nonclustered索引——尽��我惌��不出实际应用场合会用的上�q�么多烦引�?/p>
当表��g��用主关键字（primary keys�Q�，默认情况下SQL Server会自动对包含该关键字的column(s)建立一个独有的cluster索引。很昄��Q�对�q�些column(s)建立独有索引意味着��d��键字的唯一性。当建立外关键字�Q�foreign key�Q�关�p�L��Q�如果你打算频繁使用它，那么在外关键字cloumn上徏立nonclustered索引不失��Z��个好的方法。如果表格有clustered索引�Q�那么它用一个链表来�l�护数据��之间的关系。相反，如果表格没有clustered索引�Q�SQL Server��在一个堆栈中保存数据��c�?/p>
数据��?/h5>
当烦引徏立�v来的时候，SQLServer��徏立数据页�Q�datapage�Q�，数据��|��用以加速搜索的指针。当索引建立��h��的时候，其对应的填充因子也即被设�|�。设�|�填充因子的目的是�ؓ了指�C��索引中数据页的百分比。随着旉��的推�U�，数据库的更新会消耗掉已有的空闲空��_��q�就会导致页被拆分。页拆分的后果是降低了烦引的性能�Q�因而��用该索引的查询会��D��数据存储的支��ȝ��。当建立一个烦引时�Q�该索引的填充因子即被设�|�好了，因此填充因子不能动态维护�?/p>
��Z��更新数据��中的填充因子，我们可以停止旧有索引�q��建烦引，�q��新设�|�填充因子（注意�Q�这��媄响到当前数据库的�q�行�Q�在重要场合误��}慎��用）�?i>DBCC INDEXDEFRAG�?i>DBCC DBREINDEX是清除clustered和nonculstered索引��片的两个命令�?i>INDEXDEFRAG是一�U�在�U�操作（也就是说�Q�它不会��d��其它表格动作�Q�如查询�Q�，�?i>DBREINDEX则在物理上重建烦引。在�l�大多数情况下，重徏索引可以更好的消除碎片，但是�q�个优点是以��d��当前发生在该索引所在表��g��其它动作��Z��h��取来得。当出现较大的碎片烦引时�Q?i>INDEXDEFRAG会花上一�D�|��较长的时��_��q�是因�ؓ该命令的�q�行是基于小的交互块�Q�transactional block�Q��?/p>
填充因子
当你执行上述措施中的��M��一个，数据库引擎可以更有效的返回编入烦引的数据。关于填充因子（fillfactor�Q�话题已�l�超��Z��本文的范��_��不过我还是提醒你需要注意那些打��用填充因子徏立烦引的表格�?/p>
在执行查询时�Q�SQL Server动态选择使用哪个索引。�ؓ此，SQL Server�Ҏ��每个索引上分布在该关键字上的�l�计量来军_��使用哪个索引。值得注意的是�Q�经�q�日常的数据库活动（如插入、删除和更新表格�Q�，SQL Server用到的这些统计量可能已经“过期”了�Q�需要更新。你可以通过执行DBCC SHOWCONTIG来查看统计量的状态。当你认为统计量已经“过期”时�Q�你可以执行该表格的UPDATE STATISTICS命��o�Q�这样SQL Server��刷��C��关于该烦引的信息了�?/p>
建立数据库维护计�?/h5>
SQL Server提供了一�U�简化�ƈ自动�l�护数据库的工具。这个称之�ؓ数据库维护计划向��|��Database Maintenance Plan Wizard �Q�DMPW�Q�的工具也包括了对烦引的优化。如果你�q�行�q�个向导�Q�你会看到关于数据库中关于烦引的�l�计量，�q�些�l�计量作为日志工作�ƈ定时更新�Q�这样就减轻了手工重建烦引所带来的工作量。如果你不想自动定期��h��索引�l�计量，你还可以在DMPW中选择重新�l�织数据和数据页�Q�这��停止旧有烦引�ƈ按特定的填充因子重徏索引�?br />
from: http://www.zdnet.com.cn/developer/database/story/0,3800066906,39109102,00.htm

weidagang2046 2006-08-10 22:32 发表评论

“用��L��录失败。原因：未与信�Q SQL Server �q�接相关联”的解决�Ҏ��

weidagang2046 — Thu, 10 Aug 2006 11:49:00 GMT

建好SQL数据库，讄��好了用户名与密码�Q�连接也好了�Q�却出现了上�q�问题，原困是未讄��SQL SERVER��d��认证模式为�؜合认证模式，因�ؓSQL SERVER默认安装后认证模式�ؓWINDOWS认证模式�Q�从而导致出错�?/p>
解决�Ҏ��Q?/p>

启动SQLSERVER企业��理器，选择要进行认证模式设�|�的服务器。右击该服务器，在弹��单中选择属性，SQL SERVER��弹出属性对话框

2. 在属性对话框中选择安全性选项�Q�在�w�䆾验证处选择“SQL Server和Windows”，然后��定�?br />

from: http://www.lunji.com/faq/login_error.htm

weidagang2046 2006-08-10 19:49 发表评论

weidagang2046 — Thu, 10 Aug 2006 02:21:00 GMT
SQL Server 2000的安全配�|�在�q�行SQL Server 2000数据库的安全配置之前�Q�首先你必须�Ҏ��作系�l�进行安全配�|�，保证你的操作�pȝ��处于安全状态。然后对你要使用的操作数据库软�g�Q�程序）�q�行必要的安全审核，比如对ASP、PHP�{�脚本，�q�是很多��Z��数据库的WEB应用常出现的安全隐患�Q�对于脚本主要是一个过滤问题，需要过滤一些类�?, �?; @ / �{�字�W�，防止破坏者构造恶意的SQL语句。接着�Q�安装SQL Server2000后请打上补丁sp1以及最新的sp2�?br />
　　下蝲地址是：http://www.microsoft.com/sql/downloads/2000/sp1.asp　
�?http://www.microsoft.com/sql/downloads/2000/sp2.asp
在做完上面三步基��之后�Q�我们再来讨论SQL Server的安全配�|��?br />
　　1、��用安全的密码�{�略

　　我们把密码策略摆在所有安全配�|�的�W�一步，��h��意，很多数据库帐��L��密码�q�于��单，�q�跟�pȝ��密码�q�于��单是一个道理。对于sa更应该注意，同时不要让sa帐号的密码写于应用程序或者脚本中。健壮的密码是安全的�W�一步！SQL Server2000安装的时候，如果是��用�؜合模式，那么��需要输入sa的密码，除非你确认必��M��用空密码。这比以前的版本有所改进。同时养成定期修改密码的好习惯。数据库��理员应该定期查看是否有不符合密码要求的帐号�?br />
　　比如使用下面的SQL语句�Q?br />　　Use master
　　Select name,Password from syslogins where password is null

　　2、��用安全的帐号�{�略

　　�׃��SQL Server不能更改sa用户名称�Q�也不能删除�q�个��用户�Q�所以，我们必须对这个帐可��行最强的保护�Q�当�Ӟ��包括使用一个非常强壮的密码�Q�最好不要在数据库应用中使用sa帐号�Q�只有当没有其它�Ҏ��d��?SQL Server 实例�Q�例如，当其它系�l�管理员不可用或忘记了密码）时才使用 sa。徏议数据库��理员新建立个拥有与sa一��h��限的��用户来管理数据库。安全的帐号�{�略�q�包括不要让��理员权限的帐号泛滥�?br />
　　SQL Server的认证模式有Windows�w�䆾认证和�؜合��n份认证两�U�。如果数据库��理员不希望操作�pȝ��理员来通过操作�pȝ��登陆来接触数据库的话�Q�可以在帐号��理中把�pȝ��帐号“BUILTIN\Administrators”删除。不�q�这样做的结果是一旦sa帐号忘记密码的话�Q�就没有办法来恢复了。很多主��Z��用数据库应用只是用来做查询、修改等��单功能的�Q�请�Ҏ��实际需要分配帐��P��q�赋予仅仅能够满��_��用要求和需要的权限。比如，只要查询功能的，那么��׃��用一个简单的public帐号能够select��可以了�?br />
　　3、加强数据库日志的记�?/strong>

　　审核数据库登录事件的“失败和成功”，在实例属性中选择“安全性”，��其中的审核�U�别选定为全部，�q�样在数据库�pȝ��和操作系�l�日志里面，��p��l�记录了所有帐��L��d��事�g。请定期查看SQL Server日志��查是否有可疑的登录事件发生，或者��用DOS命��o。findstr /C:"��d��" d:\Microsoft SQL Server\MSSQL\LOG\*.*

　　4、管理扩展存储过�E?/strong>

　　对存储过�E�进行大手术�Q��ƈ且对帐号调用扩展存储�q�程的权限要慎重。其实在多数应用中根本用不到多少�pȝ��的存储过�E�，而SQL Server的这么多�pȝ��存储�q�程只是用来适应�q�大用户需求的�Q�所以请删除不必要的存储�q�程�Q�因为有些系�l�的存储�q�程能很�Ҏ��地被人利用�v来提升权限或�q�行破坏。如果你不需要扩展存储过�E�xp_cmdshell��h��它去掉。��用这个SQL语句�Q?
use master
sp_dropextendedproc 'xp_cmdshell'
xp_cmdshell是进入操作系�l�的最��x��径，是数据库留给操作�pȝ��的一个大后门。如果你需要这个存储过�E�，��L��q�个语句也可以恢复过来�?br />sp_addextendedproc 'xp_cmdshell', 'xpsql70.dll'
如果你不需要请丢弃OLE自动存储�q�程�Q�会造成��理器中的某些特征不能��用）�Q?br />�q�些�q�程包括如下�Q?
Sp_OACreate Sp_OADestroy Sp_OAGetErrorInfo Sp_OAGetProperty
Sp_OAMethod Sp_OASetProperty Sp_OAStop
��L��不需要的注册表访问的存储�q�程�Q�注册表存储�q�程甚至能够��d��操作�pȝ��理员的密码来，如下�Q?
Xp_regaddmultistring Xp_regdeletekey Xp_regdeletevalue
Xp_regenumvalues Xp_regread Xp_regremovemultistring
Xp_regwrite
�q�有一些其他的扩展存储�q�程�Q�你也最好检查检查。在处理存储�q�程的时候，��L��认一下，避免造成�Ҏ��据库或应用程序的伤害�?br />
　　5、��用协议加�?/strong>

　　SQL Server 2000使用的Tabular Data Stream协议来进行网�l�数据交换，如果不加密的话，所有的�|�络传输都是明文的，包括密码、数据库内容�{�等�Q�这是一个很大的安全威胁。能被�h在网�l�中截获��C��们需要的东西�Q�包括数据库帐号和密码。所以，在条件容许情况下�Q�最好��用SSL来加密协议，当然�Q�你需要一个证书来支持�?br />
　　6、不要让人随便探��到你的TCP/IP端口

　　默认情况下，SQL Server使用1433端口监听�Q�很多�h都说SQL Server配置的时候要把这个端口改变，�q�样别�h��׃��能很�Ҏ��地知道��用的什么端口了。可惜，通过微��Y未公开�?434端口的UDP探测可以很容易知道SQL Server使用的什么TCP/IP端口了。不�q�微软还是考虑��C��q�个问题�Q�毕竟公开而且开攄��端口会引起不必要的麻烦。在实例属性中选择TCP/IP协议的属性。选择隐藏 SQL Server 实例。如果隐藏了 SQL Server 实例�Q�则��禁止对试图枚�D�|�络上现有的 SQL Server 实例的客��L��所发出的广播作出响应。这��P��别�h��׃��能用1434来探��你的TCP/IP端口了（除非用Port Scan�Q��?br />
　　7、修改TCP/IP使用的端�?/strong>

　　请在上一步配�|�的基础上，更改原默认的1433端口。在实例属性中选择�|�络配置中的TCP/IP协议的属性，��TCP/IP使用的默认端口变为其他端�?

　　9、拒�l�来�?434端口的探��?br />
　　�׃��1434端口探测没有限制�Q�能够被别�h探测��C��些数据库信息�Q�而且�q�可能遭到DOS��d��让数据库服务器的CPU负荷增大�Q�所以对Windows 2000操作�pȝ��来说�Q�在IPSec�q��o拒绝�?434端口的UDP通讯�Q�可以尽可能地隐藏你的SQL Server�?br />
　　10、对�|�络�q�接�q�行IP限制

　　SQL Server 2000数据库系�l�本�w�没有提供网�l�连接的安全解决办法�Q�但是Windows 2000提供了这��L��安全机制。��用操作系�l�自��q��IPSec可以实现IP数据包的安全性。请对IP�q�接�q�行限制�Q�只保证自己的IP能够讉K��Q�也拒绝其他IP�q�行的端口连接，把来自网�l�上的安全威胁进行有效的控制。关于IPSec的��用请参看�Q?a >http://www.microsoft.com/china/technet/security/ipsecloc.asp

　　上面主要介绍的一些SQL Server的安全配�|�，�l�过以上的配�|�，可以让SQL Server本��n具备��_��的安全防范能力。当�Ӟ��更主要的�q�是要加强内部的安全控制和管理员的安全培训，而且安全性问题是一个长期的解决�q�程�Q�还需要以后进行更多的安全�l�护�?br />
from: http://vod.sjtu.edu.cn/help/Article_Show.asp?ArticleID=202

weidagang2046 2006-08-10 10:21 发表评论

weidagang2046 — Tue, 19 Apr 2005 05:39:00 GMT
�q�段旉��?PostgreSQL 的备份恢复进行了一些研�I? 有一些心得和大家分��n一�?

我们知道, PostgreSQL 拥有 WAL(预写式日�? 已经有一�D�|��间了.
WAL 的一个重要好处就是能在系�l�崩�?数据库崩溃甚��x��作系�l�崩�?的情况下,
仍然能够保证数据的安�? 理想情况下就是恢复到�pȝ��崩溃前一�ȝ��一致状�?

WAL 是如何实现这一点的�? �q�里��单探讨一�?

PostgreSQL 数据目录中包括一个子目录�?pg_xlog, �q�里包含一些很 "整齐" 的文�?BR>(文�g名全都是16�q�制的数, 大小都是16MB(默认情况�?).
�q�些文�g是联机重做日志文�? 也就是很�?PostgreSQL 文��中说�?XLog.
预写式日志就表现在对 XLog 操作�? 当一个事务要提交, 已被修改的数�?BR>必须先被写到(严格来说应该是追�?�?XLog �? 事务才能标识�?"已提�?.
�q�样, ��q��L��据文件在崩溃中已�l�包含不完整的数据了, 仍然可以通过下面
的方法恢复到一致状�?

1 扑ֈ�前一个一致的数据库状态点(�q�称为CheckPoint)
2 ��?XLog 以快�q�的方式重新施加��C��数据文�g�? 直到崩溃前的时刻.

从这个角度来��? PostgreSQL 已经做得非常好了, 但仍然有一些问�?
比如, 如果介质(��盘)发生故障, 整个数据库文�? 包括��L��据文件和日志
都不能读�? 又该怎么办呢?

目前, 我们只能定时通过 pg_dump �{�工��h��整个数据�?dump 下来, 或�?BR>关闭数据�? ��数据目录整个复制到另外的地�?
然后使用�q�样的备份来恢复�׃��质故障引��L��数据库灾�?
很显�? �q�不能满��x��们的要求, 通常, 我们都不可能以非帔R��
的频率进�?pg_dump. 一旦发生灾�? ��最多恢复到上一�ơ执�?pg_dump 的时��M��.

没有更好的办法了�?

如果我们能对数据库的做不间断的增量备�? 不就可以到达我们的目的了�?
�q�个��x��到是�? 可怎么捕捉�Ҏ��据文件做的修�?同时�q�不要忘��C��务的原子�??
�Ҏ��据文件的修改是分布于整个数据文�g各处�? 很难对它们进�?BR>所�? �q�个�Ҏ��是不现实�?

现实的方法还是要通过 WAL �pȝ��来实�? ��h��意前面我们已�l�讨��? �?XLog
的写实际上是�q�加. �q�一点��得要增量备䆾 XLog 成�ؓ可能.
目前, PostgreSQL ��Z��能限�?XLog 的大��? 采用了多个段(也就是多个文�?的方�?
循环利用��盘�I�间 -- 当写满前一�?XLog 文�g, ��׃�生一个新�? �q�且�?BR>文�g名代�?XLog 的编�? 同时, 如果可能, 删除�q�期�?XLog 文�g.
如果我们能在 PostgreSQL 删除�q�期�?XLog 之前��它们复制到另外一个磁盘甚臛_��?BR>计算�? 不就能够实现增量备䆾日志了吗?
当灾隑֏�生的时�? ��可以在一个完整备份的基础�? �q�箋施加备䆾�?XLog �q�行
redu, 直至恢复到最后一�ơ归�?复制到其他目录或计算�?的日�?

实际�? �q�种�Ҏ��也正�?Oracle 数据库的归��模式所采用的方�?

下面�q�个实验可以加深理解

1 初始化数据库目录

$ initdb -D db

2 创徏数据�?BR>
$ pg_ctl -D db start
$ createdb test
$ psql test
test=# create table t(a int);
test=# insert into t values(1);
test=# insert into t values(2);
test=# insert into t values(3);
test=# \q

3 全备份数据库: 在不关闭数据�?也就是说, 不要�q�行 pg_ctl -D db stop)
的情况下复制数据库目�? 注意, �q�里采用了一�U�非常规手段, 仅仅是�ؓ了实�?
不要在正式应用中使用. 目的是�ؓ了让��来的恢复能自动开�?

$ cp -a db db.backup

4 �l�箋修改数据�?BR>
$ psql test
test=# insert into t values(100);
test=# insert into t values(200);
test=# insert into t values(300);
test=# \q

5 备䆾日志(XLog)文�g (�׃��修改量很��? 实际上只有一个日志文�?

$ mkdir pg_xlog
$ cp db/pg_xlog/* pg_xlog

6 模拟��N��

$ pg_ctl -D db stop
$ rm -rf db # 可以不用真的删除, 只是认�ؓ它已�l�不存在�?BR>
7 �q�行��N��恢复

$ cp -a db.backup db.restore
$ cp -f pg_xlog/* db.restore/pg_xlog
$ postmaster -D db.restore # 没有�?pg_ctl 启动,
# ��Z��更清楚看到日�?此日志非彼日�?输出
LOG: database system was interrupted at 2004-04-15 18:12:47 CST
LOG: checkpoint record is at 0/9B1058
LOG: redo record is at 0/9B1058; undo record is at 0/0; shutdown TRUE
LOG: next transaction ID: 536; next OID: 17142
LOG: database system was not properly shut down; automatic recovery in progress
LOG: redo starts at 0/9B1098
LOG: record with zero length at 0/9D4458
LOG: redo done at 0/9D4434
LOG: database system is ready

$ psql test # 另外开一个控制台
test=# select * from t;
a
-----
1
2
3
100
200
300
(6 rows)

可见, 数据库已�l�已�l�恢复了��C��N��发生前的一�?

当然, �q�个实验数据量很��只产生�q�复制了一个日志文�? 而且复制的日志文�?BR>�q�是当前正在工作�? 和前面描�q�的不完全一�? 更深入的实验大家可以下来�?

实际的联机热备䆾(也叫PITR(Point In Time Recovery))�q�有很多�l�节, 不过
�ȝ��来说, PostgreSQL ��d��现联机热备䆾已经很近很近�? 也许下一个版本我们就能看�?BR>�q�个令�h兴奋的功能了. 我们热切地期待着!

她已�l��ؓ我们做了�q�么�? 我们能�ؓ她做点什么呢?

以上内容仅代表我自己的理�? 不正之处敬请指出.

kernel
2004.4.15

转自: http://bbs.pgsqldb.com/index.php?t=msg&th=3739&start=0

weidagang2046 2005-04-19 13:39 发表评论

在FAT32格式的Win2k下安装Postgresql

weidagang2046 — Tue, 19 Apr 2005 01:26:00 GMT
Postgresql在FAT32下的安装和NTFS下有所不同�Q�下面只讨论FAT32下Postgresql的安装：

(1) 到Postgresql的官方网�?A >http://www.postgresql.org/下蝲安装文�g�?BR>(2) �q�行安装�E�序�Q�本文假讑֮�装�\径选C:\pgsql�Q�data路径选D:\pgsql\data�Q�注意安装过�E�中不要选install as service�?BR>(3) ��C:\pgsql\bin加入PATH环境变量�?BR>(4) ��d��用户postgres�Q�本文假讑֯�码�ؓ1234�?BR>(5) 用postgres帐号初始化数据库集群。可以先注销当前用户再用postgres帐号登陆�Q�也可以用命令runas /user:postgres cmd切换到postgres帐号�Q�然后在命��o提示�W�下面输入：initdb -E UNICODE --locale=C -D d:\pgsql\data。注意：要先建立d:\pgsql\data目录�?BR>(6) 安装服务�Q�用Administrator帐号来做�Q��ƈ启动�Q�pg_ctl register -N PostgreSQL -U postgres -P 1234 -D d:\pgsql\data
(7) 用postgres帐号�q�行�Q�createuser -a Administrator为数据库��d��一个超�U�用��P��以后的操作都可以用Administrator帐号来完成，不必切换到postgres帐号�?/FONT>

weidagang2046 2005-04-19 09:26 发表评论

	Lucene全文索引引擎	数据�?/td>
索引	��数据源中的数据都通过全文索引一一建立反向索引	对于LIKE查询来说�Q�数据传�l�的索引是根本用不上的。数据需要逐个便利记录�q�行GREP式的模糊匚w��Q�比有烦引的搜烦速度要有多个数量�U�的下降�?/td>
匚w��效果	通过词元(term)�q�行匚w��Q�通过语言分析接口的实玎ͼ�可以实现对中文等非英语的支持�?/td>	使用�Q�like "%net%" 会把netherlands也匹配出来，多个关键词的模糊匚w��Q��用like "%com%net%"�Q�就不能匚w��词序颠倒的xxx.net..xxx.com
匚w��?/td>	有匹配度��法�Q�将匚w��E�度�Q�相似度�Q�比较高的结果排在前面�?/td>	没有匚w��E�度的控�Ӟ��比如有记录中net出现5词和出现1�ơ的�Q�结果是一��L��?/td>
�l�果输出	通过特别的算法，��最匚w��度最高的�?00条结果输出，�l�果集是�~�冲式的��批量读取的�?/td>	�q�回所有的�l�果集，在匹配条目非常多的时候（比如上万条）需要大量的内存存放�q�些临时�l�果集�?/td>
可定制�?/td>	通过不同的语�a�分析接口实现�Q�可以方便的定制出符合应用需要的索引规则�Q�包括对中文的支持）	没有接口或接口复杂，无法定制
�l�论	高负载的模糊查询应用�Q�需要负责的模糊查询的规则，索引的资料量比较�?/td>	使用率低�Q�模�p�匹配规则简单或者需要模�p�查询的资料量少

	Lucene	其他开源全文检索系�l?/td>
增量索引和批量烦�?/td>	可以�q�行增量的烦�?Append)�Q�可以对于大量数据进行批量烦引，�q�且接口设计用于优化扚w��索引和小扚w��的增量烦引�?/td>	很多�pȝ��只支持批量的索引�Q�有时数据源有一点增加也需要重建烦引�?/td>
数据�?/td>	Lucene没有定义具体的数据源�Q�而是一个文��的�l�构�Q�因此可以非常灵�zȝ��适应各种应用�Q�只要前端有合适的转换器把数据源�{换成相应�l�构�Q�，	很多�pȝ��只针对网��，�~�Z��其他格式文档的灵�z�L��?/td>
索引内容抓取	Lucene的文��是由多个字�D늻�成的�Q�甚臛_��以控刉��些字�D�需要进行烦引，那些字段不需要烦引，�q�一步烦引的字段也分为需要分词和不需要分词的�c�d��Q?br /> 需要进行分词的索引�Q�比如：标题�Q�文章内容字�D?br /> 不需要进行分词的索引�Q�比如：作�?日期字段	�~�Z��通用性，往往��文��整个烦引了
语言分析	通过语言分析器的不同扩展实现�Q?br />可以�q��o掉不需要的词：an the of �{�，西文语法分析�Q�将jumps jumped jumper都归�l�成jump�q�行索引/��?br />非英文支持：对亚�z�语�a��Q�阿拉伯语言的烦引支�?/td>	�~�Z��通用接口实现
查询分析	通过查询分析接口的实玎ͼ�可以定制自己的查询语法规则：比如�Q?多个关键词之间的 + - and or关系�{?/td>
�q�发讉K��	能够支持多用��L��使用

	自动切分	词表切分
实现	实现非常��?/td>	实现复杂
查询	增加了查询分析的复杂�E�度�Q?/td>	适于实现比较复杂的查询语法规�?/td>
存储效率	索引冗余大，索引几乎和原文一样大	索引效率高，为原文大��的30�Q�左�?/td>
�l�护成本	无词表维护成�?/td>	词表�l�护成本非常高：中日韩等语言需要分别维护�?br />�q�需要包括词频统计等内容
适用领域	嵌入式系�l�：�q�行环境资源有限分布式系�l�：无词表同步问�?br />多语�a�环境�Q�无词表�l�护成本	�Ҏ��询和存储效率要求高的专业搜烦引擎

org.apache.Lucene.search/	搜烦入口
org.apache.Lucene.index/	索引入口
org.apache.Lucene.analysis/	语言分析�?/td>
org.apache.Lucene.queryParser/	查询分析�?/td>
org.apache.Lucene.document/	存储�l�构
org.apache.Lucene.store/	底层IO/存储�l�构
org.apache.Lucene.util/	一些公用的数据�l�构

插入记录�?/td>	直连数据库程序耗时单位�Q�ms	使用�q�接接管�E�序耗时	性能比较
1000	2063	2250	9.0%
5000	8594	8359	-2.7%
10000	16750	17219	2.8%
15000	22187	23000	3.6%
20000	27031	27813	2.9%

av中文字幕在线,亚洲黄色精品,亚洲激情视频网

深入���出理解索引�l�构

提高查询速度�Ҏ���ȝ��

我怎样创徏一个序列号或是自动递增的字�D�？

SQL查询的分��|���\

存储�q�程从入门到熟练(多个存储�q�程完整实例及调用方�?

数据库烦引应�?ms-sql)

SQL查询某类中的最高分

填充因子

“用��L��录失败。原因：未与信�Q SQL Server �q�接相关联”的解决�Ҏ��

在FAT32格式的Win2k下安装Postgresql

深入��出理解索引�l�构

提高查询速度�Ҏ��ȝ��

SQL查询的分��|��\