欧美日韩伦理片,国产精品久久久久一区二区三区共,最新四虎影在线在永久观看www

关于Linux下的Inode

Lansing — Fri, 13 Jul 2007 01:54:00 GMT

关于inode�Q?

inode 译成中文��是索引节点。每个存储设备或存储讑֤�的分区（存储讑֤�是硬盘、��Y盘、U�?... ... �Q�被格式化�ؓ文�g�pȝ��后，应该有两部䆾�Q�一部䆾是inode�Q�另一部䆾是Block�Q�Block是用来存储数据用的。而inode呢，��是用来存储�q�些数据的信息，�q�些信息包括文�g大小、属丅R��归属的用户�l�、读写权限等。inode为每个文件进行信息烦引，所以就有了inode的数倹{��操作系�l�根据指令，能通过inode值最快的扑ֈ�相对应的文�g�?

做个比喻�Q�比如一本书�Q�存储设备或分区��q��当于�q�本书，Block相当于书中的每一��，inode ��q��当于�q�本书前面的目录�Q�一本书有很多的内容�Q�如果想查找某部份的内容�Q�我们可以先查目录，通过目录能最快的扑ֈ�我们惌��看的内容。虽然不太恰当，但还是比较�Ş象�?

当我们用ls 查看某个目录或文件时�Q�如果加�?i 参数�Q�就可以看到inode节点了；比如我们前面所说的例子�Q?

[root@localhost ~]# ls -li lsfile.sh
2408949 -rwxr-xr-x 1 root root 7 04-21 12:47 lsfile.sh

lsfile.sh 的inode值是 2408949 �Q?查看一个文件或目录的inode�Q�要通过ls 命��o的的 -i参数�?

2.10 inode 相同的文件是��链接文�Ӟ��

在Linux 文�g�pȝ��中，inode值相同的文�g是硬链接文�g�Q�也��是��_��不同的文件名�Q�inode可能是相同的�Q�一个inode值可以对应多个文件。理解链接文件�ƈ不难�Q�看看例子就会了。在Linux中，链接文�g是通过ln工具来创建的�?

2.11 创徏��链接，��链接和源文件关�p�；

用ln 创徏文�g��链接的语法�Q?

# ln 源文�?目标文�g

下面我们举一个例子，在这个例子中�Q�我们要为sun.txt 创徏其硬链接sun002.txt。然后看一下sun.txt和sun002.txt的属性的变化�Q?

[root@localhost ~]# ls -li sun.txt 注：查看sun.txt的属性；
2408263 -rw-r--r-- 1 root root 29 04-22 21:02 sun.txt 注：�q�是sun.txt的属性；
[root@localhost ~]# ln sun.txt sun002.txt 注：我们通过ln 来创建sun.txt的硬链接文�gsun002.txt
[root@localhost ~]# ls -li sun* 注：我们列一下sun.txt 和sun002.txt
2408263 -rw-r--r-- 2 root root 29 04-22 21:02 sun002.txt
2408263 -rw-r--r-- 2 root root 29 04-22 21:02 sun.txt

我们可以看到sun.txt在没有创建硬链接文�gsun002.txt的时候，光��接个数是1�Q�也��是-rw-r--r--后的那个数��|��Q�创��Z��链接sun002.txt创徏后，�q�个值变成了2。也��是��_��我们每次为sun.txt创徏一个新的硬链接文�g后，其硬链接个数都会增加1�?

inode值相同的文�g�Q�他们的关系是互为硬链接的关�p�R��当我们修改其中一个文件的内容�Ӟ��互�ؓ��链接的文�g的内容也会跟着变化。如果我们删除互为硬链接关系的某个文件时�Q�其它的文�g�q�不受媄响。比如我们把sun.txt删除后，我们�q�是一栯��看到sun002.txt的内容，�q�且sun02.txt仍是存在的�?

可以�q�么理解�Q�互为硬链接关系的文�Ӟ��他们好象是克隆体�Q�他们的属性几乎是完全一��P��

下面的例子，我们把sun.txt删除�Q�然后我们看一下sun002.txt 是不是能看到其内宏V�?

[root@localhost ~]# rm -rf sun.txt
[root@localhost ~]# more sun002.txt

注意�Q�硬链接不能为目录创建，只有文�g才能创徏��链接�?

2.12 软链接的创徏�Q�及软接与源文�g的关�p�；

创徏软链接（也被�U�Cؓ�W�号链接�Q�的语法�Q?

# ln -s 源文文�g或目�?目标文�g或目�?

软链接也叫符号链接，他和��链接有所不同�Q��Y链接文�g只是其源文�g的一个标记。当我们删除了源文�g后，链接文�g不能独立存在�Q�虽然仍保留文�g名，但我们却不能查看软链接文件的内容了�?

[root@localhost ~]# ls -li linuxsir001.txt
2408274 -rw-r--r-- 1 root root 29 04-22 21:53 linuxsir001.txt
[root@localhost ~]# ln -s linuxsir001.txt linuxsir002.txt
[root@localhost ~]# ls -li linuxsir001.txt linuxsir002.txt
2408274 -rw-r--r-- 1 root root 29 04-22 21:53 linuxsir001.txt
2408795 lrwxrwxrwx 1 root root 15 04-22 21:54 linuxsir002.txt -> linuxsir001.txt

解释

上面的例子，首先我们查看 linuxsir001.txt 的属性，比如inode 、所属文件种�c�R��创建或修改旉��{?.. ...我们来对比一下：

首先 �Ҏ��一下节点：两个文�g的节点不同；
其次两个文�g的归属的�U�类不同 linuxsir001.txt�?�Q�也��是普通文�Ӟ��而linuxsir002.txt 是l�Q�它是一个链接文�Ӟ��
�W�三两个文�g的读写权限不�?linuxsir001.txt 是rw-r--r-- �Q�而linuxsir002.txt的读写权限是 rwxrwxrwx
�W�三两者的��链接个数相同；都是1
�W�四两文件的属主和所归属的用��L��相同�Q?
�W�五修改(或访问、创建）旉��不同�Q?

我们�q�注意到了linuxsir002.txt 后面有一个标�?->�Q�这表示linuxsir002.txt 是linuxsir001.txt的��Y链接文�g�?

值得我们注意的是�Q�当我们修改链接文�g的内�Ҏ��Q�就意味着我们在修�Ҏ��文�g的内宏V��当然源文�g的属性也会发生改变，链接文�g的属性�ƈ不会发生变化。当我们把源文�g删除后，链接文�g只存在一个文件名�Q�因为失��M��源文�Ӟ��所以��Y链接文�g也就不存在了。这一点和��链接是不同的；

[root@localhost ~]# rm -rf linuxsir001.txt 注：删除linuxsir001.txt
[root@localhost ~]# ls -li linuxsir002.txt 注：查看linuxsir002 的属性；
2408795 lrwxrwxrwx 1 root root 15 04-22 21:54 linuxsir002.txt -> linuxsir001.txt
[root@localhost ~]# more linuxsir002.txt 注：查看linuxsir002.txt的内容；
linuxsir002.txt: 没有那个文�g或目�?注：得到提示�Q�linuxsir002.txt不存在�?

上面的例子告诉我们，如果一个链接文件失��M��源，��意味着他已�l�不存在了；

我们可以看到软链接文�Ӟ��其实只是源文件的一个标讎ͼ�当源文�g失去�Ӟ��他也��是存在了。��Y链接文�g只是占用了inode来存储��Y链接文�g属性等信息�Q�但文�g存储是指向源文�g的�?

软�g链接�Q�可以�ؓ文�g或目录都适用。无论是软链接还是硬链接�Q�都可以用rm来删除。rm工具是通用的�?/ca>
参考资料：http://techcenter.dicder.com/2006/0908/content_185.htm

Lansing 2007-07-13 09:54 发表评论

��Z��Java的全文烦�?��索引擎——Lucene

Lansing — Thu, 17 Aug 2006 01:08:00 GMT

��Z��Java的全文烦�?��索引擎——Lucene

Lucene不是一个完整的全文索引应用�Q�而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各�U�应用中实现针对应用的全文烦�?��索功能�?/p>

Lucene的作者：Lucene的�A献�?a >Doug Cutting是一位资深全文烦�?��索专�Ӟ��曄��是V-Twin搜烦引擎(Apple的Copland操作�pȝ��的成��׃��一)的主要开发者，后在Excite担�Q高��pȝ��架构设计师，目前从事于一些INTERNET底层架构的研�I�。他贡献出的Lucene的目标是为各�U�中��型应用�E�序加入全文��索功能�?/p>

Lucene的发展历�E�：早先发布在作者自��q��www.lucene.com�Q�后来发布在SourceForge�Q?001�q�年底成为APACHE基金会jakarta的一个子��目�Q?a >http://jakarta.apache.org/lucene/

已经有很多Java��目都��用了Lucene作�ؓ其后台的全文索引引擎�Q�比较著名的有：

J ive�Q�WEB论坛�pȝ��Q?
Eyebrows�Q�邮件列表HTML归档/��览/查询�pȝ��Q�本文的主要参考文档�?a >TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows�pȝ��的主要开发者之一�Q�而EyeBrows已经成�ؓ目前APACHE��目的主要邮件列表归档系�l��?
Cocoon:��Z��XML的web发布框架�Q�全文检索部分��用了Lucene
Eclipse:��Z��Java的开攑ּ�发��^収ͼ�帮助部分的全文烦引��用了Lucene

对于中文用户来说�Q�最兛_��的问题是其是否支持中文的全文��索。但通过后面对于Lucene的结构的介绍�Q�你会了解到�׃��Lucene良好架构设计�Q�对中文的支持只需对其语言词法分析接口�q�行扩展��p��实现对中文检索的支持�?/p>

全文��索的实现机制

Lucene的API接口设计的比较通用�Q�输入输出结构都很像数据库的�?=>记录==>字段�Q�所以很多传�l�的应用的文件、数据库�{�都可以比较方便的映��到Lucene的存储结�?接口中。��M��上看�Q�可以先�?b>Lucene当成一个支持全文烦引的数据库系�l?/b>�?/p>

比较一下Lucene和数据库�Q?/p>

Lucene	数据�?/td>
索引数据源：doc(field1,field2...) doc(field1,field2...) \ indexer / _____________ \| Lucene Index\| -------------- / searcher \ �l�果输出�Q�Hits(doc(field1,field2) doc(field1...))	索引数据源：record(field1,field2...) record(field1..) \ SQL: insert/ _____________ \| DB Index \| ------------- / SQL: select \ �l�果输出�Q�results(record(field1,field2..) record(field1...))
Document�Q�一个需要进行烦引的“单元�?br />一个Document由多个字�D늻��?/td>	Record�Q�记录，包含多个字段
Field�Q�字�D?/td>	Field�Q�字�D?/td>
Hits�Q�查询结果集�Q�由匚w��的Document�l�成	RecordSet�Q�查询结果集�Q�由多个Record�l�成

全文��?�?like "%keyword%"

通常比较厚的书籍后面常常附关键词索引表（比如�Q�北京：12, 34��，上�v�Q?,77��……）�Q�它能够帮助读者比较快地找到相兛_��容的��늠�。而数据库索引能够大大提高查询的速度原理也是一��P��惛_��一下通过书后面的索引查找的速度要比一��一��地��d��定w��多少倍……而烦引之所以效率高�Q�另外一个原因是它是排好序的�?b>对于��索系�l�来说核心是一个排序问�?/b>�?/p>

�׃��数据库烦引不是�ؓ全文索引设计的，因此�Q?b>使用like "%keyword%"�Ӟ��数据库烦引是不�v作用�?/b>�Q�在使用like查询�Ӟ��搜烦�q�程又变成类��g��一��页��M��的遍历过�E�了�Q�所以对于含有模�p�查询的数据库服务来��_��LIKE�Ҏ��能的危��x��极大的。如果是需要对多个关键词进行模�p�匹配：like"%keyword1%" and like "%keyword2%" ...其效率也��可惌��知了�?/p>

所以徏立一个高效检索系�l�的关键是徏立一个类��g��U�技索引一��L��反向索引机制�Q�将数据源（比如多篇文章�Q�排序顺序存储的同时�Q�有另外一个排好序的关键词列表�Q�用于存储关键词==>文章映射关系�Q�利用这��L��映射关系索引�Q�[关键�?=>出现关键词的文章�~�号�Q�出现次敎ͼ�甚至包括位置�Q��v始偏�U�量�Q�结束偏�U�量�Q�，出现频率]�Q�检索过�E�就是把模糊查询变成多个可以利用索引的精��查询的逻辑�l�合的过�E?/b>。从而大大提高了多关键词查询的效率，所以，全文��索问题归�l�到最后是一个排序问题�?/p>

由此可以看出模糊查询相对数据库的�_��查询是一个非�怸��定的问题，�q�也是大部分数据库对全文��索支持有限的原因。Lucene最核心的特征是通过�Ҏ��的烦引结构实��C��传统数据库不擅长的全文烦引机�Ӟ��q�提供了扩展接口�Q�以方便针对不同应用的定制�?/p>

可以通过一下表格对比一下数据库的模�p�查询：

　 Lucene全文索引引擎数据�?/td>

索引 ��数据源中的数据都通过全文索引一一建立反向索引对于LIKE查询来说�Q�数据传�l�的索引是根本用不上的。数据需要逐个便利记录�q�行GREP式的模糊匚w��Q�比有烦引的搜烦速度要有多个数量�U�的下降�?/td>

匚w��效果通过词元(term)�q�行匚w��Q�通过语言分析接口的实玎ͼ�可以实现对中文等非英语的支持�?/td> 使用�Q�like "%net%" 会把netherlands也匹配出来，
多个关键词的模糊匚w��Q��用like "%com%net%"�Q�就不能匚w��词序颠倒的xxx.net..xxx.com

匚w��?/td> 有匹配度��法�Q�将匚w��E�度�Q�相似度�Q�比较高的结果排在前面�?/td> 没有匚w��E�度的控�Ӟ��比如有记录中net出现5词和出现1�ơ的�Q�结果是一��L��?/td>

�l�果输出通过特别的算法，��最匚w��度最高的�?00条结果输出，�l�果集是�~�冲式的��批量读取的�?/td> �q�回所有的�l�果集，在匹配条目非常多的时候（比如上万条）需要大量的内存存放�q�些临时�l�果集�?/td>

可定制�?/td> 通过不同的语�a�分析接口实现�Q�可以方便的定制出符合应用需要的索引规则�Q�包括对中文的支持）没有接口或接口复杂，无法定制

�l�论高负载的模糊查询应用�Q�需要负责的模糊查询的规则，索引的资料量比较�?/td> 使用率低�Q�模�p�匹配规则简单或者需要模�p�查询的资料量少

全文��索和数据库应用最大的不同在于�Q�让最相关�?/span> �?00条结果满��?8%以上用户的需�?br />
Lucene的创��C��处：

大部分的搜烦�Q�数据库�Q�引擎都是用B树结构来�l�护索引�Q�烦引的更新会导致大量的IO操作�Q�Lucene在实��C��Q�对此稍微有所改进�Q�不是维护一个烦引文�Ӟ��而是在扩展烦引的时候不断创建新的烦引文�Ӟ��然后定期的把�q�些新的��烦引文件合�q�到原先的大索引中（针对不同的更新策略，�Ҏ��的大��可以调��_��Q�这样在不媄响检索的效率的前提下�Q�提高了索引的效率�?/p>
Lucene和其他一些全文检索系�l?应用的比较：

　 Lucene 其他开源全文检索系�l?/td>

增量索引和批量烦�?/td> 可以�q�行增量的烦�?Append)�Q�可以对于大量数据进行批量烦引，�q�且接口设计用于优化扚w��索引和小扚w��的增量烦引�?/td> 很多�pȝ��只支持批量的索引�Q�有时数据源有一点增加也需要重建烦引�?/td>

数据�?/td> Lucene没有定义具体的数据源�Q�而是一个文档的�l�构�Q�因此可以非常灵�zȝ��适应各种应用�Q�只要前端有合适的转换器把数据源�{换成相应�l�构�Q�，很多�pȝ��只针对网��，�~�Z��其他格式文档的灵�z�L��?/td>

索引内容抓取 Lucene的文档是由多个字�D늻�成的�Q�甚臛_��以控刉��些字�D�需要进行烦引，那些字段不需要烦引，�q�一步烦引的字段也分为需要分词和不需要分词的�c�d��Q?br /> 需要进行分词的索引�Q�比如：标题�Q�文章内容字�D?br /> 不需要进行分词的索引�Q�比如：作�?日期字段 �~�Z��通用性，往往��文档整个烦引了

语言分析通过语言分析器的不同扩展实现�Q?br />可以�q��o掉不需要的词：an the of �{�，
西文语法分析�Q�将jumps jumped jumper都归�l�成jump�q�行索引/��?br />非英文支持：对亚�z�语�a��Q�阿拉伯语言的烦引支�?/td> �~�Z��通用接口实现

查询分析通过查询分析接口的实玎ͼ�可以定制自己的查询语法规则：
比如�Q?多个关键词之间的 + - and or关系�{?/td> 　

�q�发讉K�� 能够支持多用��L��使用　

　

关于亚洲语言的的切分词问�?Word Segment)

对于中文来说�Q�全文烦引首先还要解决一个语�a�分析的问题，对于英文来说�Q�语句中单词之间是天焉��过�I�格分开的，但亚�z�语�a�的中日韩文语句中的字是一个字挨一个，所有，首先要把语句中按“词”进行烦引的话，�q�个词如何切分出来就是一个很大的问题�?/p>
首先�Q�肯定不能用单个字符�?si-gram)为烦引单元，否则查“上��”时�Q�不能让含有“�v上”也匚w��?/p>
但一句话�Q�“北京天安门”，计算机如何按照中文的语言习惯�q�行切分呢？
“北�?天安门�?�q�是“北 �?天安门”？让计��机能够按照语言习惯�q�行切分�Q�往往需要机器有一个比较丰富的词库才能够比较准��的识别��句中的单词�?/p>
另外一个解决的办法是采用自动切分算法：��单词按�?元语�?bigram)方式切分出来�Q�比如：
"北京天安�? ==> "北京京天天安安门"�?/p>
�q�样�Q�在查询的时候，无论是查�?北京" �q�是查询"天安�?�Q�将查询词组按同��L��规则�q�行切分�Q?北京"�Q?天安安门"�Q�多个关键词之间按与"and"的关�pȝ��合，同样能够正确地映��到相应的烦引中。这�U�方式对于其他亚�z�语�a��Q�韩文，日文都是通用的�?/p>
��Z��自动切分的最大优�Ҏ��没有词表�l�护成本�Q�实现简单，�~�点是烦引效率低�Q�但对于中小型应用来��_��Z��2元语法的切分�q�是够用的。基�?元切分后的烦引一般大��和源文件差不多�Q�而对于英文，索引文�g一般只有原文�g�?0%-40%不同�Q?/p>

自动切分词表切分

实现实现非常��?/td> 实现复杂

查询增加了查询分析的复杂�E�度�Q?/td> 适于实现比较复杂的查询语法规�?/td>

存储效率索引冗余大，索引几乎和原文一样大索引效率高，为原文大��的30�Q�左�?/td>

�l�护成本无词表维护成�?/td> 词表�l�护成本非常高：中日韩等语言需要分别维护�?br />�q�需要包括词频统计等内容

适用领域嵌入式系�l�：�q�行环境资源有限
分布式系�l�：无词表同步问�?br />多语�a�环境�Q�无词表�l�护成本 �Ҏ��询和存储效率要求高的专业搜烦引擎

目前比较大的搜烦引擎的语�a�分析��法一般是��Z��以上2个机制的�l�合。关于中文的语言分析��法�Q�大家可以在Google查关键词"wordsegment search"能找到更多相关的资料�?/p>
安装和��?/b>

下蝲�Q?a >http://jakarta.apache.org/lucene/

注意�Q�Lucene中的一些比较复杂的词法分析是用JavaCC生成的（JavaCC�Q�JavaCompilerCompiler�Q�纯Java的词法分析生成器�Q�，所以如果从源代码编译或需要修改其中的QueryParser、定制自��q��词法分析器，�q�需要从https://javacc.dev.java.net/下蝲javacc�?/p>
lucene的组成结构：对于外部应用来说索引模块(index)和检索模�?search)是主要的外部应用入口

org.apache.Lucene.search/ 搜烦入口

org.apache.Lucene.index/ 索引入口

org.apache.Lucene.analysis/ 语言分析�?/td>

org.apache.Lucene.queryParser/ 查询分析�?/td>

org.apache.Lucene.document/ 存储�l�构

org.apache.Lucene.store/ 底层IO/存储�l�构

org.apache.Lucene.util/ 一些公用的数据�l�构

��单的例子演示一下Lucene的��用方法：
索引�q�程�Q�从命��o行读取文件名�Q�多个）�Q�将文�g分�\�?path字段)和内�?body字段)2个字�D�进行存储，�q�对内容�q�行全文索引�Q�烦引的单位是Document对象�Q�每个Document对象包含多个字段Field对象�Q�针对不同的字段属性和数据输出的需求，对字�D�还可以选择不同的烦�?存储字段规则�Q�列表如下：
�Ҏ�� 切词索引存储用�?/th>
Field.Text(String name, String value) Yes Yes Yes 切分词烦引�ƈ存储�Q�比如：标题�Q�内容字�D?/td>
Field.Text(String name, Reader value) Yes Yes No 切分词烦引不存储�Q�比如：META信息�Q?br />不用于返回显�C�，但需要进行检索内�?/td>
Field.Keyword(String name, String value) No Yes Yes 不切分烦引�ƈ存储�Q�比如：日期字段
Field.UnIndexed(String name, String value) No No Yes 不烦引，只存储，比如�Q�文件�\�?/td>
Field.UnStored(String name, String value) Yes Yes No 只全文烦引，不存�?/td>
public class IndexFiles {
//使用�Ҏ��Q? IndexFiles [索引输出目录] [索引的文件列表] ...
public static void main(String[] args) throws Exception {
String indexPath = args[0];
IndexWriter writer;
//用指定的语言分析器构造一个新的写索引器（�W?个参数表�C�是否�ؓ�q�加索引�Q?br /> writer = new IndexWriter(indexPath, new SimpleAnalyzer(), false);

for (int i=1; i System.out.println("Indexing file " + args[i]);
InputStream is = new FileInputStream(args[i]);

//构造包�?个字�D�Field的Document对象
//一个是路径path字段�Q�不索引�Q�只存储
//一个是内容body字段�Q�进行全文烦引，�q�存�?br /> Document doc = new Document();
doc.add(Field.UnIndexed("path", args[i]));
doc.add(Field.Text("body", (Reader) new InputStreamReader(is)));
//��文档写入烦�?br /> writer.addDocument(doc);
is.close();
};
//关闭写烦引器
writer.close();
}
}
　
索引�q�程中可以看刎ͼ�
语言分析器提供了抽象的接口，因此语言分析(Analyser)是可以定制的�Q�虽然lucene�~�省提供�?个比较通用的分析器SimpleAnalyser和StandardAnalyser�Q�这2个分析器�~�省都不支持中文�Q�所以要加入对中文语�a�的切分规则，需要修改这2个分析器�?
Lucene�q�没有规定数据源的格式，而只提供了一个通用的结构（Document对象�Q�来接受索引的输入，因此输入的数据源可以是：数据库，WORD文档�Q�PDF文档�Q�HTML文档……只要能够设计相应的解析转换器将数据源构造成成Docuement对象卛_��q�行索引�?
对于大批量的数据索引�Q�还可以通过调整IndexerWrite的文件合�q��率属性（mergeFactor�Q�来提高扚w��索引的效率�?
��索过�E�和�l�果昄��Q?/p>
搜烦�l�果�q�回的是Hits对象�Q�可以通过它再讉K��Document==>Field中的内容�?/p>
假设�Ҏ��body字段�q�行全文��索，可以��查询结果的path字段和相应查询的匚w��?score)打印出来�Q?/p>
public class Search {
public static void main(String[] args) throws Exception {
String indexPath = args[0], queryString = args[1];
//指向索引目录的搜索器
Searcher searcher = new IndexSearcher(indexPath);
//查询解析器：使用和烦引同��L��语言分析�?br /> Query query = QueryParser.parse(queryString, "body",
new SimpleAnalyzer());
//搜烦�l�果使用Hits存储
Hits hits = searcher.search(query);
//通过hits可以讉K��到相应字�D늚�数据和查询的匚w��?br /> for (int i=0; i System.out.println(hits.doc(i).get("path") + "; Score: " +
hits.score(i));
};
}
}
在整个检索过�E�中�Q�语�a�分析器，查询分析器，甚至搜烦器（Searcher�Q�都是提供了抽象的接口，可以�Ҏ��需要进行定制�?
Hacking Lucene
��化的查询分析�?/b>
个�h感觉lucene成�ؓJAKARTA��目后，��d��了太多的旉��用于调试日趋复杂QueryParser�Q�而其中大部分是大多数用户�q�不很熟悉的�Q�目前LUCENE支持的语法：
Query ::= ( Clause )*
Clause ::= ["+", "-"] [ ":"] ( | "(" Query ")")
中间的逻辑包括�Q�and or + - &&||�{�符��P��而且�q�有"短语查询"和针对西文的前缀/模糊查询�{�，个�h感觉对于一般应用来��_��q�些功能有一些华而不实，其实能够实现目前�c�M��于Google的查询语句分析功能其实对于大多数用户来说已经够了。所以，Lucene早期版本的QueryParser仍是比较好的选择�?/p>
��d��修改删除指定记录�Q�Document�Q?/b>
Lucene提供了烦引的扩展机制�Q�因此烦引的动态扩展应该是没有问题的，而指定记录的修改也似乎只能通过记录的删除，然后重新加入实现。如何删除指定的记录呢？删除的方法也很简单，只是需要在索引时根据数据源中的记录ID专门另徏索引�Q�然后利用IndexReader.delete(Termterm)�Ҏ��通过�q�个记录ID删除相应的Document�?/p>
�Ҏ��某个字段值的排序功能
lucene�~�省是按照自��q��相关度算法（score�Q�进行结果排序的�Q�但能够�Ҏ��其他字段�q�行�l�果排序是一个在LUCENE的开发邮件列表中�l�常提到的问题，很多原先��Z��数据库应用都需要除了基于匹配度�Q�score�Q�以外的排序功能。而从全文��索的原理我们可以了解刎ͼ��M��不基于烦引的搜烦�q�程效率都会��D��效率非常的低�Q�如果基于其他字�D늚�排序需要在搜烦�q�程中访问存储字�D�，速度回大大降低，因此非常是不可取的�?/p>
但这里也有一个折中的解决�Ҏ��Q�在搜烦�q�程中能够媄响排序结果的只有索引中已�l�存储的docID和score�q?个参敎ͼ�所以，��Z��score以外的排序，其实可以通过��数据源预先排好序，然后�Ҏ��docID�q�行排序来实现。这样就避免了在LUCENE搜烦�l�果外对�l�果再次�q�行排序和在搜烦�q�程中访问不在烦引中的某个字�D�倹{�?/p>
�q�里需要修改的是IndexSearcher中的HitCollector�q�程�Q?/p>
...
　scorer.score(new HitCollector() {
private float minScore = 0.0f;
public final void collect(int doc, float score) {
if (score > 0.0f && // ignore zeroed buckets
(bits==null || bits.get(doc))) { // skip docs not in bits
totalHits[0]++;
if (score >= minScore) {
/* 原先�Q�Lucene��docID和相应的匚w��度score例入�l�果命中列表中：
* hq.put(new ScoreDoc(doc, score)); // update hit queue
* 如果用doc �?1/doc 代替 score�Q�就实现了根据docID��排或逆排
* 假设数据源烦引时已经按照某个字段排好了序�Q�而结果根据docID排序也就实现�?br /> * 针对某个字段的排序，甚至可以实现更复杂的score和docID的拟合�?br /> */
hq.put(new ScoreDoc(doc, (float) 1/doc ));
if (hq.size() > nDocs) { // if hit queue overfull
hq.pop(); // remove lowest in hit queue
minScore = ((ScoreDoc)hq.top()).score; // reset minScore
}
}
}
}
}, reader.maxDoc());
更通用的输入输出接�?/b>
虽然lucene没有定义一个确定的输入文档格式�Q�但��来��多的�h惛_��使用一个标准的中间格式作�ؓLucene的数据导入接口，然后其他数据�Q�比如PDF只需要通过解析器�{换成标准的中间格式就可以�q�行数据索引了。这个中间格式主要以XML��Z��Q�类似实现已�l�不�?�Q?个：
数据�? WORD PDF HTML DB other
\ | | | /
XML中间格式
|
Lucene INDEX
目前�q�没有针对MSWord文档的解析器�Q�因为Word文档和基于ASCII的RTF文档不同�Q�需要��用COM对象机制解析。这个是我在Google上查的相兌��料：http://www.intrinsyc.com/products/enterprise_applications.asp
另外一个办法就是把Word文档转换成text�Q?a >http://www.winfield.demon.nl/index.html

索引�q�程优化
索引一般分2�U�情况，一�U�是��批量的索引扩展�Q�一�U�是大批量的索引重徏。在索引�q�程中，�q�不是每�ơ新的DOC加入�q�去索引都重新进行一�ơ烦引文件的写入操作�Q�文件I/O是一仉��常消耗资源的事情�Q��?/p>
Lucene先在内存中进行烦引操作，�q�根据一定的扚w��q�行文�g的写入。这个批�ơ的间隔��大�Q�文件的写入�ơ数��少�Q�但占用内存会很多。反之占用内存少�Q�但文�gIO操作频繁�Q�烦引速度会很慢。在IndexWriter中有一个MERGE_FACTOR参数可以帮助你在构造烦引器后根据应用环境的情况充分利用内存减少文�g的操作。根据我的��用经验：�~�省Indexer是每20条记录烦引后写入一�ơ，每将MERGE_FACTOR增加50倍，索引速度可以提高1倍左叟�?br />
搜烦�q�程优化
lucene支持内存索引�Q�这��L��搜烦比基于文件的I/O有数量��的速度提升�?br />http://www.onjava.com/lpt/a/3273
而尽可能减少IndexSearcher的创建和�Ҏ��索结果的前台的缓存也是必要的�?br />
Lucene面向全文��索的优化在于首次索引��索后�Q��ƈ不把所有的记录�Q�Document�Q�具体内容读取出来，而�v只将所有结果中匚w��度最高的�?00条结果（TopDocs�Q�的ID攑ֈ��l�果集缓存中�q�返回，�q�里可以比较一下数据库��索：如果是一�?0,000条的数据库检索结果集�Q�数据库是一定要把所有记录内定w��取得以后再开始返回给应用�l�果集的。所以即使检索匹配��L��很多�Q�Lucene的结果集占用的内存空间也不会很多。对于一般的模糊��索应用是用不到这么多的结果的�Q�头100条已�l�可以满��?0%以上的检索需求�?br />
如果首批�~�存�l�果数用完后�q�要��d��更后面的�l�果时Searcher会再�ơ检索�ƈ生成一个上�ơ的搜烦�~�存数大1倍的�~�存�Q��ƈ再重新向后抓取。所以如果构造一个Searcher��L��1�Q?20条结果，Searcher其实是进行了2�ơ搜索过�E�：�?00条取完后�Q�缓存结果用完，Searcher重新��索再构造一�?00条的�l�果�~�存�Q�依此类推，400条缓存，800条缓存。由于每�ơSearcher对象消失后，�q�些�~�存也访问那不到了，你有可能惛_��l�果记录�~�存下来�Q�缓存数��量保证�?00以下以充分利用首�ơ的�l�果�~�存�Q�不让Lucene��费多次��索，而且可以分��q�行�l�果�~�存�?br />
Lucene的另外一个特�Ҏ��在收集结果的�q�程中将匚w��度低的结果自动过滤掉了。这也是和数据库应用需要将搜烦的结果全部返回不同之处�?/p>
我的一些尝�?/a>�Q?/p>
支持中文的Tokenizer�Q�这里有2个版本，一个是通过JavaCC生成的，对CJK部分按一个字�W�一个TOKEN索引�Q�另外一个是从SimpleTokenizer改写的，对英文支持数字和字母TOKEN�Q�对中文按�P代烦引�?
��Z��XML数据源的索引器：XMLIndexer�Q�因此所有数据源只要能够按照DTD转换成指定的XML�Q�就可以用XMLIndxer�q�行索引了�?
�Ҏ��某个字段排序�Q�按记录索引��序排序�l�果的搜索器�Q�IndexOrderSearcher�Q�因此如果需要让搜烦�l�果�Ҏ��某个字段排序�Q�可以让数据源先按某个字�D�|��好序�Q�比如：PriceField�Q�，�q�样索引后，然后在利用这个按记录的ID��序��索的搜烦器，�l�果��是相当于是那个字段排序的结果了�?
从Lucene学到更多
Luene的确是一个面对对象设计的典范
所有的问题都通过一个额外抽象层来方便以后的扩展和重用：你可以通过重新实现来达到自��q��目的�Q�而对其他模块而不需要；
��单的应用入口Searcher, Indexer�Q��ƈ调用底层一�p�d��l��g协同的完成搜索�Q务；
所有的对象的�Q务都非常专一�Q�比如搜索过�E�：QueryParser分析��查询语句�{换成一�p�d��的精��查询的�l�合(Query),通过底层的烦引读取结构IndexReader�q�行索引的读取，�q�用相应的打分器�l�搜索结果进行打�?排序�{�。所有的功能模块原子化程度非帔R��Q�因此可以通过重新实现而不需要修改其他模块。�?
除了灉|��的应用接口设计，Lucene�q�提供了一些适合大多数应用的语言分析器实玎ͼ�SimpleAnalyser,StandardAnalyser�Q�，�q�也是新用户能够很快上手的重要原因之一�?
�q�些优点都是非常值得在以后的开发中学习借鉴的。作��Z��个通用工具包，Lunece的确�l�予了需要将全文��索功能嵌入到应用中的开发者很多的便利�?/p>
此外�Q�通过对Lucene的学习和使用�Q�我也更深刻地理解了��Z��么很多数据库优化设计中要求，比如�Q?/p>
��可能对字段�q�行索引来提高查询速度�Q�但�q�多的烦引会�Ҏ��据库表的更新操作变慢�Q�而对�l�果�q�多的排序条�Ӟ��实际上往往也是性能的杀手之一�?
很多商业数据库对大批量的数据插入操作会提供一些优化参敎ͼ��q�个作用和烦引器的merge_factor的作用是�c�M��的，
20%/80%原则�Q�查的结果多�q�不�{�于质量好，��其对于�q�回�l�果集很大，如何优化�q�头几十条结果的质量往往才是最重要的�?
��可能让应用从数据库中获得比较小的结果集�Q�因为即使对于大型数据库�Q�对�l�果集的随机讉K��也是一个非常消耗资源的操作�?br />
参考资料：
Apache: Lucene Project
http://jakarta.apache.org/lucene/
Lucene开�?用户邮�g列表归档
Lucene-dev@jakarta.apache.org
Lucene-user@jakarta.apache.org
The Lucene search engine: Powerful, flexible, and free
http://www.javaworld.com/javaworld/jw-09-2000/jw-0915-Lucene_p.html
Lucene Tutorial
http://www.darksleep.com/puff/lucene/lucene.html
Notes on distributed searching with Lucene
http://home.clara.net/markharwood/lucene/
中文语言的切分词
http://www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment
搜烦引擎工具介绍
http://searchtools.com/
Lucene作者Cutting的几��论文和专利
http://lucene.sourceforge.net/publications.html
Lucene�?NET实现�Q�dotLucene
http://sourceforge.net/projects/dotlucene/
Lucene作者Cutting的另外一个项目：��Z��Java的搜索引擎Nutch
http://www.nutch.org/ http://sourceforge.net/projects/nutch/
关于��Z��词表和N-Gram的切分词比较
http://china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html

2005-01-08 Cutting在Pisa大学做的关于Lucene的讲座：非常详细的Lucene架构解说

Lansing 2006-08-17 09:08 发表评论

�Ҏ��	切词	索引	存储	用�?/th>
Field.Text(String name, String value)	Yes	Yes	Yes	切分词烦引�ƈ存储�Q�比如：标题�Q�内容字�D?/td>
Field.Text(String name, Reader value)	Yes	Yes	No	切分词烦引不存储�Q�比如：META信息�Q?br />不用于返回显�C�，但需要进行检索内�?/td>
Field.Keyword(String name, String value)	No	Yes	Yes	不切分烦引�ƈ存储�Q�比如：日期字段
Field.UnIndexed(String name, String value)	No	No	Yes	不烦引，只存储，比如�Q�文件�\�?/td>
Field.UnStored(String name, String value)	Yes	Yes	No	只全文烦引，不存�?/td>

Lansing — Fri, 11 Aug 2006 02:25:00 GMT

        定义�Q?br />          ��常用的或很复杂的工作，预先用SQL语句写好�q�用一个指定的名称存储��h��,   那么以后要叫数据库提供与已定义好的存储过�E�的功能相同的服务时,只需调用execute,卛_��自动完成命��o�?br />        讲到�q�里,可能有�h要问�Q�这么说存储�q�程��是一堆SQL语句而已啊？
          Microsoft公司��Z��么还要添加这个技术呢?
        那么存储�q�程与一般的SQL语句有什么区别呢?
        存储�q�程的优点：
          1.存储�q�程只在创造时�q�行�~�译�Q�以后每�ơ执行存储过�E�都不需再重新编译，而一般SQL语句每执行一�ơ就�~�译一��?所以��用存储过�E�可提高数据库执行速度�?br />          2.当对数据库进行复杂操作时(如对多个表进行Update,Insert,Query,Delete�Ӟ��Q�可��此复杂操作用存储过�E�封装�v来与数据库提供的事务处理�l�合一起��用�?br />          3.存储�q�程可以重复使用,可减��数据库开发�h员的工作�?br />          4.安全性高,可设定只有某此用��h��h��Ҏ��定存储过�E�的使用�?br />        存储�q�程的种�c�：
          1.�pȝ��存储�q�程�Q�以sp_开�?用来�q�行�pȝ��的各��设�?取得信息.相关��理工作,
          如 �?sp_help��是取得指定对象的相关信�?br />          2.扩展存储�q�程   以XP_开�?用来调用操作�pȝ��提供的功�?br />          exec   master..xp_cmdshell   'ping   10.8.16.1'
          3.用户自定义的存储�q�程,�q�是我们所指的存储�q�程
          常用格式
          Create   procedure   procedue_name
          [@parameter   data_type][output]
          [with]{recompile|encryption}
          as
          sql_statement
        解释:
        output�Q�表�C�此参数是可传回�?br />        with   {recompile|encryption}
        recompile:表示每次执行此存储过�E�时都重新编译一��?br />        encryption:所创徏的存储过�E�的内容会被加密
        �?
          表book的内容如�?br />          �~�号   书名   ��h��
          001   C语言入门   $30
          002   PowerBuilder报表开发 �?$52
          实例1:查询表Book的内容的存储�q�程
          create   proc   query_book
          as
          select   *   from   book
          go
          exec   query_book
          实例2:加入一�W�记录到表book,�q�查询此表中所有书�c�的总金�?br />          Create   proc   insert_book
          @param1   char(10),@param2   varchar(20),@param3   money,@param4   money   output
          with   encryption   ---------加密
          as
          insert   book(�~�号,书名�Q��h��|��   Values(@param1,@param2,@param3)
          select   @param4=sum(��h��)   from   book
          go
          执行例子:
          declare   @total_price   money
          exec   insert_book   '003','Delphi   控�g开发指�?,$100,@total_price
          print   '总金额�ؓ'+convert(varchar,@total_price)
          go
        存储�q�程�?�U�传回�?
          1.以Return传回整数
          2.以output格式传回参数
          3.Recordset
        传回值的区别:
          output和return都可在批�ơ程式中用变量接�?而recordset则传回到执行�Ҏ��的客��L��中 �?
        实例3�Q�设有两个表为Product,Order,其表内容如下�Q?br />          Product
          产品�~�号   产品名称   客户订数
          001   钢笔   30
          002   毛笔   50
          003   铅笔   100
          Order
          产品�~�号   客户名 �?客户订金
          001   南山区 �?$30
          002   �|�湖区 �?$50
          003   宝安区 �?$4
        请实现按�~�号��接条�?��两个表�q�接成一个��时表,该表只含�~�号.产品�?客户�?订金.总金�?
        总金�?订金*订数,临时表放在存储过�E�中
        代码如下:
          Create   proc   temp_sale
          as
          select   a.产品�~�号,a.产品名称,b.客户�?b.客户订金,a.客户订数*   b.客户订金   as总金�?br />          into   #temptable   from   Product   a   inner   join   Order   b   on   a.产品�~�号=b.产品�~�号
          if   @@error=0
          print   'Good'
          else
        &n bsp; print   'Fail'
          go

存储�q�程介绍
一、先介绍一下什么是存储�q�程
存储�q�程是利用SQL   Server所提供的Tranact-SQL语言所�~�写的程序。Tranact-SQL语言是SQL   Server提供专�ؓ设计数据库应用程序的语言�Q�它是应用程序和SQL   Server数据库间的主要程序式设计界面。它好比Oracle数据库系�l�中的Pro-SQL和Informix的数据库�pȝ��能够中的Informix-4GL语言一栗��这�c�语�a�主要提供以下功能�Q�让用户可以设计出符合引用需求的�E�序�Q� �?
1)、变量说明 �?
2)、ANSI兼容的SQL命��o(如Select,Update�?)
3)、一般流�E�控制命�?if…else…、while�?)
4)、内部函敊W��?

二、存储过�E�的书写格 �?

CREATE   PROCEDURE   [拥有�?]存储�q�程名[;�E�序�~�号]
[(参数#1,…参�?1024)]
[WITH
{RECOMPILE   |   ENCRYPTION   |   RECOMPILE,   ENCRYPTION}
]
[FOR   REPLICATION]
AS   �E�序行 �?

其中存储�q�程名不能超�q?28个字。每个存储过�E�中最多设�?024个参敊W��?
(SQL   Server   7.0以上版本),参数的��用方法如�?

@参数名 �?数据�c�d��   [VARYING]   [=内定值]   [OUTPUT]

每个参数名前要有一个“@”符�?每一个存储过�E�的参数仅�ؓ该程序内部��?参数的类型除了IMAGE外，其他SQL   Server所支持的数据类型都可��用。 �?
[=内定值]相当于我们在建立数据库时讑֮�一个字�D늚�默认��|��q�里是�ؓ�q�个参数讑֮�默认倹{��[OUTPUT]是用来指定该参数是既有输入又有输出值的�Q�也��是在调用了�q�个存储�q�程�Ӟ��如果所指定的参数值是我们需要输入的参数�Q�同时也需要在�l�果中输出的�Q�则该项必须为OUTPUT�Q�而如果只是做输出参数用，可以用CURSOR�Q�同时在使用该参数时�Q�必��L��定VARYING和OUTPUT�q�两个语句。 �?

例子:
CREATE   PROCEDURE   order_tot_amt   @o_id   int,@p_tot   int   output   AS
SELECT   @p_tot   =   sum(Unitprice*Quantity)
FROM   orderdetails
WHERE   ordered=@o_id

例子说明:
该例子是建立一个简单的存储�q�程order_tot_amt,�q�个存储�q�程�Ҏ��用户输入的定单ID��L��(@o_id),由定单明�l�表(orderdetails)中计��该定单销售总额[单�h(Unitprice)*数量(Quantity)],�q�一金额通过@p_tot�q�一参数输出�l�调用这一存储�q�程的程序 �?

三、在SQL   Server中执行存储过�E� �?

在SQL   Server的查询分析器中，输入以下代码:
declare   @tot_amt   int
execute   order_tot_amt   1,@tot_amt   output
select   @tot_amt

以上代码是执行order_tot_amt�q�一存储�q�程�Q�以计算出定单编号�ؓ1的定单销售金额，我们定义@tot_amt��出参敎ͼ�用来承接我们所要的�l�果

Lansing 2006-08-11 10:25 发表评论

Oracle 10g TO_DATE() ora-01830 领悟共勉

Lansing — Thu, 10 Aug 2006 13:03:00 GMT
今天�?DRM中报错ora-01830
把sql语句输出作了以下的实验，发现是时间多了一�?0

后来的办法是先把�q�个旉��转成to_char�Q�再转成to_date

SQL> select to_date('2005-10-01 12:01:01.0','yyyy-mm-dd hh24:mi:ss') from dual;

select to_date('2005-10-01 12:01:01.0','yyyy-mm-dd hh24:mi:ss') from dual

ORA-01830: 日期格式囄��在�{换整个输入字�W�串之前�l�束

SQL> select to_date('2005-10-01 12:01:01.0','yyyy-mm-dd hh24:mi:sssss') from dual;

select to_date('2005-10-01 12:01:01.0','yyyy-mm-dd hh24:mi:sssss') from dual

ORA-01836: ��时与日中的�U�发生冲�H?/font>

SQL> select to_date('2005-10-01 12:01:01.0','yyyy-mm-dd hh24:mi:ss.sssss') from dual;

select to_date('2005-10-01 12:01:01.0','yyyy-mm-dd hh24:mi:ss.sssss') from dual

ORA-01836: ��时与日中的�U�发生冲�H?/font>

SQL> select to_date('2005-10-01 12:01:01.0','yyyy-mm-dd hh24:mi:ff') from dual;

select to_date('2005-10-01 12:01:01.0','yyyy-mm-dd hh24:mi:ff') from dual

ORA-01821: 日期格式无法识别

------------------------------------------------------------------

必须保证传入的字�W�串和要转换的格式精��匹�?/font>

SQL> SELECT TO_DATE('11-10-1996-13:51:21','DD/MM/YYYY-HH24') A FROM dual;

ERROR:
ORA-01830: date format picture ends before converting entire input string.

SQL> SELECT TO_DATE('11-10-1996-13:51:21','DD/MM/YYYY-HH24:MI:SS') B FROM dual;
�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－
以上是�{载的
后来我是�q�么做的哈：

SELECT中将其他表的日期TO_CHAR下，然后再将值在INSERT时TO_DATE!
具体的做法如下：

SELECT TO_CHAR(parameter,'YYYY-MM-DD HH24:MI:SS') AS TIME
FROM TABLE_NAME_1;

...
...

INSERT INTO TABLE_NAME_2
(COLUME_NAME_1)
VALUE (TO_DATE('"+TIME+"','YYYY-MM-DD HH24:MI:SS'));

然后��OK了，呵呵�Q�看来要学的�q�真多！

Lansing 2006-08-10 21:03 发表评论

Java 的JDBC 数据库连接池实现�Ҏ��

Lansing — Fri, 04 Aug 2006 07:56:00 GMT
Java 的JDBC 数据库连接池实现�Ҏ��

关键�? Java, JDBC, Connection Pool, Database, 数据库连接池, sourcecode

  虽然 J2EE �E�序员一般都有现成的应用服务器所带的JDBC 数据库连接池�Q�不�q�对于开发一般的 Java Application �?Applet 或�?JSP、velocity �Ӟ��我们可用的JDBC 数据库连接池�q�不多，�q�且一般性能都不好�?Java �E�序员都很�M�?Windows ADO �Q�只需�?new Connection ��可以直接从数据库连接池中返�?Connection。�ƈ�?ADO Connection 是线�E�安全的�Q�多个线�E�可以共用一�?Connection�Q?所�?ASP �E�序一般都�?getConnection 攑֜� Global.asa 文�g中，�?IIS 启动时徏立数据库�q�接。ADO �?Connection �?Result 都有很好的缓�Ԍ��q�且很容易��用�?br />
其实我们可以自己写一个JDBC 数据库连接池。写 JDBC connection pool 的注意事��Ҏ��Q?br />
1. 有一个简单的函数从连接池中得��C��?Connection�?
2. close 函数必须��?connection 攑֛� 数据库连接池�?
3. 当数据库�q�接池中没有�I�闲�?connection�Q?数据库连接池必须能够自动增加 connection 个数�?
4. 当数据库�q�接池中�?connection 个数在某一个特别的旉��变得很大�Q�但是以后很长时间只用其中一��部分，应该可以自动��多余的 connection 关闭掉�?
5. 如果可能�Q�应该提供debug 信息报告没有关闭�?new Connection �?

如果�?new Connection ��可以直接从数据库连接池中返�?Connection�Q?可以�q�样�? Mediator pattern ) (以下代码中��用了中文全角�I�格)�Q?br />
public class EasyConnection implements java.sql.Connection{
　　private Connection m_delegate = null;

　　public EasyConnection(){
　　　　m_delegate = getConnectionFromPool();
　　}

　　public void close(){
　　　　putConnectionBackToPool(m_delegate);
　　}

　　public PreparedStatement prepareStatement(String sql) throws SQLException{
　　　　m_delegate.prepareStatement(sql);
　　}

　　//...... other method

}

看来�q�不难。不�q�不��q�种写法�Q�因为应该尽量避免��?Java Interface, 关于 Java Interface 的缺�Ҏ��另外再写文章讨论。大家关注的�?Connection Pool 的实现方法。下面给��Z��U�实现方法�?

import java.sql.*;
import java.lang.reflect.*;
import java.util.*;
import java.io.*;

public class SimpleConnetionPool {
　　private static LinkedList m_notUsedConnection = new LinkedList();
　　private static HashSet m_usedUsedConnection = new HashSet();
　　private static String m_url = "";
　　private static String m_user = "";
　　private static String m_password = "";
　　static final boolean DEBUG = true;
　　static private long m_lastClearClosedConnection = System.currentTimeMillis();
　　public static long CHECK_CLOSED_CONNECTION_TIME = 4 * 60 * 60 * 1000; //4 hours

　　static {
　　　　initDriver();
　　}

　　private SimpleConnetionPool() {
　　}

　　private static void initDriver() {
　　　　Driver driver = null;
　　　　//load mysql driver
　　　　try {
　　　　　　driver = (Driver) Class.forName("com.mysql.jdbc.Driver").newInstance();
　　　　　　installDriver(driver);
　　　　} catch (Exception e) {
　　　　}

　　　　//load postgresql driver
　　　　try {
　　　　　　driver = (Driver) Class.forName("org.postgresql.Driver").newInstance();
　　　　　　installDriver(driver);
　　　　} catch (Exception e) {
　　　　}
　　}

　　public static void installDriver(Driver driver) {
　　　　try {
　　　　　　DriverManager.registerDriver(driver);
　　　　} catch (Exception e) {
　　　　　　e.printStackTrace();
　　　　}
　　}

　　public static synchronized Connection getConnection() {
　　　　clearClosedConnection();
　　　　while (m_notUsedConnection.size() > 0) {
　　　　　　try {
　　　　　　　　ConnectionWrapper wrapper = (ConnectionWrapper) m_notUsedConnection.removeFirst();
　　　　　　　　if (wrapper.connection.isClosed()) {
　　　　　　　　　　continue;
　　　　　　　　}
　　　　　　　　m_usedUsedConnection.add(wrapper);
　　　　　　　　if (DEBUG) {
　　　　　　　　　　wrapper.debugInfo = new Throwable("Connection initial statement");
　　　　　　　　}
　　　　　　　　return wrapper.connection;
　　　　　　} catch (Exception e) {
　　　　　　}
　　　　}
　　　　int newCount = getIncreasingConnectionCount();
　　　　LinkedList list = new LinkedList();
　　　　ConnectionWrapper wrapper = null;
　　　　for (int i = 0; i < newCount; i++) {
　　　　　　wrapper = getNewConnection();
　　　　　　if (wrapper != null) {
　　　　　　　　list.add(wrapper);
　　　　　　}
　　　　}
　　　　if (list.size() == 0) {
　　　　　　return null;
　　　　}
　　　　wrapper = (ConnectionWrapper) list.removeFirst();
　　　　m_usedUsedConnection.add(wrapper);

　　　　m_notUsedConnection.addAll(list);
　　　　list.clear();

　　　　return wrapper.connection;
　　}

　　private static ConnectionWrapper getNewConnection() {
　　　　try {
　　　　　　Connection con = DriverManager.getConnection(m_url, m_user, m_password);
　　　　　　ConnectionWrapper wrapper = new ConnectionWrapper(con);
　　　　　　return wrapper;
　　　　} catch (Exception e) {
　　　　　　e.printStackTrace();
　　　　}
　　　　return null;
　　}

　　static synchronized void pushConnectionBackToPool(ConnectionWrapper con) {
　　　　boolean exist = m_usedUsedConnection.remove(con);
　　　　if (exist) {
　　　　　　m_notUsedConnection.addLast(con);
　　　　}
　　}

　　public static int close() {
　　　　int count = 0;

　　　　Iterator iterator = m_notUsedConnection.iterator();
　　　　while (iterator.hasNext()) {
　　　　　　try {
　　　　　　　　( (ConnectionWrapper) iterator.next()).close();
　　　　　　　　count++;
　　　　　　} catch (Exception e) {
　　　　　　}
　　　　}
　　　　m_notUsedConnection.clear();

　　　　iterator = m_usedUsedConnection.iterator();
　　　　while (iterator.hasNext()) {
　　　　　　try {
　　　　　　　　ConnectionWrapper wrapper = (ConnectionWrapper) iterator.next();
　　　　　　　　wrapper.close();
　　　　　　　　if (DEBUG) {
　　　　　　　　　　wrapper.debugInfo.printStackTrace();
　　　　　　　　}
　　　　　　　　count++;
　　　　　　} catch (Exception e) {
　　　　　　}
　　　　}
　　　　m_usedUsedConnection.clear();

　　　　return count;
　　}

　　private static void clearClosedConnection() {
　　　　long time = System.currentTimeMillis();
　　　　//sometimes user change system time,just return
　　　　if (time < m_lastClearClosedConnection) {
　　　　　　time = m_lastClearClosedConnection;
　　　　　　return;
　　　　}
　　　　//no need check very often
　　　　if (time - m_lastClearClosedConnection < CHECK_CLOSED_CONNECTION_TIME) {
　　　　　　return;
　　　　}
　　　　m_lastClearClosedConnection = time;

　　　　//begin check
　　　　Iterator iterator = m_notUsedConnection.iterator();
　　　　while (iterator.hasNext()) {
　　　　　　ConnectionWrapper wrapper = (ConnectionWrapper) iterator.next();
　　　　　　try {
　　　　　　　　if (wrapper.connection.isClosed()) {
　　　　　　　　　　iterator.remove();
　　　　　　　　}
　　　　　　} catch (Exception e) {
　　　　　　　　iterator.remove();
　　　　　　　　if (DEBUG) {
　　　　　　　　　　System.out.println("connection is closed, this connection initial StackTrace");
　　　　　　　　　　wrapper.debugInfo.printStackTrace();
　　　　　　　　}
　　　　　　}
　　　　}

　　　　//make connection pool size smaller if too big
　　　　int decrease = getDecreasingConnectionCount();
　　　　if (m_notUsedConnection.size() < decrease) {
　　　　　　return;
　　　　}

　　　　while (decrease-- > 0) {
　　　　　　ConnectionWrapper wrapper = (ConnectionWrapper) m_notUsedConnection.removeFirst();
　　　　　　try {
　　　　　　　　wrapper.connection.close();
　　　　　　} catch (Exception e) {
　　　　　　}
　　　　}
　　}

　　/**
　　 * get increasing connection count, not just add 1 connection
　　 * @return count
　　 */
　　public static int getIncreasingConnectionCount() {
　　　　int count = 1;
　　　　int current = getConnectionCount();
　　　　count = current / 4;
　　　　if (count < 1) {
　　　　　　count = 1;
　　　　}
　　　　return count;
　　}

　　/**
　　 * get decreasing connection count, not just remove 1 connection
　　 * @return count
　　 */
　　public static int getDecreasingConnectionCount() {
　　　　int count = 0;
　　　　int current = getConnectionCount();
　　　　if (current < 10) {
　　　　　　return 0;
　　　　}
　　　　return current / 3;
　　}

　　public synchronized static void printDebugMsg() {
　　　　printDebugMsg(System.out);
　　}

　　public synchronized static void printDebugMsg(PrintStream out) {
　　　　if (DEBUG == false) {
　　　　　　return;
　　　　}
　　　　StringBuffer msg = new StringBuffer();
　　　　msg.append("debug message in " + SimpleConnetionPool.class.getName());
　　　　msg.append("\r\n");
　　　　msg.append("total count is connection pool: " + getConnectionCount());
　　　　msg.append("\r\n");
　　　　msg.append("not used connection count: " + getNotUsedConnectionCount());
　　　　msg.append("\r\n");
　　　　msg.append("used connection, count: " + getUsedConnectionCount());
　　　　out.println(msg);
　　　　Iterator iterator = m_usedUsedConnection.iterator();
　　　　while (iterator.hasNext()) {
　　　　　　ConnectionWrapper wrapper = (ConnectionWrapper) iterator.next();
　　　　　　wrapper.debugInfo.printStackTrace(out);
　　　　}
　　　　out.println();
　　}

　　public static synchronized int getNotUsedConnectionCount() {
　　　　return m_notUsedConnection.size();
　　}

　　public static synchronized int getUsedConnectionCount() {
　　　　return m_usedUsedConnection.size();
　　}

　　public static synchronized int getConnectionCount() {
　　　　return m_notUsedConnection.size() + m_usedUsedConnection.size();
　　}

　　public static String getUrl() {
　　　　return m_url;
　　}

　　public static void setUrl(String url) {
　　　　if (url == null) {
　　　　　　return;
　　　　}
　　　　m_url = url.trim();
　　}

　　public static String getUser() {
　　　　return m_user;
　　}

　　public static void setUser(String user) {
　　　　if (user == null) {
　　　　　　return;
　　　　}
　　　　m_user = user.trim();
　　}

　　public static String getPassword() {
　　　　return m_password;
　　}

　　public static void setPassword(String password) {
　　　　if (password == null) {
　　　　　　return;
　　　　}
　　　　m_password = password.trim();
　　}

}

class ConnectionWrapper implements InvocationHandler {
　　private final static String CLOSE_METHOD_NAME = "close";
　　public Connection connection = null;
　　private Connection m_originConnection = null;
　　public long lastAccessTime = System.currentTimeMillis();
　　Throwable debugInfo = new Throwable("Connection initial statement");

　　ConnectionWrapper(Connection con) {
　　　　Class[] interfaces = {java.sql.Connection.class};
　　　　this.connection = (Connection) Proxy.newProxyInstance(
　　　　　　con.getClass().getClassLoader(),
　　　　　　interfaces, this);
　　　　m_originConnection = con;
　　}

　　void close() throws SQLException {
　　　　m_originConnection.close();
　　}

　　public Object invoke(Object proxy, Method m, Object[] args) throws Throwable {
　　　　Object obj = null;
　　　　if (CLOSE_METHOD_NAME.equals(m.getName())) {
　　　　　　SimpleConnetionPool.pushConnectionBackToPool(this);
　　　　}
　　　　else {
　　　　　　obj = m.invoke(m_originConnection, args);
　　　　}
　　　　lastAccessTime = System.currentTimeMillis();
　　　　return obj;
　　}
}

使用�Ҏ��

public class TestConnectionPool{
　　public static void main(String[] args) {
　　　　SimpleConnetionPool.setUrl(DBTools.getDatabaseUrl());
　　　　SimpleConnetionPool.setUser(DBTools.getDatabaseUserName());
　　　　SimpleConnetionPool.setPassword(DBTools.getDatabasePassword());

　　　　Connection con = SimpleConnetionPool.getConnection();
　　　　Connection con1 = SimpleConnetionPool.getConnection();
　　　　Connection con2 = SimpleConnetionPool.getConnection();

　　　　//do something with con ...

　　　　try {
　　　　　　con.close();
　　　　} catch (Exception e) {}

　　　　try {
　　　　　　con1.close();
　　　　} catch (Exception e) {}

　　　　try {
　　　　　　con2.close();
　　　　} catch (Exception e) {}

　　　　con = SimpleConnetionPool.getConnection();
　　　　con1 = SimpleConnetionPool.getConnection();
　　　　try {
　　　　　　con1.close();
　　　　} catch (Exception e) {}

　　　　con2 = SimpleConnetionPool.getConnection();
　　　　SimpleConnetionPool.printDebugMsg();

　　}
}

Lansing 2006-08-04 15:56 发表评论

	Lucene全文索引引擎	数据�?/td>
索引	��数据源中的数据都通过全文索引一一建立反向索引	对于LIKE查询来说�Q�数据传�l�的索引是根本用不上的。数据需要逐个便利记录�q�行GREP式的模糊匚w��Q�比有烦引的搜烦速度要有多个数量�U�的下降�?/td>
匚w��效果	通过词元(term)�q�行匚w��Q�通过语言分析接口的实玎ͼ�可以实现对中文等非英语的支持�?/td>	使用�Q�like "%net%" 会把netherlands也匹配出来，多个关键词的模糊匚w��Q��用like "%com%net%"�Q�就不能匚w��词序颠倒的xxx.net..xxx.com
匚w��?/td>	有匹配度��法�Q�将匚w��E�度�Q�相似度�Q�比较高的结果排在前面�?/td>	没有匚w��E�度的控�Ӟ��比如有记录中net出现5词和出现1�ơ的�Q�结果是一��L��?/td>
�l�果输出	通过特别的算法，��最匚w��度最高的�?00条结果输出，�l�果集是�~�冲式的��批量读取的�?/td>	�q�回所有的�l�果集，在匹配条目非常多的时候（比如上万条）需要大量的内存存放�q�些临时�l�果集�?/td>
可定制�?/td>	通过不同的语�a�分析接口实现�Q�可以方便的定制出符合应用需要的索引规则�Q�包括对中文的支持）	没有接口或接口复杂，无法定制
�l�论	高负载的模糊查询应用�Q�需要负责的模糊查询的规则，索引的资料量比较�?/td>	使用率低�Q�模�p�匹配规则简单或者需要模�p�查询的资料量少

	Lucene	其他开源全文检索系�l?/td>
增量索引和批量烦�?/td>	可以�q�行增量的烦�?Append)�Q�可以对于大量数据进行批量烦引，�q�且接口设计用于优化扚w��索引和小扚w��的增量烦引�?/td>	很多�pȝ��只支持批量的索引�Q�有时数据源有一点增加也需要重建烦引�?/td>
数据�?/td>	Lucene没有定义具体的数据源�Q�而是一个文档的�l�构�Q�因此可以非常灵�zȝ��适应各种应用�Q�只要前端有合适的转换器把数据源�{换成相应�l�构�Q�，	很多�pȝ��只针对网��，�~�Z��其他格式文档的灵�z�L��?/td>
索引内容抓取	Lucene的文档是由多个字�D늻�成的�Q�甚臛_��以控刉��些字�D�需要进行烦引，那些字段不需要烦引，�q�一步烦引的字段也分为需要分词和不需要分词的�c�d��Q?br /> 需要进行分词的索引�Q�比如：标题�Q�文章内容字�D?br /> 不需要进行分词的索引�Q�比如：作�?日期字段	�~�Z��通用性，往往��文档整个烦引了
语言分析	通过语言分析器的不同扩展实现�Q?br />可以�q��o掉不需要的词：an the of �{�，西文语法分析�Q�将jumps jumped jumper都归�l�成jump�q�行索引/��?br />非英文支持：对亚�z�语�a��Q�阿拉伯语言的烦引支�?/td>	�~�Z��通用接口实现
查询分析	通过查询分析接口的实玎ͼ�可以定制自己的查询语法规则：比如�Q?多个关键词之间的 + - and or关系�{?/td>
�q�发讉K��	能够支持多用��L��使用

	自动切分	词表切分
实现	实现非常��?/td>	实现复杂
查询	增加了查询分析的复杂�E�度�Q?/td>	适于实现比较复杂的查询语法规�?/td>
存储效率	索引冗余大，索引几乎和原文一样大	索引效率高，为原文大��的30�Q�左�?/td>
�l�护成本	无词表维护成�?/td>	词表�l�护成本非常高：中日韩等语言需要分别维护�?br />�q�需要包括词频统计等内容
适用领域	嵌入式系�l�：�q�行环境资源有限分布式系�l�：无词表同步问�?br />多语�a�环境�Q�无词表�l�护成本	�Ҏ��询和存储效率要求高的专业搜烦引擎

org.apache.Lucene.search/	搜烦入口
org.apache.Lucene.index/	索引入口
org.apache.Lucene.analysis/	语言分析�?/td>
org.apache.Lucene.queryParser/	查询分析�?/td>
org.apache.Lucene.document/	存储�l�构
org.apache.Lucene.store/	底层IO/存储�l�构
org.apache.Lucene.util/	一些公用的数据�l�构

欧美日韩伦理片,国产精品久久久久一区二区三区共,最新四虎影在线在永久观看www

关于Linux下的Inode

��Z��Java的全文烦�?���索引擎——Lucene

Oracle 10g TO_DATE() ora-01830 领悟共勉

Java 的JDBC 数据库连接池实现�Ҏ��

��Z��Java的全文烦�?��索引擎——Lucene