国产精品久久久久免费a∨大胸 ,日韩成人dvd,日韩精品视频免费专区在线播放

Lucene基础��? Analyzer

brock — Wed, 07 Jan 2015 02:11:00 GMT

摘要: 看了(ji��n)�|�上的许多对于lucene 分词解析的文章一知半解且代码比较老旧�Q��ؓ(f��)透彻、系�l�、全面、深�ȝ��?ji��n)解分词是怎么一个过�E�，通过自定义一个分词器来分析理解�?其中分词部分利用ICTCLAS4j接口实现。结构如下所�C�：(x��) 要实现自定义的ICTCLAS4jAnalyzer必须�l�承Analy... 阅读全文

brock 2015-01-07 10:11 发表评论

Lucene基础��? Directory

brock — Wed, 07 Jan 2015 02:09:00 GMT

Lucene �?/span> Directory�c�d��像它的意思一�?#8220;目录”�Q�如“目录”不存在，�W�一�ơ启动被创徏�Q�一旦文件被创徏�Q�它只能打开阅读�Q�或删除。允许读取和写入随机讉K��?/span>Java I/O api 不能直接使用�Q�只能通过�q�个API �?/span>Directory的实现类可以分�ؓ(f��)文�g目录�Q�内存目录和目录的代理类�?qi��ng)工��L(f��ng)��。具体如下图所�C�：(x��)

一�Q�文件目�?/span>

SimpleFSDirectory:FSDirectory的简单实�?/span>,�q�发能力有限�Q�遇到多�U�程��d��一个文件时�?x��)遇到瓶颈，通常�?/span>NIOFSDirectory�?/span>MMapDirectory代替�?/span>

NIOFSDirectory�Q�通过java.nio's FileChannel实行定位��d��Q�支持多�U�程读（默认情况下是�U�程安全的）(j��)。该�c�M��使用FileChannel�q�行��L��作，写操作则是通过FSIndexOutput实现�?/span>

注意�Q?/span>NIOFSDirectory 不适用�?/span>Windows�pȝ��Q�另外如果一个访问该�cȝ��U�程�Q�在IO��d��时被interrupt�?/span>cancel�Q�将�?x��)导致底层的文�g描述�W�被关闭�Q�后�l�的�U�程再次讉K��NIOFSDirectory时将�?x��)出�?/span>ClosedChannelException异常�Q�此�U�情况应�?/span>SimpleFSDirectory代替�?/span>

MMapDirectory�Q�通过内存映射�q�行读，通过FSIndexOutput�q�行写的FSDirectory实现�c�R��用该�c�L��要保证用��_��的虚拟地址�I�间。另外当通过IndexInput�?/span>close�Ҏ(gu��)��q�行关闭时�ƈ不会(x��)立即关闭底层的文件句柄，只有GC�q�行资源回收时才�?x��)关闭�?/span>

��Z��(ji��n)能适应各个操作�pȝ��选择最�?/span>Directory�Ҏ(gu��)��Q?/span>lucene 提供FSDirectory�cȝ��?r��n)态方�?/span>open()实现自适应�?/span>

public static FSDirectory open(File path, LockFactory lockFactory) throws IOException {

if ((Constants.WINDOWS || Constants.SUN_OS || Constants.LINUX)

&& Constants.JRE_IS_64BIT && MMapDirectory.UNMAP_SUPPORTED) {

return new MMapDirectory(path, lockFactory);

} else if (Constants.WINDOWS) {

return new SimpleFSDirectory(path, lockFactory);

} else {

return new NIOFSDirectory(path, lockFactory);

}

二：(x��)内存目录

RAMDirectory�Q�常��d��存的Directory实现方式。默认通过SingleInstanceLockFactory�Q�单实例锁工厂）(j��)�q�行锁的实现�?span style="color:red">该类不适合大量索引的情�?/span>�?span style="color:red">另外也不适用于多�U�程的情�?/span>�?/span> 在烦(ch��)引数据量大的情况下徏议��?/span>MMapDirectory代替�?/span>RAMDirectory�?/span>Directory抽象�c�d��使用内存最为文件存储的实现�c�，其主要是��所有的索引文�g保存到内存�(sh��)��。这样可以提高效率。但是如果烦(ch��)引文件过大的话，则会(x��)��D��内存?sh��)��Q�因此，��型的系�l�推荐��用，如果大型的，索引文�g辑ֈ�G�U�别上，推荐使用FSDirectory�?/span>

NRTCachingDirectory�Q�是�?/span>RAMDirectory的封装，适用于近乎时�Ӟ��near-real-time�Q�操作的环境�?/span>

三：(x��)Direcotry的代理类�?qi��ng)工��L(f��ng)��

FileSwitchDirectory:文�g切换�?/span>Directory实现.针对lucene的不同的索引文�g使用不同�?/span>Directory .借助FileSwitchDirectory整合不同�?/span>Directory实现�cȝ��优点于一�w?/span>
比如MMapDirectory,借助内存映射文�g方式提高性能�Q�但又要减少内存切换的可�?/span> �Q�当索引太大的时候，内存映射也需要不断地切换�Q�这样优点也可能变缺点，而之前的NIOFSDirectory实现java NIO的方式提高高�q�发性能�Q�但又因高�ƈ发也�?x��)导�?/span>IO�q�多的媄(ji��ng)响，所以这�ơ可以借助FileSwitchDirectory发挥他们两的优点�?/span>

RateLimitedDirectoryWrapper:通过IOContext来限制读写速率�?/span>Directory��装�c�R�?/span>

CompoundFileDirectory�Q�用于访问一个组合的数据?hu��)��。仅适用于读操作。对于同一�D�内扩展名不同但文�g名相同的所有文件合�q�到一个统一�?/span>.cfs文�g和一个对应的.cfe文�g内�?/span>
.cfs文�g�?/span>Header�Q?/span>FileData�?/span>FileCount�l�成�?/span>.cfe文�g�?/span>Header�Q?/span>FileCount,FileName,DataOffset,DataLength�l�成�?/span>.cfs文�g中存储着索引的概要信息及(qi��ng)�l�合文�g
的数目（FileCount�Q��?/span>.cfe文�g存储文�g目录的条目内容，内容中包括文件数据扇区的起始位置�Q�文件的长度�?qi��ng)文件的名称�?/span>

TrackingDirectoryWrapper�Q?/span>Directory的代理类。用于记录哪些文件被写入和删除�?/span>

四：(x��)Direcotry��d��对象的类�?/span>

文章转蝲�q�来的！

brock 2015-01-07 10:09 发表评论

Lucene基础��? 概论

brock — Wed, 31 Dec 2014 09:07:00 GMT

在学lucene 之初看了(ji��n)许多书，都是走马观花�Q�没有项目的驱动下，来一个用�?/span>demo感觉也不是很难，“我会(x��)�?#8221;�q�是我的�W�一感觉�?/span>

�?/span>2013�q�底公司接到一个项目用�?/span>lucene,�q�是我第一�ơ正真接�?/span>Lucene�Q�代码比较�?/span>3.6版本�Q�不适合新项目的需求（�I�间查询�Q�。于是下载了(ji��n)最新版�?/span> 4.51,有带“�I�间查询”模块。各大搜索引擎都没有扑ֈ�像样例子�Q�于是想��C��(ji��n)lucene svn�?/span> trunk目录��试用例中找��C��(ji��n)��试例子�Q�开始了(ji��n)一�D?/span>lucene之旅�?/span>

写数据，创徏IndexWriter,通过它的构造函数需要一个烦(ch��)引目录（Diectory�Q�和索引写入配置��（InderWriterConfig�Q?/span>,直接上代码：(x��)

//讄��写入目录(好几�U�呵�?/span>)

Directory d=FSDirectory.open(new File("D:/luceneTest"));

//讄��分词 StandardAnalyzer�Q�会(x��)把句子中的字单个分词�Q?/span>

Analyzer analyzer= new StandardAnalyzer(Version.LUCENE_45);

//讄��索引写入配置

IndexWriterConfig config=new IndexWriterConfig(Version.LUCENE_45,analyzer);

//讄��创徏模式

//config.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);

IndexWriter indexwriter= new IndexWriter(d,config);

上面四行代码��创建好�?/span>indexwriter�Q?/span>下面把数据填入就好了(ji��n)�Q�写入有多种方式如下图：(x��)

�?/span> addDocment 举例代码如下�Q?/span>

Document doc=new Document();

doc.add(new StringField("id", "1", Store.YES));

doc.add(new StringField("name", "brockhong", Store.YES));

doc.add(new TextField("content", "lucene 文档�W�一�ơ写看着�l�分�?/span>", Store.YES));

//写入数据

indexwriter.addDocument(doc);

//提交

indexwriter.commit();

�?/span> Luke 工具查看Text列，�q�是标准分词惹的��哦�Q�写入成功�?/span>

��L��据查询，创徏 IndexSearcher 构造函数设�|?/span>indexReader �Q�输入查询条�Ӟ��上面content字段数据讄��?ji��n)分词，所以必��通过查询解析�c?/span>QueryParser讑֮�分词字段、版本、分词模式，�q��过parse�Ҏ(gu��)��得到查询条�g。代码如下：(x��)

//��L��?/span>

//创徏 indexReader �q�个已过�?/span> IndexReader.open(d)�Q�里面的代码一样可能�ؓ(f��)�?ji��n)兼容老版�?/span>

IndexReader indexReader = DirectoryReader.open(d);

IndexSearcher indexSearcher = new IndexSearcher(indexReader);

//查询讄��分词字段

QueryParser queryParser = new QueryParser(Version.LUCENE_45, "content",

new StandardAnalyzer(Version.LUCENE_45));

//or 关系 “�l?#8221;�?#8220;�?#8221;

queryParser.setDefaultOperator(QueryParser.OR_OPERATOR);

Query query = queryParser.parse("�l�分");

TopDocs results = indexSearcher.search(query, 100);

int numTotalHits = results.totalHits;

System.out.println("�?/span> " + numTotalHits + " 完全匚w��的文�?/span>");

ScoreDoc[] hits = results.scoreDocs;

for (int i = 0; i < hits.length; i++) {

Document document = indexSearcher.doc(hits[i].doc);

System.out.println("content:" + document.get("content"));

}

pasting

brock 2014-12-31 17:07 发表评论