使用Lucene�q�行全文��?一)---处理索引

�? — Fri, 11 Jan 2008 01:47:00 GMT

Lucene是一个全文检索的引擎,目前有Java�?Net �{�几个版�?Java版本的网址�?a >http://lucene.apache.org.相关的一个项目是车东的WebLucene: http://sourceforge.net/projects/weblucene.

首先,��Z��一个简单的新闻�pȝ��,要想做全文检�?新闻�pȝ��的管理等在这里不在具体提�?下面列出新闻对象的类:

�?�E�序用会��C��些工��L��,不在此列�?用户可以自己实现.

  package com.jscud.website.newsinfo.bean;


  import java.sql.Timestamp;

  import com.jscud.util.DateTime;
  import com.jscud.util.StringFunc;
  import com.jscud.website.newsinfo.NewsConst;


  /**
   * 一个新�?
   *
   * @author scud(飞云��侠) http://www.jscud.com
   *
   */
  public class NewsItem
  {

      private int nid; //新闻�~�号

      private int cid; //�c�d��~�号

      private String title;//标题

      private int showtype; //内容�c�d��:目前支持url和html

      private String content;//内容

      private String url;//对应�|�址,如果内容�c�d��是url的话

      private Timestamp addtime; //增加旉��

      private int click; //点击�?br />
      //对应的get,set函数,较多不在列出,可以使用工具生成
      //......


      /**
       * 按照�c�d��格式�?br />        */
      public String getShowContent()
      {
          String sRes = content;
          if(showtype == NewsConst.ShowType_HTML)
          {
          }
          return sRes;
      }

      public String getTarget()
      {
          if(showtype == NewsConst.ShowType_URL)
          {
              return "_blank";
          }
          else
              return "";
      }

      /**
       * 静态Html文�g的�\径及其名�?br />        */
      public String getHtmlFileName()
      {
          int nYear = DateTime.getYear_Date(getAddtime());
          int nMonth = DateTime.getMonth_Date(getAddtime());

          String sGeneFileName =
             "/news/" + getCid() + "/" + nYear + "/" + nMonth +"/" + getNid() + ".htm";

          return sGeneFileName;
      }

      /**
       * 静态Html文�g的�\�?br />        */
      public String getHtmlFilePath()
      {
          int nYear = DateTime.getYear_Date(getAddtime());
          int nMonth = DateTime.getMonth_Date(getAddtime());

          String sGeneFilePath =
             getCid() + "_" + nYear + "_" + nMonth;

          return sGeneFilePath;
      }
  }

可以看到,我们需要对标题和内容进行检�?��Z��q�个目的,我们首先需要来研究一下lucene.

在Lucene�?如果要进行全文检�?必须要先建立索引然后才能�q�行��?当然实际工作中还会有删除索引和更新烦引的工作.

在此之前,介绍一个最基本的类(摘抄�?a href="http://www.aygfsteel.com/cap/archive/2005/07/17/7849.html">http://www.aygfsteel.com/cap/archive/2005/07/17/7849.html):

Analyzer 文�g的分析器�Q�听��h��别扭�Q�还是叫Analyzer好了)的抽象，�q�个�cȝ��来处理分�?对中文尤光��要，转换大小�?Computer->computer,实现查询大小写无�?�Q��{换词�?computers->computer),消除stop words�{?�q�负责把其他格式文档转换为纯文本�{?

在lucene�?一般会使用StandardAnalyzer来分析内�?它支持中文等多字节语�a�,当然可以自己实现�Ҏ��的解析器.StandardAnalyzer目前对中文的处理是按照单字来处理�?�q�是最��单的办法,但是也有�~�点,会组合出一些没有意义的�l�果�?

首先我们来了解徏立烦�?建立索引包含2�U�情�?一�U�是�l�一条新��d��立烦�?另外的情冉|��在开始或者一定的旉��l�批量的新闻建立索引,所以�ؓ了通用,我们写一个通用的徏立烦引的函数:

(一般一�cȝ��索引都放在一个目录下,�q�个配置可以在函��C��定义,也可以写在配�|�文件中,通过参数传递给函数.)

    /**
     * 生成索引.
     *
     * @param doc 目标文档
     * @param indexDir 索引目录
     */
    public static void makeIndex(Document doc, String indexDir)
    {
        List aList = new ArrayList();
        aList.add(doc);
        makeIndex(aList, indexDir);
    }

    /**
     * 生成索引.
     *
     * @param doc 生成的document.
     * @param indexDir 索引目录
     */
    public static void makeIndex(List docs, String indexDir)
    {
        if (null == docs)
        {
            return;
        }
        boolean indexExist = indexExist(indexDir);

        IndexWriter writer = null;
        try
        {
            StandardAnalyzer analyzer = new StandardAnalyzer();

            //如果索引存在,��p��?如果不存�?��徏立新的烦�?lucene要是自动判决��好�?
            if(indexExist)
            {
                writer = new IndexWriter(indexDir, analyzer, false);
            }
            else
            {
                writer = new IndexWriter(indexDir, analyzer, true);
            }

            //��d��一条文�?br />             for (int i = 0; i < docs.size(); i++)
            {
                Document doc = (Document) docs.get(i);
                if (null != doc)
                {
                    writer.addDocument(doc);
                }
            }

            //索引完成后的处理
            writer.optimize();
        }
        catch (IOException e)
        {
            LogMan.warn("Error in Make Index", e);
        }
        finally
        {
            try
            {
                if (null != writer)
                {
                    writer.close();
                }
            }
            catch (IOException e)
            {
                LogMan.warn("Close writer Error");
            }
        }
    }

可以看到,建立索引用到�c�L��IndexWrite,它可以新建烦引或者追加烦�?但是需要自己判�?判断是通过IndexReader�q�个�c�L��实现�?函数如下:

/**
     * ��查烦引是否存�?
     * @param indexDir
     * @return
     */
    public static boolean indexExist(String indexDir)
    {
        return IndexReader.indexExists(indexDir);
    }

如果每次都是新徏索引的话,会把原来的记录删�?我在使用的时候一开始就没有注意�?后来观察了一下烦引文�?才发现这个问�?

�q�可以看�?建立索引是给用户的Document对象建立索引,Document表示索引中的一条文档记�?那么我们如何建立一个文档那?以新�ȝ��l��ؓ�?代码如下:

     /**
      * 生成新闻的Document.
      *
      * @param aNews 一条新�?
      *
      * @return lucene的文档对�?br />       */
     public static Document makeNewsSearchDocument(NewsItem aNews)
     {
         Document doc = new Document();

         doc.add(Field.Keyword("nid", String.valueOf(aNews.getNid())));

         doc.add(Field.Text("title", aNews.getTitle()));

         //对Html�q�行解析,如果不是html,则不需要解�?或者根据格式调用自��q��解析�Ҏ��
         String content = parseHtmlContent(aNews.getContent());

         doc.add(Field.UnStored("content", content));

         doc.add(Field.Keyword("addtime", aNews.getAddtime()));

         //可以加入其他的内�?例如新闻的评论等
         doc.add(Field.UnStored("other", ""));

         //讉K��url
         String newsUrl = "/srun/news/viewhtml/" + aNews.getHtmlFilePath() + "/" + aNews.getNid()
                         + ".htm";

         doc.add(Field.UnIndexed("visiturl", newsUrl));

         return doc;
     }

通过上面的代�?我们把一条新闻�{换�ؓlucene的Document对象,从而进行烦引工�?在上面的代码�?我们又引入了lucene中的Field(字段)�c?Document文档��像数据库中的一条记�?它有很多字段,每个字段是一个Field对象.

从别的文章摘抄一�D�关于Field的说�?摘抄�?a href="http://www.aygfsteel.com/cap/archive/2005/07/17/7849.html">http://www.aygfsteel.com/cap/archive/2005/07/17/7849.html):
[quote]
    �c�d��                               Analyzed Indexed Stored 说明
    Field.Keyword(String,String/Date) N Y Y                    �q�个Field用来储存会直接用来检索的比如(�~�号,姓名,日期�{?
    Field.UnIndexed(String,String)     N N Y                    不会用来��索的信息,但是��索后需要显�C�的,比如,��g序列�?文档的url地址
    Field.UnStored(String,String)      Y Y N                    大段文本内容,会用来检�?但是��索后不需要从index中取内容,可以�Ҏ��url去load真实的内�?
    Field.Text(String,String)          Y Y Y                    ��?获取都需要的内容,直接放index�?不过�q�样会增大index
    Field.Text(String,Reader)          Y Y N                    如果是一个Reader, lucene猜测内容比较�?会采用Unstored的策�?
[/quote]

我们可以看到新闻的编��h��直接用来��索的,所以是Keyword�c�d��的字�D?新闻的标题是需要检索和昄��用的,所以是Text�c�d��,而新�ȝ��内容因�ؓ是Html格式�?所以在�l�过解析器的处理�?使用的UnStored的格�?而新�ȝ��旉��是直接用来检索的,所以是KeyWord�c�d��.��Z��在新�ȝ��引后用户可以讉K��到完整的新闻��面,�q�设�|�了一个UnIndexed�c�d��的访问地址字段.

(对Html�q�行解析的处理稍后在�q�行讲解)

��Z��条新��d��立烦引需要两个步�?获取Document,传给makeIndex函数,代码如下:

    public static void makeNewsInfoIndex(NewsItem aNews)
    {
        if (null == aNews)
        {
            return;
        }
        makeIndex(makeNewsSearchDocument(aNews),indexDir);
    }

建立索引的工作就�q�行完了,只要在增加新��d��调用 makeNewsInfoIndex(newsitem); ��可以徏立烦引了.

如果需要删除新�?那么也要删除对应的烦�?删除索引是通过IndexReader�c�L��完成�?

    /**
     * 删除索引.
     * @param aTerm 索引删除条�g
     * @param indexDir 索引目录
     */
    public static void deleteIndex(Term aTerm, String indexDir)
    {
        List aList = new ArrayList();
        aList.add(aTerm);
        deleteIndex(aList, indexDir);
    }

    /**
     * 删除索引.
     *
     * @param aTerm 索引删除条�g.
     * @param indexDir 索引目录
     *
     */
    public static void deleteIndex(List terms, String indexDir)
    {
        if (null == terms)
        {
            return;
        }

        if(!indexExist(indexDir)) { return; }

        IndexReader reader = null;
        try
        {
            reader = IndexReader.open(indexDir);
            for (int i = 0; i < terms.size(); i++)
            {
                Term aTerm = (Term) terms.get(i);
                if (null != aTerm)
                {
                    reader.delete(aTerm);
                }
            }
        }
        catch (IOException e)
        {
            LogMan.warn("Error in Delete Index", e);
        }
        finally
        {
            try
            {
                if (null != reader)
                {
                    reader.close();
                }
            }
            catch (IOException e)
            {
                LogMan.warn("Close reader Error");
            }
        }
    }

删除索引需要一个条�?�c�M��数据库中的字�D�|��?例如删除一条新�ȝ��代码如下:

     public static void deleteNewsInfoIndex(int nid)
     {
         Term aTerm = new Term("nid", String.valueOf(nid));
         deleteIndex(aTerm,indexDir);
     }

通过新闻的ID,��可以删除一条新�?

如果需要更新新�?如何更新索引�? 更新索引需要先删除索引然后新徏索引2个步�?其实��是把上面的代码�l�合��h��,例如更新一条新�?

     public static void updateNewsInfoIndex(NewsItem aNews)
     {
         if (null == aNews)
         {
             return;
         }
         deleteNewsInfoIndex(aNews.getNid());
         makeNewsInfoIndex(aNews);
     }

��x��,索引的徏立更新和删除��告一�D�落�?其中扚w��更新新闻的代码如�?
(扚w��更新应该在访问�h数少或者后台程序在夜间执行)

    public static void makeAllNewsInfoIndex(List newsList)
    {
        List terms = new ArrayList();
        List docs = new ArrayList();

        for (int i = 0; i < newsList.size(); i++)
        {
            NewsItem aitem = (NewsItem) newsList.get(i);
            if (null != aitem)
            {
                terms.add(new Term("nid", String.valueOf(aitem.getNid())));
                docs.add(makeNewsSearchDocument(aitem));
            }
        }

        deleteIndex(terms,indexDir);
        makeIndex(docs,indexDir);
    }

�? 2008-01-11 09:47 发表评论

亚洲色图官网,久久久久久久91,免费成人在线观看

使用Lucene�q�行全文����?一)---处理索引

使用Lucene�q�行全文��?一)---处理索引