??xml version="1.0" encoding="utf-8" standalone="yes"?>久久综合网色—综合色88,亚洲精品国产a,亚洲免费在线观看http://www.aygfsteel.com/human2008/archive/2008/01/11/174507.html??Fri, 11 Jan 2008 01:47:00 GMThttp://www.aygfsteel.com/human2008/archive/2008/01/11/174507.htmlhttp://www.aygfsteel.com/human2008/comments/174507.htmlhttp://www.aygfsteel.com/human2008/archive/2008/01/11/174507.html#Feedback0http://www.aygfsteel.com/human2008/comments/commentRss/174507.htmlhttp://www.aygfsteel.com/human2008/services/trackbacks/174507.htmlhttp://lucene.apache.org.相关的一个项目是车东的WebLucene: http://sourceforge.net/projects/weblucene.

 首先,Z一个简单的新闻pȝ,要想做全文检?新闻pȝ的管理等在这里不在具体提?下面列出新闻对象的类:
 
 ?E序用会C些工L,不在此列?用户可以自己实现.
 
 

  package com.jscud.website.newsinfo.bean;
  
  
  import java.sql.Timestamp;
  
  import com.jscud.util.DateTime;
  import com.jscud.util.StringFunc;
  import com.jscud.website.newsinfo.NewsConst;
  
  
  /**
   * 一个新?
   *
   * @author scud(飞云侠) http://www.jscud.com
   * 
   */
  public class NewsItem
  {
  
      private int nid; //新闻~号
  
      private int cid; //cd~号
  
      private String title;//标题
  
      private int showtype; //内容cd:目前支持url和html
  
      private String content;//内容
  
      private String url;//对应|址,如果内容cd是url的话
  
      private Timestamp addtime; //增加旉
  
      private int click; //点击?br />      
      //对应的get,set函数,较多不在列出,可以使用工具生成
      //......
  
     
      /**
       * 按照cd格式?br />        */
      public String getShowContent()
      {
          String sRes = content;
          if(showtype == NewsConst.ShowType_HTML)
          {
          }  
          return sRes;
      }
     
      public String getTarget()
      {
          if(showtype == NewsConst.ShowType_URL)
          {
              return "_blank";
          }
          else
              return "";       
      }
     
      /**
       * 静态Html文g的\径及其名?br />        */
      public String getHtmlFileName()
      {
          int nYear = DateTime.getYear_Date(getAddtime());
          int nMonth =  DateTime.getMonth_Date(getAddtime());
             
          String sGeneFileName =
             "/news/" + getCid() + "/" + nYear + "/" + nMonth +"/" + getNid() + ".htm";
         
          return sGeneFileName;
      }
     
      /**
       * 静态Html文g的\?br />        */
      public String getHtmlFilePath()
      {
          int nYear = DateTime.getYear_Date(getAddtime());
          int nMonth =  DateTime.getMonth_Date(getAddtime());
             
          String sGeneFilePath =
             getCid() + "_" + nYear + "_" + nMonth;
         
          return sGeneFilePath;
      }     
  } 


 
 可以看到,我们需要对标题和内容进行检?Zq个目的,我们首先需要来研究一下lucene.
 
 在Lucene?如果要进行全文检?必须要先建立索引然后才能q行?当然实际工作中还会有删除索引和更新烦引的工作.
 
 在此之前,介绍一个最基本的类(摘抄?a href="http://www.aygfsteel.com/cap/archive/2005/07/17/7849.html">http://www.aygfsteel.com/cap/archive/2005/07/17/7849.html):
 
 Analyzer 文g的分析器Q听h别扭Q还是叫Analyzer好了)的抽象,q个cȝ来处理分?对中文尤光要,转换大小?Computer->computer,实现查询大小写无?Q{换词?computers->computer),消除stop words{?q负责把其他格式文档转换为纯文本{?
 
 在lucene?一般会使用StandardAnalyzer来分析内?它支持中文等多字节语a,当然可以自己实现Ҏ的解析器.StandardAnalyzer目前对中文的处理是按照单字来处理?q是最单的办法,但是也有~点,会组合出一些没有意义的l果? 
 
 
 首先我们来了解徏立烦?建立索引包含2U情?一U是l一条新d立烦?另外的情冉|在开始或者一定的旉l批量的新闻建立索引,所以ؓ了通用,我们写一个通用的徏立烦引的函数:
 
 (一般一cȝ索引都放在一个目录下,q个配置可以在函C定义,也可以写在配|文件中,通过参数传递给函数.)

    /**
     * 生成索引.
     *
     * @param doc 目标文档
     * @param indexDir 索引目录
     */
    public static void makeIndex(Document doc, String indexDir)
    {
        List aList = new ArrayList();
        aList.add(doc);
        makeIndex(aList, indexDir);
    }
 
    /**
     * 生成索引.
     *
     * @param doc 生成的document.
     * @param indexDir 索引目录
     */
    public static void makeIndex(List docs, String indexDir)
    {
        if (null == docs)
        {
            return;
        }       
        boolean indexExist = indexExist(indexDir);

        IndexWriter writer = null;
        try
        {
            StandardAnalyzer analyzer = new StandardAnalyzer();
           
            //如果索引存在,p?如果不存?徏立新的烦?lucene要是自动判决好?
            if(indexExist)
            {
                writer = new IndexWriter(indexDir, analyzer, false);
            }
            else
            {
                writer = new IndexWriter(indexDir, analyzer, true);
            }

            //d一条文?br />             for (int i = 0; i < docs.size(); i++)
            {
                Document doc = (Document) docs.get(i);
                if (null != doc)
                {
                    writer.addDocument(doc);
                }
            }

            //索引完成后的处理
            writer.optimize();
        }
        catch (IOException e)
        {
            LogMan.warn("Error in Make Index", e);
        }
        finally
        {
            try
            {
                if (null != writer)
                {
                    writer.close();
                }
            }
            catch (IOException e)
            {
                LogMan.warn("Close writer Error");
            }
        }
    }



 可以看到,建立索引用到cLIndexWrite,它可以新建烦引或者追加烦?但是需要自己判?判断是通过IndexReaderq个cL实现?函数如下:

 

  /**
     * 查烦引是否存?
     * @param indexDir
     * @return
     */
    public static boolean indexExist(String indexDir)
    {
        return IndexReader.indexExists(indexDir);
    }
 


 如果每次都是新徏索引的话,会把原来的记录删?我在使用的时候一开始就没有注意?后来观察了一下烦引文?才发现这个问?
 
 
 q可以看?建立索引是给用户的Document对象建立索引,Document表示索引中的一条文档记?那么我们如何建立一个文档那?以新ȝlؓ?代码如下:
 

     /**
      * 生成新闻的Document.
      *
      * @param aNews 一条新?
      *
      * @return lucene的文档对?br />       */
     public static Document makeNewsSearchDocument(NewsItem aNews)
     {
         Document doc = new Document();
 
         doc.add(Field.Keyword("nid", String.valueOf(aNews.getNid())));
 
         doc.add(Field.Text("title", aNews.getTitle()));
        
         //对Htmlq行解析,如果不是html,则不需要解?或者根据格式调用自q解析Ҏ
         String content = parseHtmlContent(aNews.getContent());
 
         doc.add(Field.UnStored("content", content));
 
         doc.add(Field.Keyword("addtime", aNews.getAddtime()));
 
         //可以加入其他的内?例如新闻的评论等
         doc.add(Field.UnStored("other", ""));
 
         //讉Kurl
         String newsUrl = "/srun/news/viewhtml/" + aNews.getHtmlFilePath() + "/" + aNews.getNid()
                         + ".htm";
 
         doc.add(Field.UnIndexed("visiturl", newsUrl));
 
         return doc;
     }


 
 通过上面的代?我们把一条新闻{换ؓlucene的Document对象,从而进行烦引工?在上面的代码?我们又引入了lucene中的Field(字段)c?Document文档像数据库中的一条记?它有很多字段,每个字段是一个Field对象.
 
 从别的文章摘抄一D关于Field的说?摘抄?a href="http://www.aygfsteel.com/cap/archive/2005/07/17/7849.html">http://www.aygfsteel.com/cap/archive/2005/07/17/7849.html):
 [quote]
    cd                               Analyzed Indexed Stored 说明
    Field.Keyword(String,String/Date)  N Y Y                    q个Field用来储存会直接用来检索的比如(~号,姓名,日期{?
    Field.UnIndexed(String,String)     N N Y                    不会用来索的信息,但是索后需要显C的,比如,g序列?文档的url地址
    Field.UnStored(String,String)      Y Y N                    大段文本内容,会用来检?但是索后不需要从index中取内容,可以Ҏurl去load真实的内?
    Field.Text(String,String)          Y Y Y                    ?获取都需要的内容,直接放index?不过q样会增大index
    Field.Text(String,Reader)          Y Y N                    如果是一个Reader, lucene猜测内容比较?会采用Unstored的策?
 [/quote]
 
 我们可以看到新闻的编h直接用来索的,所以是Keywordcd的字D?新闻的标题是需要检索和昄用的,所以是Textcd,而新ȝ内容因ؓ是Html格式?所以在l过解析器的处理?使用的UnStored的格?而新ȝ旉是直接用来检索的,所以是KeyWordcd.Z在新ȝ引后用户可以讉K到完整的新闻面,q设|了一个UnIndexedcd的访问地址字段.
 
 (对Htmlq行解析的处理稍后在q行讲解)
 
 Z条新d立烦引需要两个步?获取Document,传给makeIndex函数,代码如下:

    public static void makeNewsInfoIndex(NewsItem aNews)
    {
        if (null == aNews)
        {
            return;
        }
        makeIndex(makeNewsSearchDocument(aNews),indexDir);
    }  


 

 
 
 建立索引的工作就q行完了,只要在增加新d调用 makeNewsInfoIndex(newsitem); 可以徏立烦引了.
 
 如果需要删除新?那么也要删除对应的烦?删除索引是通过IndexReadercL完成?
 


    /**
     * 删除索引.
     * @param aTerm 索引删除条g
     * @param indexDir 索引目录
     */
    public static void deleteIndex(Term aTerm, String indexDir)
    {
        List aList = new ArrayList();
        aList.add(aTerm);
        deleteIndex(aList, indexDir);
    }

    /**
     * 删除索引.
     *
     * @param aTerm 索引删除条g.
     * @param indexDir 索引目录
     * 
     */
    public static void deleteIndex(List terms, String indexDir)
    {
        if (null == terms)
        {
            return;
        }
       
        if(!indexExist(indexDir)) { return; }

        IndexReader reader = null;
        try
        {
            reader = IndexReader.open(indexDir);
            for (int i = 0; i < terms.size(); i++)
            {
                Term aTerm = (Term) terms.get(i);
                if (null != aTerm)
                {
                    reader.delete(aTerm);
                }
            }
        }
        catch (IOException e)
        {
            LogMan.warn("Error in Delete Index", e);
        }
        finally
        {
            try
            {
                if (null != reader)
                {
                    reader.close();
                }
            }
            catch (IOException e)
            {
                LogMan.warn("Close reader Error");
            }
        }
    } 


 
 删除索引需要一个条?cM数据库中的字D|?例如删除一条新ȝ代码如下:
 

     public static void deleteNewsInfoIndex(int nid)
     {
         Term aTerm = new Term("nid", String.valueOf(nid));
         deleteIndex(aTerm,indexDir);
     }   




 通过新闻的ID,可以删除一条新?
 
 如果需要更新新?如何更新索引? 更新索引需要先删除索引然后新徏索引2个步?其实是把上面的代码l合h,例如更新一条新?

     public static void updateNewsInfoIndex(NewsItem aNews)
     {
         if (null == aNews)
         {
             return;
         }
         deleteNewsInfoIndex(aNews.getNid());
         makeNewsInfoIndex(aNews);
     } 
 



 
 x,索引的徏立更新和删除告一D落?其中扚w更新新闻的代码如?
 (扚w更新应该在访问h数少或者后台程序在夜间执行)

    public static void makeAllNewsInfoIndex(List newsList)
    {
        List terms = new ArrayList();
        List docs = new ArrayList();

        for (int i = 0; i < newsList.size(); i++)
        {
            NewsItem aitem = (NewsItem) newsList.get(i);
            if (null != aitem)
            {
                terms.add(new Term("nid", String.valueOf(aitem.getNid())));
                docs.add(makeNewsSearchDocument(aitem));
            }
        }

        deleteIndex(terms,indexDir);
        makeIndex(docs,indexDir);
    } 



? 2008-01-11 09:47 发表评论
]]>
汉字~码转换 http://www.aygfsteel.com/human2008/archive/2008/01/10/174233.html??Thu, 10 Jan 2008 03:46:00 GMThttp://www.aygfsteel.com/human2008/archive/2008/01/10/174233.htmlhttp://www.aygfsteel.com/human2008/comments/174233.htmlhttp://www.aygfsteel.com/human2008/archive/2008/01/10/174233.html#Feedback0http://www.aygfsteel.com/human2008/comments/commentRss/174233.htmlhttp://www.aygfsteel.com/human2008/services/trackbacks/174233.html

汉字~码转换

相关Q?/span>

UNICODE 是ؓ了处理包括中文,日文{字W而提出的一U通用的字W集。最初的UNICODE为双字节字符集,?6位编码,能够包括65Q?36个字W。但q样的容量ƈ不能满所有需要,因此Q现在的UNICODE已经扩展?个字节,能够容纳1,112,064 个字W,而这些在16位之后的扩展背称为增补字W?/span>

UTF-32 ?/span> UTF-16 ?/span> UTF-8 ?/span> Unicode 标准的编码字W集的字W编码方案?/span>

UTF-8 使用一臛_个字节的序列对编?/span> Unicode 代码点进行编?/span>

UTF-8 使用一臛_个字节的序列对编?Unicode 代码点进行编码。U+0000 ?U+007F 使用一个字节编码,U+0080 ?U+07FF 使用两个字节QU+0800 ?U+FFFF 使用三个字节Q?U+10000 ?U+10FFFF 使用四个字节。UTF-8 设计原理为:字节?0x00 ?0x7F 始终表示代码?U+0000 ?U+007FQBasic Latin 字符子集Q它对应 ASCII 字符集)。这些字节值永q不会表C其他代码点Q这一Ҏ UTF-8 可以很方便地在Y件中特D的含义赋予某些 ASCII 字符?/span>

  GB2312(1980 q?/span> ) 一共收录了 7445 个字W,包括 6763 个汉字和 682 个其它符受汉字区的内码范围高字节?/span> B0-F7 Q低字节?/span> A1-FE Q占用的码位?/span> 72*94=6768 。其中有 5 个空位是 D7FA-D7FE 。当然也可以表示数字和字W(一个字节,?/span> ASCII 表示相同Q?/span>

要读取一个以 GB2312 ~码的包含汉字、数字、字母的二进制文件?/span>

String strName =Encoding.GetEncoding("gb2312").GetString(name,0,i) ;

是读取的二进制数l?/span>

汉字、数字或字母

同样Q也可以包含汉字、数字、字母的字符串{换ؓ 二进制文件?/span>

Byte[] encodedBytes = Encoding.GetEncoding("gb2312").GetBytes(unicodeString);

当然也可以进行二q制数组与UNICODEQUTF-8{编码方式的转换

Byte[] encodedBytes = utf8.GetBytes(unicodeString);

String decodedString = utf8.GetString(encodedBytes);

UnicodeEncoding unicode = new UnicodeEncoding();

Byte[] encodedBytes = unicode.GetBytes(unicodeString);



? 2008-01-10 11:46 发表评论
]]>
JAVA数据cd转换 http://www.aygfsteel.com/human2008/archive/2008/01/10/174224.html??Thu, 10 Jan 2008 03:38:00 GMThttp://www.aygfsteel.com/human2008/archive/2008/01/10/174224.htmlhttp://www.aygfsteel.com/human2008/comments/174224.htmlhttp://www.aygfsteel.com/human2008/archive/2008/01/10/174224.html#Feedback0http://www.aygfsteel.com/human2008/comments/commentRss/174224.htmlhttp://www.aygfsteel.com/human2008/services/trackbacks/174224.html基本cd有以下四U:
int长度数据cd有:byte(8bits)、short(16bits)、int(32bits)、long(64bits)?br /> float长度数据cd有:单精度(32bits floatQ、双_ֺQ?4bits doubleQ?br /> booleancd变量的取值有Qture、false
char数据cd有:unicode字符,16?br /> 对应的类cdQ?br /> Integer、Float、Boolean、Character、Double、Short、Byte、Long


转换原则Q?br /> 从低_ֺ向高_ֺ转换
byte 、short、int、long、float、double、char
注:两个char型运时Q自动{换ؓint型;当char与别的类型运时Q也会先自动转换为int型的Q再做其它类型的自动转换

基本cd向类cd转换

正向转换Q?br /> 通过cd装器来newZ个新的类cd的变?br /> Integer a= new Integer(2);

反向转换Q?br /> 通过cd装器来{?br /> int b=a.intValue();
cȝ型向字符串{?/p>


正向转换Q?br /> 因ؓ每个c都是objectcȝ子类Q而所有的objectc都有一个toString()函数Q所以通过toString()函数来{换即?/p>

反向转换Q?br /> 通过cd装器newZ个新的类cd的变?br /> eg1: int i=Integer.valueOf(“123”).intValue()
说明Q上例是一个字W串转化成一个Integer对象Q然后再调用q个对象的intValue()Ҏq回其对应的int数倹{?br /> eg2: float f=Float.valueOf(“123”).floatValue()
说明Q上例是一个字W串转化成一个Float对象Q然后再调用q个对象的floatValue()Ҏq回其对应的float数倹{?br /> eg3: boolean b=Boolean.valueOf(“123”).booleanValue()
说明Q上例是一个字W串转化成一个Boolean对象Q然后再调用q个对象的booleanValue()Ҏq回其对应的boolean数倹{?br /> eg4:Double d=Double.valueOf(“123”).doubleValue()
说明Q上例是一个字W串转化成一个Double对象Q然后再调用q个对象的doubleValue()Ҏq回其对应的double数倹{?br /> eg5: long l=Long.valueOf(“123”).longValue()
说明Q上例是一个字W串转化成一个Long对象Q然后再调用q个对象的longValue()Ҏq回其对应的long数倹{?br /> eg6: char=Character.valueOf(“123”).charValue()
说明Q上例是一个字W串转化成一个Character对象Q然后再调用q个对象的charValue()Ҏq回其对应的char数倹{?/p>


基本cd向字W串的{?/p>

正向转换Q?br /> 如:int a=12;
String b;
b=a+””;

反向转换Q?br /> 通过cd装器
eg1:
int i=Integer.parseInt(“123”)
说明Q此Ҏ只能适用于字W串转化成整型变?br /> eg2: float f=Float.valueOf(“123”).floatValue()
说明Q上例是一个字W串转化成一个Float对象Q然后再调用q个对象的floatValue()Ҏq回其对应的float数倹{?br /> eg3: boolean b=Boolean.valueOf(“123”).booleanValue()
说明Q上例是一个字W串转化成一个Boolean对象Q然后再调用q个对象的booleanValue()Ҏq回其对应的boolean数倹{?br /> eg4:Double d=Double.valueOf(“123”).doubleValue()
说明Q上例是一个字W串转化成一个Double对象Q然后再调用q个对象的doubleValue()Ҏq回其对应的double数倹{?br /> eg5: long l=Long.valueOf(“123”).longValue()
说明Q上例是一个字W串转化成一个Long对象Q然后再调用q个对象的longValue()Ҏq回其对应的long数倹{?br /> eg6: char=Character.valueOf(“123”).charValue()
说明Q上例是一个字W串转化成一个Character对象Q然后再调用q个对象的charValue()Ҏq回其对应的char数倹{?/p>

? 2008-01-10 11:38 发表评论
]]>
վ֩ģ壺 | ƽ| | °Ͷ| | ƽ| | | ɽ| | | IJ| ƽ| | | | ĺ| Դ| | ͺ| | ¡| ʡ| | ɽ| | ľ| | | | | | | ɽ| | | | | ֿ| Ǽ| |