2008年10月17日 #

          java 數(shù)據(jù)庫(kù)緩沖池 使用c3p0

          c3p0很容易使用的開(kāi)源專(zhuān)業(yè)級(jí)jdbc數(shù)據(jù)庫(kù)緩沖池。
          它是sourceforge上的一個(gè)開(kāi)源項(xiàng)目,
          項(xiàng)目在
          http://sourceforge.net/projects/c3p0
          他的眾多特性這里就不一一介紹了。
          比較爽的一點(diǎn)就是
          當(dāng)Connection歸還緩沖池時(shí),c3p0會(huì)很小心的關(guān)閉
          這條連接打開(kāi)的Statement和ResultSet,免去了使用時(shí)
          自己動(dòng)手小心翼翼的關(guān)閉。

          c3p0使用非常簡(jiǎn)單,這里給一個(gè)例子

          package common.db;

          import java.sql.Connection;
          import java.sql.SQLException;
          import java.util.Properties;


          import com.mchange.v2.c3p0.ComboPooledDataSource;
          import com.mchange.v2.c3p0.DataSources;

          public final class ConnectionManager {
          ?private static ConnectionManager instance;
          ?
          ?public ComboPooledDataSource ds;
          ?private static String c3p0Properties="c3p0.properties";
          ?
          ?private ConnectionManager() throws Exception {
          ??Properties p = new Properties();
          ??p.load(this.getClass().getResourceAsStream(c3p0Properties));
          ??ds = new ComboPooledDataSource();
          ?}
          ?
          ?public static final ConnectionManager getInstance() {
          ??if (instance == null) {
          ???try {
          ????instance = new ConnectionManager();
          ???} catch (Exception e) {
          ????e.printStackTrace();
          ???}
          ??}
          ??return instance;
          ?}
          ?
          ?public synchronized final Connection getConnection() {
          ??try {
          ???return ds.getConnection();
          ??} catch (SQLException e) {
          ???e.printStackTrace();
          ??}
          ??return null;
          ?}

          ?protected void finalize() throws Throwable {
          ??DataSources.destroy(ds);?//關(guān)閉datasource
          ??super.finalize();
          ?}
          ?
          }

          然后在ConnectionManager類(lèi)的目錄下再創(chuàng)建一個(gè)配置文件c3p0.properties
          內(nèi)容如下:
          #db login parameters
          driverClass=com.mysql.jdbc.Driver
          jdbcUrl=jdbc:mysql://localhost/test?useUnicode=no&characterEncoding=GBK
          user=test
          password=test

          #pool parameters
          initialPoolSize=2
          maxPoolSize=5
          #maxIdleTime=10
          #idleConnectionTestPeriod=5
          autoCommitOnClose=true

          完整的配置文件參數(shù)參看c3p0的文檔

          使用connection時(shí)很簡(jiǎn)單
          Connection conn = ConnectionManager.getInstance().getConnection();
          ...
          最后 conn.close() 即可,

          posted @ 2008-10-23 10:24 金家寶 閱讀(4355) | 評(píng)論 (2)編輯 收藏

          JDBC也分2.0和3.0?

          如題。研究中...以前沒(méi)有注意過(guò)。

          posted @ 2008-10-23 10:10 金家寶 閱讀(299) | 評(píng)論 (0)編輯 收藏

          鯉魚(yú)論壇 研究筆記(未)

          2008.10.21第一天
          網(wǎng)站地址: http://www.liyunet.com/
          源碼下載: http://www.liyunet.com/bbs/download.jsp

          我主要是利用該論壇的簡(jiǎn)易性來(lái)研究JSP技術(shù),以及緩存技術(shù)。雖然說(shuō)目前大部分論壇應(yīng)用的都是主流框架技術(shù),但說(shuō)回來(lái),這些框架也只是對(duì)JSP等相關(guān)技術(shù)的一個(gè)封裝,而了解底部應(yīng)用及其原理更容易讓我理解主流框架的內(nèi)部原理機(jī)制。不至于讓框架把我們變成“傻子”。


          那就開(kāi)始吧
          首先,和某些大蝦一樣的習(xí)慣,我們從WEB-INF下的web.xml開(kāi)始,從以下代碼中可以發(fā)現(xiàn)隨著tomcat啟動(dòng)時(shí),自動(dòng)加載了InitServlet類(lèi)。這是一個(gè)Servlet類(lèi)。
          WEB-INF\web.xml部分代碼:
          1
          2<servlet-name>InitServlet</servlet-name>
          3????????<servlet-class>com.bcxy.servlet.InitServlet</servlet-class>
          4????????<load-on-startup>1</load-on-startup>
          5??????</servlet>
          6

          查看com.bcxy.servlet.InitServlet類(lèi),代碼很簡(jiǎn)單:
          開(kāi)始做了一個(gè)對(duì)此類(lèi)日志(log4j)的綁定。接著通過(guò)SystemConfig取得了系統(tǒng)配置中的連接類(lèi)型conntype(查看classes目錄下的SystemConfig.xml可知此變量是判斷使用連接池的類(lèi)型0:3P0; 1:Proxool)。接著是初始化操作,記錄一些必要的啟動(dòng)信息(log4j)(其中做了本地地址和網(wǎng)絡(luò)訪問(wèn)地址的轉(zhuǎn)換)。
          用DBUtil.close測(cè)試連接池是否加載成功。
          最后是釋放類(lèi)所做的必要操作。判斷使用的是哪一種連接池,然后關(guān)閉。這樣我們的第一個(gè)類(lèi)就分析完畢。
          接著需要了解到
          SystemConfig類(lèi)是加載SystemConfig.xml配置文件,并設(shè)定方法去讀取。其中有一定的類(lèi)型轉(zhuǎn)換。

          此時(shí)似乎已經(jīng)找不到頭緒了。那這樣吧。我們就開(kāi)始訪問(wèn)我們自己搭建的論壇,從首頁(yè)開(kāi)始,也就是index.jsp頁(yè)面。
          瀏覽index.jsp代碼,由上向下理解每一個(gè)語(yǔ)句的含義(整體分體)。

          設(shè)定頁(yè)面編碼;導(dǎo)入IPLocalizer類(lèi)(應(yīng)該是做IP顯示的工具類(lèi));插入INC/const.jsp頁(yè)(過(guò)后會(huì)有分析);設(shè)定stats變量數(shù)值(通過(guò)閱讀其他jsp頁(yè)面發(fā)現(xiàn),此變量的作用主要是在于在首頁(yè)顯示用戶(hù)狀態(tài)時(shí),兼并顯示當(dāng)前用戶(hù)做瀏覽的頁(yè)面:也就是stats的值,這樣我們可以在客戶(hù)可訪問(wèn)的范圍內(nèi)對(duì)stats變量進(jìn)行設(shè)置,就可以查看在線用戶(hù)的當(dāng)前行為);繼續(xù)插入INC/theme.jsp(估計(jì)是定制論壇模板的文件);<table>標(biāo)簽內(nèi)部就是連接到相關(guān)顯示數(shù)據(jù)信息的jsp頁(yè)面并附加了參數(shù)。其中的一些格式是通過(guò)上面引用文件中的變量設(shè)置,相對(duì)不難理解;論壇消息廣播部分,通過(guò)一個(gè)可執(zhí)行jsp頁(yè)面vector顯示在首頁(yè)頂部,當(dāng)中訪問(wèn)數(shù)據(jù)庫(kù)的細(xì)節(jié)需要進(jìn)一步研究代碼);接著是帖子的遍歷,也就是首頁(yè)最關(guān)鍵的部分,這里看起來(lái)不是由jsp頁(yè)面來(lái)負(fù)責(zé)獲取數(shù)據(jù),而是通過(guò)Forum類(lèi)來(lái)獲取一些過(guò)濾之后的數(shù)據(jù):這里所說(shuō)的過(guò)濾是例如置頂帖子,最新帖子等有一些特殊標(biāo)記的數(shù)據(jù):;
          index.jsp的其他部分就都是大同小異了。都是通過(guò)一個(gè)遍歷來(lái)展現(xiàn)具有相同特性的數(shù)據(jù)。;大家需要注意一些關(guān)于頁(yè)面表現(xiàn)的而非java技術(shù)的部分,例如信息層的提示,和一些圖片連接。
          通過(guò)index.jsp的學(xué)習(xí),我們大概已經(jīng)了解了大部分jsp頁(yè)面代碼的表現(xiàn)形式和含義。當(dāng)然,一定要注意在這個(gè)過(guò)程中,參數(shù)傳遞、參數(shù)獲取的代碼部分,不要遺漏。除了一些我們可以看到的頁(yè)面之外,上面部分也講到了一些并不用于顯示給用戶(hù)的頁(yè)面,這里我們認(rèn)為它是可執(zhí)行頁(yè)面,也就是說(shuō)它對(duì)我們的數(shù)據(jù)和請(qǐng)求做了一些處理,或者說(shuō)把我們的請(qǐng)求轉(zhuǎn)交給了服務(wù)器(比如servlet)。

          預(yù)計(jì)晚上要研究一下有關(guān)數(shù)據(jù)庫(kù)方面的存取類(lèi)JdbcWrapper以及連接獲取和釋放、數(shù)據(jù)查詢(xún)插入。
          2008.10.22
          大概昨天寫(xiě)的已經(jīng)忘的差不多了,那么我們還是從index.jsp文件開(kāi)始,前幾行沒(méi)有什么問(wèn)題,都是一些導(dǎo)入文件的標(biāo)簽,那么我們從SkinUtil.這個(gè)類(lèi)入手。在查看SkinUtil類(lèi)代碼的時(shí)候我們發(fā)現(xiàn)里面應(yīng)用了一些com\bcxy\bbs\util?包中類(lèi),其中含有三個(gè)工具類(lèi)。(偷笑,看了文件大小,應(yīng)該代碼不多,我們看看里面都是什么)在開(kāi)始之前我們應(yīng)了解一下GCookie.java類(lèi)的大概內(nèi)容和作用。看導(dǎo)入包我們可以大概了解一下此類(lèi)的作用:對(duì)URL的編碼與解碼,產(chǎn)生和讀取Cookie,還有就是做一些日志記錄(log4j)。
          我們仔細(xì)閱讀后,了解到,其中有一個(gè)重載方法,也就是setCookie方法,根據(jù)不同的參數(shù),可以讓我們選擇直接賦予變量名和值的方法,或者是賦予變量名和值另外加上最大保存時(shí)間的方法。? 類(lèi)中的另一個(gè)方法是獲取Cookie方法值。
          ParamUtil類(lèi)也很簡(jiǎn)單,是取得字符串和 取得整數(shù)的重載方法,其中的參數(shù)決定是否有默認(rèn)值,是否需要轉(zhuǎn)碼。
          SysUtil類(lèi)中根據(jù)SystemConfig類(lèi)中的讀取方法讀取配置文件systemconfig.properties,按照里面的設(shè)置,來(lái)判斷是否對(duì)參數(shù)和數(shù)據(jù)庫(kù)讀取操作中的參數(shù)進(jìn)行編碼。其中還有一個(gè)方法是取得真實(shí)地址,當(dāng)然這些都是根據(jù)systemconfig.properties文件中配置而定的。
          BBSCconst.java類(lèi)簡(jiǎn)單的設(shè)置了一些常量。作用是設(shè)置數(shù)據(jù)庫(kù)表名的時(shí)候加上systemconfig.properties中設(shè)置的前綴。
          回到SkinUtil.java類(lèi)似乎看起來(lái)一些剛剛還陌生的類(lèi)方法,顯得明朗。前面設(shè)置了一個(gè)Cookie的變量名并賦了值。

          ret?=?new?JdbcWrapper().doIntSearch(sql,?0);

          這里用到了新類(lèi),也就是我們昨天說(shuō)過(guò)的要了解的關(guān)于數(shù)據(jù)庫(kù)連接的類(lèi)。也是今天要解決的重點(diǎn)。打開(kāi)JdbcWrapper類(lèi),查看代碼.(插一句,看代碼的時(shí)候,我覺(jué)得先看包名,了解大概要用到的類(lèi)和方法,去設(shè)想這個(gè)類(lèi)要實(shí)現(xiàn)的功能),yi一眼看來(lái),大概都熟悉,無(wú)非是連接數(shù)據(jù)庫(kù) 讀取,結(jié)果保存,異常,還有一些類(lèi)似數(shù)組的HashMap還有遍歷用得Iterator。想想,大概就是數(shù)據(jù)層的一些基礎(chǔ)CRUD操作。但是其中有個(gè)類(lèi)不是很熟悉,DatabaseMetaData類(lèi),查看sun公司的在線文檔,發(fā)現(xiàn)這是個(gè)接口而且方法奇多,文檔的第一句這么寫(xiě),

          Comprehensive?information?about?the?database?as?a?whole.?

          我也不能理解這句話(huà)包含了什么內(nèi)容。不管他,在程序中慢慢體會(huì)吧。JdbcWrapper這個(gè)類(lèi)有點(diǎn)長(zhǎng),不過(guò),大部分方法都有類(lèi)似的作用,也就是說(shuō)真正不同功能的代碼也只有幾分之一而已。我看的都想睡覺(jué)了。

          在網(wǎng)吧,因?yàn)椴槐悖入x開(kāi)咯
          今天還好,自己有一臺(tái)電腦,可以不限制時(shí)間。繼續(xù)工作....
          之前研究JdbcWrapper類(lèi)的時(shí)候有一個(gè)小小的疑問(wèn)。如下

          ?

          ?1?????//######這里有一點(diǎn)不明白,為什么要判斷getAutoClose()
          ?2????/*
          ?3?????*?當(dāng)需要事務(wù)支持時(shí),需要設(shè)置autoClose=false,那就等到事務(wù)提交時(shí)再關(guān)閉數(shù)據(jù)庫(kù)連接。
          ?4?????*?*/

          ?5????public?void?closeConnection()?{
          ?6????????if?(getAutoClose())?{
          ?7????????????DBUtil.close(pstmt,?con);
          ?8????????}

          ?9????}

          10

          今天看群里鯉魚(yú)回答內(nèi)容如下:

          當(dāng)需要事務(wù)支持時(shí),需要設(shè)置autoClose=false,那就等到事務(wù)提交時(shí)再關(guān)閉數(shù)據(jù)庫(kù)連接。


          一時(shí)還沒(méi)有理解開(kāi)來(lái)。
          看過(guò)來(lái)看過(guò)去,JdbcWrapper類(lèi)對(duì)我來(lái)講還是有一部分難以理解。索性不去管它,等在下面的代碼中出現(xiàn)時(shí),反復(fù)查閱應(yīng)該會(huì)有更多的收獲。

          posted @ 2008-10-21 11:47 金家寶 閱讀(368) | 評(píng)論 (0)編輯 收藏

          關(guān)于正則表達(dá)式

          *匹配除了換行之外的所有字符

          合法IP的正則表達(dá)式 ((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

          \s匹配任意的空白符、(空格、制表符、換行符、中文全角空格)
          \w匹配字母或數(shù)字或下劃線或漢字

          表1.常用的元字符
          代碼說(shuō)明
          .匹配除換行符以外的任意字符
          \w匹配字母或數(shù)字或下劃線或漢字
          \s匹配任意的空白符
          \d匹配數(shù)字
          \b匹配單詞的開(kāi)始或結(jié)束
          ^匹配字符串的開(kāi)始
          $匹配字符串的結(jié)束


          表2.常用的限定符
          代碼/語(yǔ)法說(shuō)明
          *重復(fù)零次或更多次
          +重復(fù)一次或更多次
          ?重復(fù)零次或一次
          {n}重復(fù)n次
          {n,}重復(fù)n次或更多次
          {n,m}重復(fù)n到m次


          后向引用

          使用小括號(hào)指定一個(gè)子表達(dá)式后,匹配這個(gè)子表達(dá)式的文本(也就是此分組捕獲的內(nèi)容)可以在表達(dá)式或其它程序中作進(jìn)一步的處理。默認(rèn)情況下,每個(gè)分組會(huì)自動(dòng)擁有一個(gè)組號(hào),規(guī)則是:從左向右,以分組的左括號(hào)為標(biāo)志,第一個(gè)出現(xiàn)的分組的組號(hào)為1,第二個(gè)為2,以此類(lèi)推。

          后向引用用于重復(fù)搜索前面某個(gè)分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請(qǐng)看示例:

          \b(\w+)\b\s+\1\b可以用來(lái)匹配重復(fù)的單詞,像go go, 或者kitty kitty。這個(gè)表達(dá)式首先是一個(gè)單詞,也就是單詞開(kāi)始處和結(jié)束處之間的多于一個(gè)的字母或數(shù)字(\b(\w+)\b),這個(gè)單詞會(huì)被捕獲到編號(hào)為1的分組中,然后是1個(gè)或幾個(gè)空白符(\s+),最后是分組1中捕獲的內(nèi)容(也就是前面匹配的那個(gè)單詞)(\1)。

          你也可以自己指定子表達(dá)式的組名。要指定一個(gè)子表達(dá)式的組名,請(qǐng)使用這樣的語(yǔ)法:(?<Word>\w+)(或者把尖括號(hào)換成'也行:(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個(gè)分組捕獲的內(nèi)容,你可以使用\k<Word>,所以上一個(gè)例子也可以寫(xiě)成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b

          使用小括號(hào)的時(shí)候,還有很多特定用途的語(yǔ)法。下面列出了最常用的一些:

          表4.常用分組語(yǔ)法
          分類(lèi)代碼/語(yǔ)法說(shuō)明
          捕獲(exp)匹配exp,并捕獲文本到自動(dòng)命名的組里
          (?<name>exp)匹配exp,并捕獲文本到名稱(chēng)為name的組里,也可以寫(xiě)成(?'name'exp)
          (?:exp)匹配exp,不捕獲匹配的文本,也不給此分組分配組號(hào)
          零寬斷言(?=exp)匹配exp前面的位置
          (?<=exp)匹配exp后面的位置
          (?!exp)匹配后面跟的不是exp的位置
          (?<!exp)匹配前面不是exp的位置
          注釋(?#comment)這種類(lèi)型的分組不對(duì)正則表達(dá)式的處理產(chǎn)生任何影響,用于提供注釋讓人閱讀


          表5.懶惰限定符
          代碼/語(yǔ)法說(shuō)明
          *?重復(fù)任意次,但盡可能少重復(fù)
          +?重復(fù)1次或更多次,但盡可能少重復(fù)
          ??重復(fù)0次或1次,但盡可能少重復(fù)
          {n,m}?重復(fù)n到m次,但盡可能少重復(fù)
          {n,}?重復(fù)n次以上,但盡可能少重復(fù)


          表6.常用的處理選項(xiàng)
          名稱(chēng)說(shuō)明
          IgnoreCase(忽略大小寫(xiě))匹配時(shí)不區(qū)分大小寫(xiě)。
          Multiline(多行模式)更改^$的含義,使它們分別在任意一行的行首和行尾匹配,而不僅僅在整個(gè)字符串的開(kāi)頭和結(jié)尾匹配。(在此模式下,$的精確含意是:匹配\n之前的位置以及字符串結(jié)束前的位置.)
          Singleline(單行模式)更改.的含義,使它與每一個(gè)字符匹配(包括換行符\n)。
          IgnorePatternWhitespace(忽略空白)忽略表達(dá)式中的非轉(zhuǎn)義空白并啟用由#標(biāo)記的注釋。
          RightToLeft(從右向左查找)匹配從右向左而不是從左向右進(jìn)行。
          ExplicitCapture(顯式捕獲)僅捕獲已被顯式命名的組。
          ECMAScript(JavaScript兼容模式)使表達(dá)式的行為與它在JavaScript里的行為一致。
          表7.尚未詳細(xì)討論的語(yǔ)法
          代碼/語(yǔ)法說(shuō)明
          \a報(bào)警字符(打印它的效果是電腦嘀一聲)
          \b通常是單詞分界位置,但如果在字符類(lèi)里使用代表退格
          \t制表符,Tab
          \r回車(chē)
          \v豎向制表符
          \f換頁(yè)符
          \n換行符
          \eEscape
          \0nnASCII代碼中八進(jìn)制代碼為nn的字符
          \xnnASCII代碼中十六進(jìn)制代碼為nn的字符
          \unnnnUnicode代碼中十六進(jìn)制代碼為nnnn的字符
          \cNASCII控制字符。比如\cC代表Ctrl+C
          \A字符串開(kāi)頭(類(lèi)似^,但不受處理多行選項(xiàng)的影響)
          \Z字符串結(jié)尾或行尾(不受處理多行選項(xiàng)的影響)
          \z字符串結(jié)尾(類(lèi)似$,但不受處理多行選項(xiàng)的影響)
          \G當(dāng)前搜索的開(kāi)頭
          \p{name}Unicode中命名為name的字符類(lèi),例如\p{IsGreek}
          (?>exp)貪婪子表達(dá)式
          (?<x>-<y>exp)平衡組
          (?im-nsx:exp)在子表達(dá)式exp中改變處理選項(xiàng)
          (?im-nsx)為表達(dá)式后面的部分改變處理選項(xiàng)
          (?(exp)yes|no)把exp當(dāng)作零寬正向先行斷言,如果在這個(gè)位置能匹配,使用yes作為此組的表達(dá)式;否則使用no
          (?(exp)yes)同上,只是使用空表達(dá)式作為no
          (?(name)yes|no)如果命名為name的組捕獲到了內(nèi)容,使用yes作為表達(dá)式;否則使用no
          (?(name)yes)同上,只是使用空表達(dá)式作為no

          posted @ 2008-10-17 11:10 金家寶 閱讀(331) | 評(píng)論 (1)編輯 收藏

          Lucene倒排索引原理(轉(zhuǎn))

          Lucene是一個(gè)高性能的java全文檢索工具包,它使用的是倒排文件索引結(jié)構(gòu)。該結(jié)構(gòu)及相應(yīng)的生成算法如下:

          0)設(shè)有兩篇文章1和2
          文章1的內(nèi)容為:Tom?lives?in?Guangzhou,I?live?in?Guangzhou?too.
          文章2的內(nèi)容為:He?once?lived?in?Shanghai.

          1)由于lucene是基于關(guān)鍵詞索引和查詢(xún)的,首先我們要取得這兩篇文章的關(guān)鍵詞,通常我們需要如下處理措施
          a.我們現(xiàn)在有的是文章內(nèi)容,即一個(gè)字符串,我們先要找出字符串中的所有單詞,即分詞。英文單詞由于用空格分隔,比較好處理。中文單詞間是連在一起的需要特殊的分詞處理。
          b.文章中的”in”,?“once”?“too”等詞沒(méi)有什么實(shí)際意義,中文中的“的”“是”等字通常也無(wú)具體含義,這些不代表概念的詞可以過(guò)濾掉
          c.用戶(hù)通常希望查“He”時(shí)能把含“he”,“HE”的文章也找出來(lái),所以所有單詞需要統(tǒng)一大小寫(xiě)。
          d.用戶(hù)通常希望查“l(fā)ive”時(shí)能把含“l(fā)ives”,“l(fā)ived”的文章也找出來(lái),所以需要把“l(fā)ives”,“l(fā)ived”還原成“l(fā)ive”
          e.文章中的標(biāo)點(diǎn)符號(hào)通常不表示某種概念,也可以過(guò)濾掉
          在lucene中以上措施由Analyzer類(lèi)完成

          經(jīng)過(guò)上面處理后
          ????文章1的所有關(guān)鍵詞為:[tom]?[live]?[guangzhou]?[i]?[live]?[guangzhou]
          ????文章2的所有關(guān)鍵詞為:[he]?[live]?[shanghai]

          2)?有了關(guān)鍵詞后,我們就可以建立倒排索引了。上面的對(duì)應(yīng)關(guān)系是:“文章號(hào)”對(duì)“文章中所有關(guān)鍵詞”。倒排索引把這個(gè)關(guān)系倒過(guò)來(lái),變成:“關(guān)鍵詞”對(duì)“擁有該關(guān)鍵詞的所有文章號(hào)”。文章1,2經(jīng)過(guò)倒排后變成
          關(guān)鍵詞???文章號(hào)
          guangzhou??1
          he?????????2
          i???????????1
          live???????1,2
          shanghai???2
          tom?????????1

          通常僅知道關(guān)鍵詞在哪些文章中出現(xiàn)還不夠,我們還需要知道關(guān)鍵詞在文章中出現(xiàn)次數(shù)和出現(xiàn)的位置,通常有兩種位置:a)字符位置,即記錄該詞是文章中第幾個(gè)字符(優(yōu)點(diǎn)是關(guān)鍵詞亮顯時(shí)定位快);b)關(guān)鍵詞位置,即記錄該詞是文章中第幾個(gè)關(guān)鍵詞(優(yōu)點(diǎn)是節(jié)約索引空間、詞組(phase)查詢(xún)快),lucene中記錄的就是這種位置。

          加上“出現(xiàn)頻率”和“出現(xiàn)位置”信息后,我們的索引結(jié)構(gòu)變?yōu)椋?br />關(guān)鍵詞???文章號(hào)[出現(xiàn)頻率]???出現(xiàn)位置
          guangzhou?1[2]???????????????3,6
          he???????2[1]???????????????1
          i?????????1[1]???????????????4
          live??????1[2],2[1]???????????2,5,2
          shanghai??2[1]???????????????3
          tom??????1[1]???????????????1

          以live 這行為例我們說(shuō)明一下該結(jié)構(gòu):live在文章1中出現(xiàn)了2次,文章2中出現(xiàn)了一次,它的出現(xiàn)位置為“2,5,2”這表示什么呢?我們需要結(jié)合文章號(hào)和出現(xiàn)頻率來(lái)分析,文章1中出現(xiàn)了2次,那么“2,5”就表示live在文章1中出現(xiàn)的兩個(gè)位置,文章2中出現(xiàn)了一次,剩下的“2”就表示live是文章2中第 2個(gè)關(guān)鍵字。
          ????
          以上就是lucene索引結(jié)構(gòu)中最核心的部分。我們注意到關(guān)鍵字是按字符順序排列的(lucene沒(méi)有使用B樹(shù)結(jié)構(gòu)),因此lucene可以用二元搜索算法快速定位關(guān)鍵詞。
          ????
          實(shí)現(xiàn)時(shí)?lucene將上面三列分別作為詞典文件(Term?Dictionary)、頻率文件(frequencies)、位置文件 (positions)保存。其中詞典文件不僅保存有每個(gè)關(guān)鍵詞,還保留了指向頻率文件和位置文件的指針,通過(guò)指針可以找到該關(guān)鍵字的頻率信息和位置信息。

          ????Lucene中使用了field的概念,用于表達(dá)信息所在位置(如標(biāo)題中,文章中,url中),在建索引中,該field信息也記錄在詞典文件中,每個(gè)關(guān)鍵詞都有一個(gè)field信息(因?yàn)槊總€(gè)關(guān)鍵字一定屬于一個(gè)或多個(gè)field)。

          ???? 為了減小索引文件的大小,Lucene對(duì)索引還使用了壓縮技術(shù)。首先,對(duì)詞典文件中的關(guān)鍵詞進(jìn)行了壓縮,關(guān)鍵詞壓縮為<前綴長(zhǎng)度,后綴>,例如:當(dāng)前詞為“阿拉伯語(yǔ)”,上一個(gè)詞為“阿拉伯”,那么“阿拉伯語(yǔ)”壓縮為<3,語(yǔ)>。其次大量用到的是對(duì)數(shù)字的壓縮,數(shù)字只保存與上一個(gè)值的差值(這樣可以減小數(shù)字的長(zhǎng)度,進(jìn)而減少保存該數(shù)字需要的字節(jié)數(shù))。例如當(dāng)前文章號(hào)是16389(不壓縮要用3個(gè)字節(jié)保存),上一文章號(hào)是16382,壓縮后保存7(只用一個(gè)字節(jié))。
          ????
          ????下面我們可以通過(guò)對(duì)該索引的查詢(xún)來(lái)解釋一下為什么要建立索引。
          假設(shè)要查詢(xún)單詞?“l(fā)ive”,lucene先對(duì)詞典二元查找、找到該詞,通過(guò)指向頻率文件的指針讀出所有文章號(hào),然后返回結(jié)果。詞典通常非常小,因而,整個(gè)過(guò)程的時(shí)間是毫秒級(jí)的。
          而用普通的順序匹配算法,不建索引,而是對(duì)所有文章的內(nèi)容進(jìn)行字符串匹配,這個(gè)過(guò)程將會(huì)相當(dāng)緩慢,當(dāng)文章數(shù)目很大時(shí),時(shí)間往往是無(wú)法忍受的。

          posted @ 2008-10-17 09:43 金家寶 閱讀(2846) | 評(píng)論 (1)編輯 收藏

          主站蜘蛛池模板: 南京市| 昆山市| 罗田县| 颍上县| 五台县| 砚山县| 拜泉县| 临澧县| 衡水市| 龙山县| 东方市| 日照市| 贵阳市| 小金县| 塔城市| 东山县| 长寿区| 德格县| 沙湾县| 新和县| 永泰县| 蛟河市| 墨玉县| 聂荣县| 青川县| 双鸭山市| 梅河口市| 泽州县| 镇沅| 鹰潭市| 治多县| 寿光市| 类乌齐县| 无锡市| 新兴县| 新宾| 团风县| 南部县| 张家川| 张北县| 沭阳县|