關(guān)于線程及線程池的基本知識(shí)
摘要: 線程是Java的一大特性,它可以是給定的指令序列、給定的方法中定義的變量或者一些共享數(shù)據(jù)(類一級(jí)的變量)。在Java中每個(gè)線程有自己的堆棧和程序計(jì)數(shù)器(PC),其中堆棧是用來跟蹤線程的上下文(上下文是當(dāng)線程執(zhí)行到某處時(shí),當(dāng)前的局部變量的值),而程序計(jì)數(shù)器則用來跟蹤當(dāng)前線程正在執(zhí)行的指令。
閱讀全文
JAVA性能優(yōu)化-通用篇
摘要: “通用篇”討論的問題適合于大多數(shù)Java應(yīng)用。
閱讀全文
輸出全組合字符序列排列的算法
摘要: 全組合是本人根據(jù)全排列的說法創(chuàng)造的,其表達(dá)的內(nèi)容是:將2Cn到(n-1)Cn對(duì)應(yīng)的字符串序列依次輸出(當(dāng)然了,會(huì)去掉組合數(shù)值相同的組合排列,也就是只需要計(jì)算2~(n-1)/2)),這樣能夠滿足特定部門的需求
閱讀全文
清華文通掃描識(shí)別保存文件之研究、分析
摘要: 其核心思想是,對(duì)紙張掃描后的圖片進(jìn)行分而治之的思想,由大化小。這和現(xiàn)在Google的MapReduce,Nutch中使用的Hadoop的思想是一致的。看來計(jì)算機(jī)中的算法到了一定程度上也有了哲學(xué)的東西在其中啊,畢竟計(jì)算機(jī)是用于解決人類世界的問題的,所以哲學(xué)也在計(jì)算機(jī)算法之上啊。
閱讀全文
OpenOffice.org之戀(六)
摘要: 如果辦公軟件組件支持適用于實(shí)現(xiàn) com.sun.star.document.OfficeDocument 服務(wù)的每個(gè)組件的com.sun.star.frame.XStorable 接口,則可以存儲(chǔ)該組件
閱讀全文
Nutch 相關(guān) (三) Nutch的分詞的架構(gòu)
摘要: Nutch分詞的最底層使用的是lucene的Analyzer抽象類,它位于org.apache.lucene.analysis包中, NutchAnalyzer繼承了Analyzer類、實(shí)現(xiàn)了Configurable、Pluggable接口,該抽象類中定義了一個(gè)公有的抽象方法 tokenStream(String fieldName, Reader reader)返回的類型是TokenStream。
閱讀全文
Nutch 相關(guān) (二)分詞的算法
摘要: 說到Nutch中要使用中文分詞,因?yàn)橹形姆衷~程序的速度很快,需要分詞的每篇文章字?jǐn)?shù)不會(huì)達(dá)到需要占用其很長時(shí)間的程度。因此,對(duì)于每篇文章分詞的請(qǐng)求可以看作是大量短小線程的請(qǐng)求,此時(shí)使用線程池技術(shù)是非常合適的,它可以極大減小線程的創(chuàng)建和銷毀次數(shù),提高程序的工作效率。
閱讀全文
Nutch 相關(guān) (一) 爬蟲的研究
摘要: Nutch是支持插件擴(kuò)展的,這樣就可以滿足各個(gè)不同使用群體的特定需求,例如是要做垂直搜索,并收集特定信息的收集
閱讀全文
OpenOffice.org之戀(五)
摘要: OOo 中的“框架 - 控制器 - 模型”模式
閱讀全文