泰仔在線

          java學習,心情日記,繽紛時刻
          posts - 100, comments - 34, trackbacks - 0, articles - 0

               摘要: Oracle 實在太強了,本篇文章詳細介紹了Oracle的遞歸查詢語法,利用此語法,可以方便地實現(xiàn)遞歸的雙向查詢:

          -- Tirle : Recursion query for TREE with "connect by/start with"
          -- Author : Rake Gao
          -- Create Date : 2005-08-22
          -- Version : 2.0
          -- Last Modify : 2005-08-22

          目 錄
          一、測試準備
          二、實現(xiàn)各種查詢要求
          三、要點總結  閱讀全文

          posted @ 2010-10-13 14:41 泰仔在線 閱讀(348) | 評論 (0)編輯 收藏

               摘要: 軟件版本Beta,RC,Demo,Build等是什么意思呢?  閱讀全文

          posted @ 2010-09-24 14:54 泰仔在線 閱讀(325) | 評論 (0)編輯 收藏

               摘要: 一、下載
          1、PowerDesigner 12.5官方下載地址
           http://download.sybase.com/eval/PowerDesigner/powerdesigner125_eval.exe
           大小125 MB (132,006,349 字節(jié))

          二、破解
          環(huán)境:Window 2003 Server Enterprise+sp1+PowerDesigner12.5_eval.exe(12.5.0.2169)
          1、制作license.lic文件
          拷貝以下內容,并保存為license.lic文件(注意擴展名是lic)
          FEATURE PD_SHELL SYBASE 12.50 permanent uncounted 1 TS_OK HOSTID=ANY SIGN2=1
          FEATURE PD_DEV SYBASE 12.50 permanent uncounted 1 TS_OK HOSTID=ANY SIGN2=2  閱讀全文

          posted @ 2010-05-07 12:49 泰仔在線 閱讀(2518) | 評論 (16)編輯 收藏

               摘要: nutch網(wǎng)上有不少有它的源碼解析,但是采集這塊還是不太讓人容易理解.今天終于知道怎么,弄的.現(xiàn)在把crawl-urlfilter.txt文件貼出來,讓大家一塊交流,也給自己備忘錄一個。  閱讀全文

          posted @ 2010-04-30 10:12 泰仔在線 閱讀(3389) | 評論 (0)編輯 收藏

               摘要: 解決搜索動態(tài)內容的問題:
          需要注意在conf下面的2個文件:regex-urlfilter.txt,crawl-urlfilter.txt
          # skip URLs containing certain characters as probable queries, etc.
          -[?*!@=] (-改+)
          這段意思是跳過在連接中存在? * ! @ = 的頁面,因為默認是跳過所以,在動態(tài)頁中存在?一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成:
          # skip URLs containing certain characters as probable queries, etc.
          # -[?*!@=]
          另外增加允許的一行
          # accept URLs containing certain characters as probable queries, etc.
          +[?=&]
          意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
          注意:兩個文件都需要修改,因為NUTCH加載規(guī)則的順序是cr  閱讀全文

          posted @ 2010-04-24 19:06 泰仔在線 閱讀(2209) | 評論 (1)編輯 收藏

               摘要: 今天主要研究了Nutch中的html頁面的解析問題,因為我的任務是從頁面中提取特定的文本,因此首先要找到Nutch如何將html中的文本提取出來。Nutch提供了兩種html解析器,nekohtml和tagsoup,我采用了neko的解析器,在看了代碼后,發(fā)現(xiàn)其提取文本的方法在org.apache.nutch.parse.html中的DOMContentUtils文件中,主要的函數(shù)是getTextHelper。  閱讀全文

          posted @ 2010-04-23 17:38 泰仔在線 閱讀(3078) | 評論 (1)編輯 收藏

               摘要: 今天主要解決了Nutch中的一些小的問題,下面分別簡述一下。

          1.網(wǎng)頁快照亂碼問題

          Nutch的網(wǎng)頁快照是亂碼,解決辦法是修改tomcat/webapps/nutch目錄下的cached.jsp文件,修改其中的第63行。

          原來的代碼是:content = new String(bean.getContent(details);

          修改后的代碼是:content = new String(bean.getContent(details),"gb2312");
            閱讀全文

          posted @ 2010-04-23 17:36 泰仔在線 閱讀(436) | 評論 (0)編輯 收藏

               摘要: 當某個插件需要被加載時, Nutch 會加載所有插件的相關接口到緩存,此后每個插件需要實例的時候,根據(jù)相關接口和相關接口實現(xiàn)實例在緩存內的記錄,使用反射實現(xiàn)一個實例并返回,下面以 QueryFilter 的所有插件被加載例子進行說明。  閱讀全文

          posted @ 2010-04-23 11:30 泰仔在線 閱讀(487) | 評論 (0)編輯 收藏

               摘要: 主要類分析:
          一、 org.apache.nutch.crawl.Injector:
          1,注入url.txt
          2,url標準化
          3,攔截url,進行正則校驗(regex-urlfilter.txt)
          4,對符URL標準的url進行map對構造,在構造過程中給CrawlDatum初始化得分,分數(shù)可影響url host的搜索排序,和采集優(yōu)先級!
          5,reduce只做一件事,判斷url是不是在crawldb中已經(jīng)存在,如果存在則直接讀取原來CrawlDatum,如果是新host,則把相應狀態(tài)存儲到里邊(STATUS_DB_UNFETCHED(狀態(tài)意思為沒有采集過))

          二、org.apache.nutch.crawl.Generator:   閱讀全文

          posted @ 2010-04-23 11:05 泰仔在線 閱讀(1056) | 評論 (0)編輯 收藏

               摘要: 讀者是沒有耐心的,我也沒有,所以先說結論:你可以不用編程序,只要鼠標點幾下拖動些圖標,改改參數(shù),就能完成過億數(shù)據(jù)的分布處理程序。

          當然,這么理想的目標現(xiàn)在還沒有達到,但路已經(jīng)明明白白的展現(xiàn)在面前了,至少我們已經(jīng)走了接近一半了。  閱讀全文

          posted @ 2010-04-21 11:41 泰仔在線 閱讀(796) | 評論 (0)編輯 收藏

          列出全部內容
          共9頁: 上一頁 1 2 3 4 5 6 7 8 9 下一頁 
          主站蜘蛛池模板: 塘沽区| 信丰县| 武冈市| 浑源县| 榆社县| 教育| 板桥市| 石屏县| 三原县| 阳山县| 山阴县| 绥滨县| 哈巴河县| 武穴市| 顺昌县| 衡南县| 革吉县| 麟游县| 佛山市| 资溪县| 开阳县| 乌鲁木齐县| 盘锦市| 伊吾县| 赫章县| 罗江县| 怀来县| 邳州市| 双桥区| 广饶县| 商丘市| 怀化市| 浦北县| 上林县| 普宁市| 芒康县| 霍邱县| 南京市| 砚山县| 沧州市| 夏邑县|