无码日韩精品一区二区免费,91免费在线播放,一区二区三区四区国产

Oracle Connect By Start With 總結==轉帖

摘要: Oracle 實在太強了，本篇文章詳細介紹了Oracle的遞歸查詢語法，利用此語法，可以方便地實現遞歸的雙向查詢：

-- Tirle : Recursion query for TREE with "connect by/start with"
-- Author : Rake Gao
-- Create Date : 2005-08-22
-- Version : 2.0
-- Last Modify : 2005-08-22

目錄
一、測試準備
二、實現各種查詢要求
三、要點總結閱讀全文

posted @ 2010-10-13 14:41 泰仔在線閱讀(352) | 評論 (0) | 編輯收藏

軟件版本Beta,RC,Demo,Build等是什么意思呢？

摘要: 軟件版本Beta,RC,Demo,Build等是什么意思呢？閱讀全文

posted @ 2010-09-24 14:54 泰仔在線閱讀(328) | 評論 (0) | 編輯收藏

135-PowerDesigner12.5下載及破解(Version 12.5.0.2169)

摘要: 一、下載
1、PowerDesigner 12.5官方下載地址
　http://download.sybase.com/eval/PowerDesigner/powerdesigner125_eval.exe
　大小125 MB (132,006,349 字節)

二、破解
環境：Window 2003 Server Enterprise+sp1+PowerDesigner12.5_eval.exe(12.5.0.2169)
1、制作license.lic文件
拷貝以下內容，并保存為license.lic文件（注意擴展名是lic）
FEATURE PD_SHELL SYBASE 12.50 permanent uncounted 1 TS_OK HOSTID=ANY SIGN2=1
FEATURE PD_DEV SYBASE 12.50 permanent uncounted 1 TS_OK HOSTID=ANY SIGN2=2 閱讀全文

posted @ 2010-05-07 12:49 泰仔在線閱讀(2529) | 評論 (16) | 編輯收藏

Nutch URL過濾配置規則

摘要: nutch網上有不少有它的源碼解析,但是采集這塊還是不太讓人容易理解.今天終于知道怎么,弄的.現在把crawl-urlfilter.txt文件貼出來,讓大家一塊交流,也給自己備忘錄一個。閱讀全文

posted @ 2010-04-30 10:12 泰仔在線閱讀(3396) | 評論 (0) | 編輯收藏

nutch抓取動態網頁

摘要: 解決搜索動態內容的問題：
需要注意在conf下面的2個文件：regex-urlfilter.txt，crawl-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=] （-改+）
這段意思是跳過在連接中存在? * ! @ = 的頁面，因為默認是跳過所以，在動態頁中存在？一般按照默認的是不能抓取到的。可以在上面2個文件中都修改成：
# skip URLs containing certain characters as probable queries, etc.
# -[?*!@=]
另外增加允許的一行
# accept URLs containing certain characters as probable queries, etc.
+[?=&]
意思是抓取時候允許抓取連接中帶 ? = & 這三個符號的連接
注意：兩個文件都需要修改，因為NUTCH加載規則的順序是cr 閱讀全文

posted @ 2010-04-24 19:06 泰仔在線閱讀(2215) | 評論 (1) | 編輯收藏

Nutch中的html頁面的解析問題

摘要: 今天主要研究了Nutch中的html頁面的解析問題，因為我的任務是從頁面中提取特定的文本，因此首先要找到Nutch如何將html中的文本提取出來。Nutch提供了兩種html解析器，nekohtml和tagsoup，我采用了neko的解析器，在看了代碼后，發現其提取文本的方法在org.apache.nutch.parse.html中的DOMContentUtils文件中，主要的函數是getTextHelper。閱讀全文

posted @ 2010-04-23 17:38 泰仔在線閱讀(3084) | 評論 (1) | 編輯收藏

Nutch中的一些小的問題解決

摘要: 今天主要解決了Nutch中的一些小的問題，下面分別簡述一下。

1.網頁快照亂碼問題

Nutch的網頁快照是亂碼，解決辦法是修改tomcat/webapps/nutch目錄下的cached.jsp文件，修改其中的第63行。

原來的代碼是：content = new String(bean.getContent(details);

修改后的代碼是：content = new String(bean.getContent(details),"gb2312");
閱讀全文

posted @ 2010-04-23 17:36 泰仔在線閱讀(440) | 評論 (0) | 編輯收藏

Nutch插件加載分析

摘要: 當某個插件需要被加載時， Nutch 會加載所有插件的相關接口到緩存，此后每個插件需要實例的時候，根據相關接口和相關接口實現實例在緩存內的記錄，使用反射實現一個實例并返回，下面以 QueryFilter 的所有插件被加載例子進行說明。閱讀全文

posted @ 2010-04-23 11:30 泰仔在線閱讀(491) | 評論 (0) | 編輯收藏

nutch源代碼閱讀心得

摘要: 主要類分析：
一、 org.apache.nutch.crawl.Injector:
1，注入url.txt
2，url標準化
3，攔截url，進行正則校驗（regex-urlfilter.txt）
4，對符URL標準的url進行map對構造，在構造過程中給CrawlDatum初始化得分，分數可影響url host的搜索排序，和采集優先級！
5，reduce只做一件事，判斷url是不是在crawldb中已經存在，如果存在則直接讀取原來CrawlDatum，如果是新host，則把相應狀態存儲到里邊（STATUS_DB_UNFETCHED（狀態意思為沒有采集過））

二、org.apache.nutch.crawl.Generator: 閱讀全文

posted @ 2010-04-23 11:05 泰仔在線閱讀(1064) | 評論 (0) | 編輯收藏

MapReduce算法模式

摘要: 讀者是沒有耐心的，我也沒有，所以先說結論：你可以不用編程序，只要鼠標點幾下拖動些圖標，改改參數，就能完成過億數據的分布處理程序。

當然，這么理想的目標現在還沒有達到，但路已經明明白白的展現在面前了，至少我們已經走了接近一半了。閱讀全文

posted @ 2010-04-21 11:41 泰仔在線閱讀(801) | 評論 (0) | 編輯收藏

泰仔在線

導航

留言簿(3)

隨筆分類

收藏夾

Database相關

Enet 沖浪

Java 技術

Linux相關

搜索

最新評論

閱讀排行榜