商業(yè)智能平臺(tái)研究 (十) ETL 選型
商業(yè)智能平臺(tái)研究 (十) ETL 選型
ETL (Extract-Transform-Load的縮寫(xiě),即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過(guò)程)作為BI/DW(Business Intelligence)的核心和靈魂,能夠按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過(guò)程,是實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的重要步驟。如果說(shuō)數(shù)據(jù)倉(cāng)庫(kù)的模型設(shè)計(jì)是一座大廈的設(shè)計(jì)藍(lán)圖,數(shù)據(jù)是磚瓦的話,那么ETL就是建設(shè)大廈的過(guò)程。在整個(gè)項(xiàng)目中最難部分是用戶(hù)需求分析和模型設(shè)計(jì),而ETL規(guī)則設(shè)計(jì)和實(shí)施則是工作量最大的,約占整個(gè)項(xiàng)目的60%~80%,這是國(guó)內(nèi)外從眾多實(shí)踐中得到的普遍共識(shí)。
ETL工具從廠商來(lái)分為兩種,一種是數(shù)據(jù)庫(kù)廠商自帶的ETL工具,Oracle warehouse builder 就是這種,另外一種是第三方工具提供商.開(kāi)源世界也有一大票的ETL工具,功能各異,強(qiáng)弱不一,你可以從一下地址找到開(kāi)源ETL工具的列表 http://www.manageability.org/blog/stuff/open-source-etl/view , 提醒一句,選用工具的時(shí)候要慎重,真的,千萬(wàn)要慎重,不管你是選用商業(yè)的ETL工具(一般比較貴),還是開(kāi)源的工具,都要在你充分了解產(chǎn)品的特性才去選擇,千萬(wàn)不要聽(tīng)某某人說(shuō)什么這個(gè)工具好,就購(gòu)買(mǎi)了那個(gè)工具,一定要自己了解產(chǎn)品.
開(kāi)源的ETL工具的列表 (排名是亂排的)
kettle http://kettle.pentaho.org/ ,pentaho官方的ETL工具,是一個(gè)metadata-driven 的ETL工具,不需要自己寫(xiě)code .
talend http://www.talend.com/ talend是talend自己公司的產(chǎn)品,宣傳的是全功能的Data Integration 解決方案,基于eclipse 平臺(tái),包括很多的模塊來(lái)實(shí)現(xiàn)商業(yè)流程建模,數(shù)據(jù)流程建模,最后輸出的是perl 和 Java code
jasperETL http://www.jaspersoft.com/ JasperETL是基于talend的平臺(tái),不太清楚有什么區(qū)別,jaspersoft開(kāi)發(fā)的ETL產(chǎn)品.
Octopus http://www.enhydra.org/tech/octopus/index.html octopuc是enhydra 的一個(gè)ETL工具,enhydra是一個(gè)產(chǎn)品跨度非常大的開(kāi)源站點(diǎn),它有個(gè)開(kāi)源的Workflow ,Shark ,pentaho就是使用的這個(gè)Workflow ,這個(gè)組織從workflow 到application server , 從ETL工具到application framework ,還有一些其他的中間件,octopus非常的原始,支持任何的JDBC數(shù)據(jù)源,用XML語(yǔ)言來(lái)定義的.也支持JDBC-DOBC ,和excel 和 access ,csv-files, XML files ,用Ant 和 JUnit 來(lái)創(chuàng)建表和測(cè)試.
CloverETL http://cloveretl.berlios.de/ CloverETL是提供給你一組API,用XML來(lái)定義ETL過(guò)程,同樣支持JDBC數(shù)據(jù)源, CloverETL是開(kāi)源的,但是它是沒(méi)有圖形界面的,它提供一個(gè)有圖形界面的CloverGUI 來(lái)進(jìn)行ETL的圖形化開(kāi)發(fā)過(guò)程,但是不是開(kāi)源的,需要購(gòu)買(mǎi)商業(yè)許可證.
KETL http://www.ketl.org/ 聽(tīng)說(shuō)是幾個(gè)前IBM員工做出來(lái)的ETL產(chǎn)品,
另外還有很多.不一一寫(xiě)介紹了,只列個(gè)表吧,
Joost http://joost.sourceforge.net/ 最近有個(gè)web2.0 網(wǎng)站也叫Joost,名字相同而已.
Xineo http://software.xineo.net/xil.jspx
BabelDoc http://sourceforge.net/projects/babeldoc
CB2XML http://sourceforge.net/projects/cb2xml
mec-eagle http://sourceforge.net/projects/mec-eagle/
Transmorpher http://transmorpher.inrialpes.fr/
XPipe http://xpipe.sourceforge.net/Articles/Miscellaneous/fog0000000018.html
DataSift http://www.datasift.org/
Xephyrus Flume http://www.xephyrus.com/flume/flume-intro.Prlx
Smallx https://smallx.dev.java.net/
Nux http://dsd.lbl.gov/nux/index.html
Netflux http://www.netflux.org/
OpenDigger https://opendigger.dev.java.net/
ServingXML http://servingxml.sourceforge.net/
Scriptella http://scriptella.javaforge.com/
ETL Integrator http://www.glassfishwiki.org/jbiwiki/Wiki.jsp?page=ETLSE
Jitterbit http://www.jitterbit.com/
Apatar http://www.apatar.com/
Spring Batch http://static.springframework.org/spring-batch/
大多數(shù)站點(diǎn)都是在sf.net上的.其中最后一個(gè)是Spring的,大名鼎鼎的Spring 也往ETL插一腳.實(shí)在是..........
根據(jù)talend官方介紹的數(shù)據(jù),ETL工具的市場(chǎng)份額在2006好像是有160多億美元.由于BI項(xiàng)目的成功,ETL的這一市場(chǎng)份額還會(huì)擴(kuò)大,這也不難理解,為什么這么多的公司都在做ETL工具了.開(kāi)源世界也免不了想要分一杯羹.再次廢話一句,開(kāi)源的東西你可以免費(fèi)得到和使用,但是當(dāng)你想應(yīng)用到企業(yè)級(jí)開(kāi)發(fā)的時(shí)候,省錢(qián)可不是唯一應(yīng)該考慮的因素.還是那句話,慎重呀慎重.
下一篇介紹BI的基本概念.
ETL工具從廠商來(lái)分為兩種,一種是數(shù)據(jù)庫(kù)廠商自帶的ETL工具,Oracle warehouse builder 就是這種,另外一種是第三方工具提供商.開(kāi)源世界也有一大票的ETL工具,功能各異,強(qiáng)弱不一,你可以從一下地址找到開(kāi)源ETL工具的列表 http://www.manageability.org/blog/stuff/open-source-etl/view , 提醒一句,選用工具的時(shí)候要慎重,真的,千萬(wàn)要慎重,不管你是選用商業(yè)的ETL工具(一般比較貴),還是開(kāi)源的工具,都要在你充分了解產(chǎn)品的特性才去選擇,千萬(wàn)不要聽(tīng)某某人說(shuō)什么這個(gè)工具好,就購(gòu)買(mǎi)了那個(gè)工具,一定要自己了解產(chǎn)品.
開(kāi)源的ETL工具的列表 (排名是亂排的)
kettle http://kettle.pentaho.org/ ,pentaho官方的ETL工具,是一個(gè)metadata-driven 的ETL工具,不需要自己寫(xiě)code .
talend http://www.talend.com/ talend是talend自己公司的產(chǎn)品,宣傳的是全功能的Data Integration 解決方案,基于eclipse 平臺(tái),包括很多的模塊來(lái)實(shí)現(xiàn)商業(yè)流程建模,數(shù)據(jù)流程建模,最后輸出的是perl 和 Java code
jasperETL http://www.jaspersoft.com/ JasperETL是基于talend的平臺(tái),不太清楚有什么區(qū)別,jaspersoft開(kāi)發(fā)的ETL產(chǎn)品.
Octopus http://www.enhydra.org/tech/octopus/index.html octopuc是enhydra 的一個(gè)ETL工具,enhydra是一個(gè)產(chǎn)品跨度非常大的開(kāi)源站點(diǎn),它有個(gè)開(kāi)源的Workflow ,Shark ,pentaho就是使用的這個(gè)Workflow ,這個(gè)組織從workflow 到application server , 從ETL工具到application framework ,還有一些其他的中間件,octopus非常的原始,支持任何的JDBC數(shù)據(jù)源,用XML語(yǔ)言來(lái)定義的.也支持JDBC-DOBC ,和excel 和 access ,csv-files, XML files ,用Ant 和 JUnit 來(lái)創(chuàng)建表和測(cè)試.
CloverETL http://cloveretl.berlios.de/ CloverETL是提供給你一組API,用XML來(lái)定義ETL過(guò)程,同樣支持JDBC數(shù)據(jù)源, CloverETL是開(kāi)源的,但是它是沒(méi)有圖形界面的,它提供一個(gè)有圖形界面的CloverGUI 來(lái)進(jìn)行ETL的圖形化開(kāi)發(fā)過(guò)程,但是不是開(kāi)源的,需要購(gòu)買(mǎi)商業(yè)許可證.
KETL http://www.ketl.org/ 聽(tīng)說(shuō)是幾個(gè)前IBM員工做出來(lái)的ETL產(chǎn)品,
另外還有很多.不一一寫(xiě)介紹了,只列個(gè)表吧,
Joost http://joost.sourceforge.net/ 最近有個(gè)web2.0 網(wǎng)站也叫Joost,名字相同而已.
Xineo http://software.xineo.net/xil.jspx
BabelDoc http://sourceforge.net/projects/babeldoc
CB2XML http://sourceforge.net/projects/cb2xml
mec-eagle http://sourceforge.net/projects/mec-eagle/
Transmorpher http://transmorpher.inrialpes.fr/
XPipe http://xpipe.sourceforge.net/Articles/Miscellaneous/fog0000000018.html
DataSift http://www.datasift.org/
Xephyrus Flume http://www.xephyrus.com/flume/flume-intro.Prlx
Smallx https://smallx.dev.java.net/
Nux http://dsd.lbl.gov/nux/index.html
Netflux http://www.netflux.org/
OpenDigger https://opendigger.dev.java.net/
ServingXML http://servingxml.sourceforge.net/
Scriptella http://scriptella.javaforge.com/
ETL Integrator http://www.glassfishwiki.org/jbiwiki/Wiki.jsp?page=ETLSE
Jitterbit http://www.jitterbit.com/
Apatar http://www.apatar.com/
Spring Batch http://static.springframework.org/spring-batch/
大多數(shù)站點(diǎn)都是在sf.net上的.其中最后一個(gè)是Spring的,大名鼎鼎的Spring 也往ETL插一腳.實(shí)在是..........
根據(jù)talend官方介紹的數(shù)據(jù),ETL工具的市場(chǎng)份額在2006好像是有160多億美元.由于BI項(xiàng)目的成功,ETL的這一市場(chǎng)份額還會(huì)擴(kuò)大,這也不難理解,為什么這么多的公司都在做ETL工具了.開(kāi)源世界也免不了想要分一杯羹.再次廢話一句,開(kāi)源的東西你可以免費(fèi)得到和使用,但是當(dāng)你想應(yīng)用到企業(yè)級(jí)開(kāi)發(fā)的時(shí)候,省錢(qián)可不是唯一應(yīng)該考慮的因素.還是那句話,慎重呀慎重.
下一篇介紹BI的基本概念.
posted on 2007-08-30 13:52 風(fēng) 閱讀(1009) 評(píng)論(0) 編輯 收藏 所屬分類(lèi): 收藏 、數(shù)據(jù)倉(cāng)庫(kù)