paulwong

My Links

Blog Stats

Posts - 1198
Stories - 10
Comments - 108
Trackbacks - 0

常用鏈接

留言簿(67)

隨筆分類(1393)

隨筆檔案(1151)

文章分類(7)

文章檔案(10)

相冊

Test

收藏夾(2)

AI

AI智能PDF問答工具
CSV數據分析智能工具
docker image
ZLibrary
克隆ChatGPT
爆款小紅書AI寫作助手
視頻腳本生成器

Develop

!!!Event Sourcing
!!!Microservice Patterns
!!!NIO清晰解釋
!!PDF SEARCH
4+1 Architectural View Model
Apache安裝及jboss部署說明文檔
APK自動化測試網站
Command-Query Responsibility Segregation
data source
ELK日志分析平臺搭建全過程
Enterprise Architect中文網
EXT 中文站 ver2.0 since 2006-11-20
GOOGLE
GOOGLE
GOOGLE
Google代理
GOREAD RSS閱讀器
INOREADER RSS閱讀器
JavaScript 全棧工程師培訓教程
JBoss3.0 下配置和部署EJB簡介
Jquery Option Plug-in
LCA
MAVEN最佳實踐-版本管理
microservice-security
Mulity Tenant
MYSQL MHA
OAUTH2.0
RARBG TORRENT
Robin's Java World
Spring Boot Admin的使用
spring cloud
SPRING CLOUD教程
Spring 平臺整合 Activiti 工作流引擎實例
SPRING-BEAN自動組裝解釋
Spring-cloud-OAuth2-0配置
SQL2005客戶端下載
SRPING BOOT教程
TCC
TCC
TCC
一個extjs的好網站
一個優秀的CQRS框架Reveno
一個非常不錯的J2EE框架。
一個非常不錯的J2EE框架，從前端的JSP，到菜單，用戶和權限，都有了，還集成了STRUTS。
東莞源豐印刷
本人設計
中國象棋
中國軟件架構師網
不錯的培訓網，有相關文檔下載。
五行湯好轉反應
五行湯好轉反應
人體自愈的秘密
分布式事務1
分布式架構教學
各種大數據
在SPRING CLOUD中使用JAX-RS發布REST服務
在線思維導圖工具
大數據相關應用
學習課程
學習課程
安徽未名細胞治療有限公司
建模工具EA的使用
開源會議系統
指定MAVEN中的JDK版本
數據層的多租戶淺談
無法連接ITUNES STORE的原因
深圳房網
深圳通余額查詢
甘油三脂高應該用什么樣的食療方法
神級翻譯
簡歷模版
管理學
自動組裝SPRING-BEAN例子
通俗易懂的文章收藏
開放式課程
駕車學習
駕駛教學

E-BOOK

Ebook
ex libgen.io, libgen.org, alternative domains: *.li, *.gs, *.lc
EPDF
http://www.allitebooks.org

搜索

閱讀排行榜

評論排行榜

60天內閱讀排行

一網打盡13款開源Java大數據工具

下面將介紹大數據領域支持Java的主流開源工具：

1. HDFS

HDFS是Hadoop應用程序中主要的分布式儲存系統， HDFS集群包含了一個NameNode（主節點），這個節點負責管理所有文件系統的元數據及存儲了真實數據的DataNode（數據節點，可以有很多）。HDFS針對海量數據所設計，所以相比傳統文件系統在大批量小文件上的優化，HDFS優化的則是對小批量大型文件的訪問和存儲。

2. MapReduce

Hadoop MapReduce是一個軟件框架，用以輕松編寫處理海量（TB級）數據的并行應用程序，以可靠和容錯的方式連接大型集群中上萬個節點（商用硬件）。

3. HBase

Apache HBase是Hadoop數據庫，一個分布式、可擴展的大數據存儲。它提供了大數據集上隨機和實時的讀/寫訪問，并針對了商用服務器集群上的大型表格做出優化——上百億行，上千萬列。其核心是Google Bigtable論文的開源實現，分布式列式存儲。就像Bigtable利用GFS（Google File System）提供的分布式數據存儲一樣，它是Apache Hadoop在HDFS基礎上提供的一個類Bigatable。

4. Cassandra

Apache Cassandra是一個高性能、可線性擴展、高有效性數據庫，可以運行在商用硬件或云基礎設施上打造完美的任務關鍵性數據平臺。在橫跨數據中心的復制中，Cassandra同類最佳，為用戶提供更低的延時以及更可靠的災難備份。通過log-structured update、反規范化和物化視圖的強支持以及強大的內置緩存，Cassandra的數據模型提供了方便的二級索引（column indexe）。

5. Hive

Apache Hive是Hadoop的一個數據倉庫系統，促進了數據的綜述（將結構化的數據文件映射為一張數據庫表）、即席查詢以及存儲在Hadoop兼容系統中的大型數據集分析。Hive提供完整的SQL查詢功能——HiveQL語言，同時當使用這個語言表達一個邏輯變得低效和繁瑣時，HiveQL還允許傳統的Map/Reduce程序員使用自己定制的Mapper和Reducer。

6. Pig

Apache Pig是一個用于大型數據集分析的平臺，它包含了一個用于數據分析應用的高級語言以及評估這些應用的基礎設施。Pig應用的閃光特性在于它們的結構經得起大量的并行，也就是說讓它們支撐起非常大的數據集。Pig的基礎設施層包含了產生Map-Reduce任務的編譯器。Pig的語言層當前包含了一個原生語言——Pig Latin，開發的初衷是易于編程和保證可擴展性。

7. Chukwa

Apache Chukwa是個開源的數據收集系統，用以監視大型分布系統。建立于HDFS和Map/Reduce框架之上，繼承了Hadoop的可擴展性和穩定性。Chukwa同樣包含了一個靈活和強大的工具包，用以顯示、監視和分析結果，以保證數據的使用達到最佳效果。

8. Ambari

Apache Ambari是一個基于web的工具，用于配置、管理和監視Apache Hadoop集群，支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤，比如heatmaps和查看MapReduce、Pig、Hive應用程序的能力，以友好的用戶界面對它們的性能特性進行診斷。

9. ZooKeeper

Apache ZooKeeper是一個針對大型分布式系統的可靠協調系統，提供的功能包括：配置維護、命名服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

10. Sqoop

Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具，可以將一個關系型數據庫中數據導入Hadoop的HDFS中，也可以將HDFS中數據導入關系型數據庫中。

11. Oozie

Apache Oozie是一個可擴展、可靠及可擴充的工作流調度系統，用以管理Hadoop作業。Oozie Workflow作業是活動的Directed Acyclical Graphs（DAGs）。Oozie Coordinator作業是由周期性的Oozie Workflow作業觸發，周期一般決定于時間（頻率）和數據可用性。Oozie與余下的Hadoop堆棧結合使用，開箱即用的支持多種類型Hadoop作業（比如：Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp）以及其它系統作業（比如Java程序和Shell腳本）。

12. Mahout

Apache Mahout是個可擴展的機器學習和數據挖掘庫，當前Mahout支持主要的4個用例：

推薦挖掘：搜集用戶動作并以此給用戶推薦可能喜歡的事物。
聚集：收集文件并進行相關文件分組。
分類：從現有的分類文檔中學習，尋找文檔中的相似特征，并為無標簽的文檔進行正確的歸類。
頻繁項集挖掘：將一組項分組，并識別哪些個別項會經常一起出現。

13. HCatalog

Apache HCatalog是Hadoop建立數據的映射表和存儲管理服務，它包括：

提供一個共享模式和數據類型機制。
提供一個抽象表，這樣用戶就不需要關注數據存儲的方式和地址。
為類似Pig、MapReduce及Hive這些數據處理工具提供互操作性。

posted on 2013-05-03 09:05 paulwong 閱讀(504) 評論(0) 編輯收藏所屬分類: 分布式、HADOOP 、云計算、HBASE

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: !!!架構網站內容不錯 SPRING CACHE資源使用WILDFLY中的分布式緩存INFISHPAN SPRING-SESSION 分布式調度QUARTZ+SPRING 樂視 TV 載入 4K 片點解咁快？CDN 網絡解構 Java并行處理框架 JPPF 騰訊CKV海量分布式存儲系統【轉載】經典漫畫講解HDFS原理一些數據切分、緩存、rpc框架、nosql方案資料