tangtb

          Hadoop,SpringMVC,ExtJs,Struts2,Spring,SpringSecurity,Hibernate,Struts
          posts - 25, comments - 88, trackbacks - 0, articles - 0
            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理

          Hadoop

          Hadoop、Hbase、Pig、Sqoop等
               摘要: Ganglia是UC Berkeley發(fā)起的一個(gè)開源集群監(jiān)視項(xiàng)目,設(shè)計(jì)用于測量數(shù)以千計(jì)的節(jié)點(diǎn)。Ganglia的核心包含gmond、gmetad以及一個(gè)Web前端。主要 是用來監(jiān)控系統(tǒng)性能,如:cpu 、mem、硬盤利用率, I/O負(fù)載、網(wǎng)絡(luò)流量情況等,通過曲線很容易見到每個(gè)節(jié)點(diǎn)的工作狀態(tài),對(duì)合理調(diào)整、分配系統(tǒng)資源,提高系統(tǒng)整體性能起到重要作用  閱讀全文

          posted @ 2015-02-25 14:48 tangtb 閱讀(6825) | 評(píng)論 (0)  編輯 |

               摘要: Pig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái)對(duì)高級(jí)過程語言,適合于使用 Hadoop 和 MapReduce 平臺(tái)來查詢大型半結(jié)構(gòu)化數(shù)據(jù)集。通過允許對(duì)分布式數(shù)據(jù)集進(jìn)行類似 SQL 的查詢,該語言的編譯器會(huì)把類SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運(yùn)算,Pig 可以簡化 Hadoop 的使用。  閱讀全文

          posted @ 2014-06-04 22:14 tangtb 閱讀(5912) | 評(píng)論 (0)  編輯 |

               摘要: HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,該技術(shù)來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)(File System)所提供的分布式數(shù)據(jù)存儲(chǔ)一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫。另一個(gè)不同的是HBase基于列的而不是基于行的模式。  閱讀全文

          posted @ 2014-06-04 22:00 tangtb 閱讀(12290) | 評(píng)論 (0)  編輯 |

               摘要: 前置條件
          成功安裝配置Hadoop集群
          成功編譯安裝Hadoop Eclipse插件
          本地有和服務(wù)器相同版本的Hadoop安裝包,并已解壓(本例使用hadoop-1.1.2)
            閱讀全文

          posted @ 2014-06-03 21:09 tangtb 閱讀(1923) | 評(píng)論 (0)  編輯 |

               摘要: Sqoop項(xiàng)目開始于2009年,最早是作為Hadoop的一個(gè)第三方模塊存在,后來為了讓使用者能夠快速部署,也為了讓開發(fā)人員能夠更快速的迭代開發(fā),Sqoop獨(dú)立成為一個(gè)Apache項(xiàng)目。
          Sqoop是一個(gè)用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。  閱讀全文

          posted @ 2014-05-31 14:41 tangtb 閱讀(20300) | 評(píng)論 (3)  編輯 |

               摘要: Hadoop由 Apache Software Foundation 公司于 2005 年秋天作為Lucene的子項(xiàng)目Nutch的一部分正式引入。它受到最先由 Google Lab 開發(fā)的 Map/Reduce 和 Google File System(GFS) 的啟發(fā)。
          Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。
          Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。  閱讀全文

          posted @ 2014-05-31 14:30 tangtb 閱讀(2545) | 評(píng)論 (0)  編輯 |

          posted @ 2014-05-31 14:14 tangtb 閱讀(1596) | 評(píng)論 (0)  編輯 |

          主站蜘蛛池模板: 道孚县| 新巴尔虎左旗| 门头沟区| 涪陵区| 黑水县| 兴和县| 江门市| 疏勒县| 吴川市| 平果县| 黑水县| 高碑店市| 天全县| 江北区| 永平县| 大竹县| 巴林左旗| 大余县| 舒城县| 武强县| 金昌市| 泗水县| 阜宁县| 翼城县| 乳源| 临桂县| 涿鹿县| 绵竹市| 拜泉县| 甘肃省| 庆云县| 巴里| 田林县| 扬州市| 兴宁市| 万山特区| 南投县| 卫辉市| 华蓥市| 屏山县| 旺苍县|