paulwong

          HIVE資源

          Hive是建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive 定義了簡(jiǎn)單的類 SQL 查詢語(yǔ)言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時(shí),這個(gè)語(yǔ)言也允許熟悉 MapReduce 開(kāi)發(fā)者的開(kāi)發(fā)自定義的 mapper 和 reducer 來(lái)處理內(nèi)建的 mapper 和 reducer 無(wú)法完成的復(fù)雜的分析工作。


          Hive 沒(méi)有專門的數(shù)據(jù)格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允許用戶指定數(shù)據(jù)格式


          hive與關(guān)系數(shù)據(jù)庫(kù)的區(qū)別:

          數(shù)據(jù)存儲(chǔ)不同:hive基于hadoop的HDFS,關(guān)系數(shù)據(jù)庫(kù)則基于本地文件系統(tǒng)

          計(jì)算模型不同:hive基于hadoop的mapreduce,關(guān)系數(shù)據(jù)庫(kù)則基于索引的內(nèi)存計(jì)算模型

          應(yīng)用場(chǎng)景不同:hive是OLAP數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)提供海量數(shù)據(jù)查詢的,實(shí)時(shí)性很差;關(guān)系數(shù)據(jù)庫(kù)是OLTP事務(wù)系統(tǒng),為實(shí)時(shí)查詢業(yè)務(wù)服務(wù)

          擴(kuò)展性不同:hive基于hadoop很容易通過(guò)分布式增加存儲(chǔ)能力和計(jì)算能力,關(guān)系數(shù)據(jù)庫(kù)水平擴(kuò)展很難,要不斷增加單機(jī)的性能


          Hive安裝及使用攻略
          http://blog.fens.me/hadoop-hive-intro/


          R利劍NoSQL系列文章 之 Hive
          http://cos.name/2013/07/r-nosql-hive/








          posted on 2013-09-01 12:41 paulwong 閱讀(420) 評(píng)論(0)  編輯  收藏 所屬分類: 云計(jì)算HIVE

          主站蜘蛛池模板: 大新县| 故城县| 甘肃省| 库车县| 泽州县| 龙泉市| 迭部县| 莱阳市| 云龙县| 娱乐| 肥城市| 清苑县| 临湘市| 社会| 临海市| 陆丰市| 枝江市| 荣昌县| 运城市| 九台市| 朝阳县| 和平区| 大厂| 尼玛县| 广汉市| 平潭县| 鄂伦春自治旗| 大庆市| 孝义市| 于田县| 德昌县| 凌海市| 留坝县| 永修县| 定结县| 海淀区| 聂荣县| 廊坊市| 桦川县| 方城县| 南岸区|