HIVE資源
Hive是建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive 定義了簡(jiǎn)單的類 SQL 查詢語(yǔ)言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時(shí),這個(gè)語(yǔ)言也允許熟悉 MapReduce 開(kāi)發(fā)者的開(kāi)發(fā)自定義的 mapper 和 reducer 來(lái)處理內(nèi)建的 mapper 和 reducer 無(wú)法完成的復(fù)雜的分析工作。
Hive 沒(méi)有專門的數(shù)據(jù)格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允許用戶指定數(shù)據(jù)格式
hive與關(guān)系數(shù)據(jù)庫(kù)的區(qū)別:
數(shù)據(jù)存儲(chǔ)不同:hive基于hadoop的HDFS,關(guān)系數(shù)據(jù)庫(kù)則基于本地文件系統(tǒng)
計(jì)算模型不同:hive基于hadoop的mapreduce,關(guān)系數(shù)據(jù)庫(kù)則基于索引的內(nèi)存計(jì)算模型
應(yīng)用場(chǎng)景不同:hive是OLAP數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)提供海量數(shù)據(jù)查詢的,實(shí)時(shí)性很差;關(guān)系數(shù)據(jù)庫(kù)是OLTP事務(wù)系統(tǒng),為實(shí)時(shí)查詢業(yè)務(wù)服務(wù)
擴(kuò)展性不同:hive基于hadoop很容易通過(guò)分布式增加存儲(chǔ)能力和計(jì)算能力,關(guān)系數(shù)據(jù)庫(kù)水平擴(kuò)展很難,要不斷增加單機(jī)的性能
Hive安裝及使用攻略
http://blog.fens.me/hadoop-hive-intro/
R利劍NoSQL系列文章 之 Hive
http://cos.name/2013/07/r-nosql-hive/
posted on 2013-09-01 12:41 paulwong 閱讀(420) 評(píng)論(0) 編輯 收藏 所屬分類: 云計(jì)算 、HIVE