paulwong

My Links

Blog Stats

Posts - 1198
Stories - 10
Comments - 108
Trackbacks - 0

常用鏈接

留言簿(67)

隨筆分類(1393)

隨筆檔案(1151)

文章分類(7)

文章檔案(10)

相冊

Test

收藏夾(2)

AI

AI智能PDF問答工具
CSV數據分析智能工具
docker image
ZLibrary
克隆ChatGPT
爆款小紅書AI寫作助手
視頻腳本生成器

Develop

!!!Event Sourcing
!!!Microservice Patterns
!!!NIO清晰解釋
!!PDF SEARCH
4+1 Architectural View Model
Apache安裝及jboss部署說明文檔
APK自動化測試網站
Command-Query Responsibility Segregation
data source
ELK日志分析平臺搭建全過程
Enterprise Architect中文網
EXT 中文站 ver2.0 since 2006-11-20
GOOGLE
GOOGLE
GOOGLE
Google代理
GOREAD RSS閱讀器
INOREADER RSS閱讀器
JavaScript 全棧工程師培訓教程
JBoss3.0 下配置和部署EJB簡介
Jquery Option Plug-in
LCA
MAVEN最佳實踐-版本管理
microservice-security
Mulity Tenant
MYSQL MHA
OAUTH2.0
RARBG TORRENT
Robin's Java World
Spring Boot Admin的使用
spring cloud
SPRING CLOUD教程
Spring 平臺整合 Activiti 工作流引擎實例
SPRING-BEAN自動組裝解釋
Spring-cloud-OAuth2-0配置
SQL2005客戶端下載
SRPING BOOT教程
TCC
TCC
TCC
一個extjs的好網站
一個優秀的CQRS框架Reveno
一個非常不錯的J2EE框架。
一個非常不錯的J2EE框架，從前端的JSP，到菜單，用戶和權限，都有了，還集成了STRUTS。
東莞源豐印刷
本人設計
中國象棋
中國軟件架構師網
不錯的培訓網，有相關文檔下載。
五行湯好轉反應
五行湯好轉反應
人體自愈的秘密
分布式事務1
分布式架構教學
各種大數據
在SPRING CLOUD中使用JAX-RS發布REST服務
在線思維導圖工具
大數據相關應用
學習課程
學習課程
安徽未名細胞治療有限公司
建模工具EA的使用
開源會議系統
指定MAVEN中的JDK版本
數據層的多租戶淺談
無法連接ITUNES STORE的原因
深圳房網
深圳通余額查詢
甘油三脂高應該用什么樣的食療方法
神級翻譯
簡歷模版
管理學
自動組裝SPRING-BEAN例子
通俗易懂的文章收藏
開放式課程
駕車學習
駕駛教學

E-BOOK

Ebook
ex libgen.io, libgen.org, alternative domains: *.li, *.gs, *.lc
EPDF
http://www.allitebooks.org

搜索

閱讀排行榜

評論排行榜

60天內閱讀排行

HBASE讀書筆記

GET、PUT是ONLINE的操作，MAPREDUCE是OFFLINE的操作

HDFS寫流程

客戶端收到要保存文件的請求后，將文件以64M為單位拆成若干份BLOCK，形成一個列表，即由幾個BLOCK組成，將這些信息告訴NAME NODE，我要保存這個，NAME NODE算出一個列表，哪段BLOCK應該寫到哪個DATA NODE，客戶端將第一個BLOCK傳到第一個節點DATA NODE A，通知其保存，同時讓它通知DATA NODE D和DATA NODE B也保存一份，DATA NODE D收到信息后進行了保存，同時通知DATA NODE B保存一份，DATA NODE B保存完成后則通知客戶端保存完成，客戶端再去向NAME NODE中取下一個BLOCK要保存的位置，重復以上的動作，直到所有的BLOCK都保存完成。

HDFS讀流程

客戶端向NAME NODE請求讀一個文件，NAME NODE返回這個文件所構成的所有BLOCK的DATA NODE IP及BLOCK ID，客戶端并行的向各DATA NODE發出請求，要取某個BLOCK ID的BLOCK，DATA NODE發回所要的BLOCK給客戶端，客戶端收集到所有的BLOCK后，整合成一個完整的文件后，此流程結束。

MAPREDUCE流程

輸入數據 -- 非多線程了，而是多進程的挑選數據，即將輸入數據分成多塊，每個進程處理一塊 -- 分組 -- 多進程的匯集數據 -- 輸出

HBASE表結構

HBASE中將一個大表數據分成不同的小表，每個小表叫REGION，存放REGION的服務器叫REGIONSERVER，一個REGIONSERVER可以存放多個REGION。通常REGIONSERVER和DATA NODE是在同一服務器，以減少NETWORK IO。

-ROOT-表存放于MASTER SERVER上，記錄了一共有多少個REGIONSERVER，每個REGION SERVER上都有一個.META.表，上面記錄了本REGION SERVER放有哪幾個表的哪幾個REGION。如果要知道某個表共有幾個REGION，就得去所有的REGION SERVER上查.META.表，進行匯總才能得知。

客戶端如果要查ROW009的信息，先去咨詢ZOOPKEEPER，-ROOT-表在哪里，然后問-ROOT-表，哪個.META.知道這個信息，然后去問.META.表，哪個REGION有這個信息，然后去那個REGION問ROW009的信息，然后那個REGION返回此信息。

HBASE MAPREDUCE

一個REGION一個MAP任務，而任務里的map方法執行多少次，則由查詢出來的記錄有多少條，則執行多少次。

REDUCE任務負責向REGION寫數據，但寫到哪個REGION則由那個KEY歸屬哪個REGION管，則寫到哪個REGION，有可能REDUCE任務會和所有的REGION SERVER交互。

在HBASE的MAPREDUCE JOB中使用JOIN

REDUCE-SIDE JOIN
利用現有的SHUTTLE分組機制，在REDUCE階段做JOIN，但由于MAP階段數據大，可能會有性能問題。

MAP-SIDE JOIN

將數據較少的一表讀到一公共文件中，然后在MPA方法中循環另一表的數據，再將要的數據從公共文件中讀取。這樣可以減少SHUTTLE和SORT的時間，同時也不需要REDUCE任務。

posted on 2013-02-01 13:55 paulwong 閱讀(479) 評論(0) 編輯收藏所屬分類: 分布式、HADOOP 、HBASE

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: !!!架構網站內容不錯 SPRING CACHE資源使用WILDFLY中的分布式緩存INFISHPAN SPRING-SESSION 分布式調度QUARTZ+SPRING 樂視 TV 載入 4K 片點解咁快？CDN 網絡解構 Java并行處理框架 JPPF 騰訊CKV海量分布式存儲系統【轉載】經典漫畫講解HDFS原理一些數據切分、緩存、rpc框架、nosql方案資料