xiaomage234

生命本就是一次凄美的漂流，記憶中放不下的，永遠(yuǎn)是孩提時(shí)代的那一份浪漫與純真！

My Links

Blog Stats

Posts - 955
Stories - 34
Comments - 162
Trackbacks - 0

留言簿(26)

隨筆分類

文章分類

文章檔案

博客連接

cuiyi's blog
xiaocui
中文愛百科
中文愛百科
阿海的blog

搜索

閱讀排行榜

評(píng)論排行榜

2020年11月26日

如何系統(tǒng)性地學(xué)習(xí)分布式系統(tǒng)？[轉(zhuǎn)]

from：https://www.infoq.cn/article/orvjbfycnrito5qiyfhf
前言

學(xué)習(xí)一個(gè)知識(shí)之前，我覺得比較好的方式是先理解它的來(lái)龍去脈：即這個(gè)知識(shí)產(chǎn)生的過(guò)程，它解決了什么問(wèn)題，它是怎么樣解決的，還有它引入了哪些新的問(wèn)題（沒有銀彈），這樣我們才能比較好的抓到它的脈絡(luò)和關(guān)鍵點(diǎn)，不會(huì)一開始就迷失在細(xì)節(jié)中。

所以，在學(xué)習(xí)分布式系統(tǒng)之前，我們需要解決的第一個(gè)問(wèn)題是：分布式系統(tǒng)解決了什么問(wèn)題？

分布式系統(tǒng)解決了什么問(wèn)題？

第一個(gè)是單機(jī)性能瓶頸導(dǎo)致的成本問(wèn)題，由于摩爾定律失效，廉價(jià) PC 機(jī)性能的瓶頸無(wú)法繼續(xù)突破，小型機(jī)和大型機(jī)能提高更高的單機(jī)性能，但是成本太大高，一般的公司很難承受；

第二個(gè)是用戶量和數(shù)據(jù)量爆炸性的增大導(dǎo)致的成本問(wèn)題，進(jìn)入互聯(lián)網(wǎng)時(shí)代，用戶量爆炸性的增大，用戶產(chǎn)生的數(shù)據(jù)量也在爆炸性的增大，但是單個(gè)用戶或者單條數(shù)據(jù)的價(jià)值其實(shí)比軟件時(shí)代（比如銀行用戶）的價(jià)值是只低不高，所以必須尋找更經(jīng)濟(jì)的方案；

第三個(gè)是業(yè)務(wù)高可用的要求，對(duì)于互聯(lián)網(wǎng)的產(chǎn)品來(lái)說(shuō)，都要求 7 * 24 小時(shí)提供服務(wù)，無(wú)法容忍停止服務(wù)等故障，而要提供高可用的服務(wù)，唯一的方式就是增加冗余來(lái)完成，這樣就算單機(jī)系統(tǒng)可以支撐的服務(wù)，因?yàn)楦呖捎玫囊螅矔?huì)變成一個(gè)分布式系統(tǒng)。

基于上面的三個(gè)原因可以看出，在互聯(lián)網(wǎng)時(shí)代，單機(jī)系統(tǒng)是無(wú)法解決成本和高可用問(wèn)題的，但是這兩個(gè)問(wèn)題對(duì)幾乎對(duì)所有的公司來(lái)說(shuō)都是非常關(guān)鍵的問(wèn)題，所以，從單機(jī)系統(tǒng)到分布式系統(tǒng)是無(wú)法避免的技術(shù)大潮流。

分布式系統(tǒng)是怎么來(lái)解決問(wèn)題的？

那么，分布式系統(tǒng)是怎么來(lái)解決單機(jī)系統(tǒng)面臨的成本和高可用問(wèn)題呢？

其實(shí)思路很簡(jiǎn)單，就是將一些廉價(jià)的 PC 機(jī)通過(guò)網(wǎng)絡(luò)連接起來(lái)，共同完成工作，并且在系統(tǒng)中提供冗余來(lái)解決高可用的問(wèn)題。

分布式系統(tǒng)引入了哪些新的問(wèn)題？

我們來(lái)看分布式系統(tǒng)的定義：分布式系統(tǒng)是由一組通過(guò)網(wǎng)絡(luò)進(jìn)行通信、為了完成共同的任務(wù)而協(xié)調(diào)工作的計(jì)算機(jī)節(jié)點(diǎn)組成的系統(tǒng)。在定義中，我們可用看出，分布式系統(tǒng)它通過(guò)多工作節(jié)點(diǎn)來(lái)解決單機(jī)系統(tǒng)面臨的成本和可用性問(wèn)題，但是它引入了對(duì)分布式系統(tǒng)內(nèi)部工作節(jié)點(diǎn)的協(xié)調(diào)問(wèn)題。

我們經(jīng)常說(shuō)掌握一個(gè)知識(shí)需要理解它的前因后果，對(duì)于分布式系統(tǒng)來(lái)說(shuō)，前因是「分布式系統(tǒng)解決了什么問(wèn)題」，后果是「它是怎么做內(nèi)部工作節(jié)點(diǎn)的協(xié)調(diào)」，所以我們要解決的第二個(gè)問(wèn)題是：分布式系統(tǒng)是怎么做內(nèi)部工作節(jié)點(diǎn)協(xié)調(diào)的？

分布式計(jì)算引入了哪些新的問(wèn)題？

先從簡(jiǎn)單的情況入手，對(duì)于分布式計(jì)算（無(wú)狀態(tài)）的情況，系統(tǒng)內(nèi)部的協(xié)調(diào)需要做哪些工作：

1.怎么樣找到服務(wù)？

在分布式系統(tǒng)內(nèi)部，會(huì)有不同的服務(wù)（角色），服務(wù) A 怎么找到服務(wù) B 是需要解決的問(wèn)題，一般來(lái)說(shuō)服務(wù)注冊(cè)與發(fā)現(xiàn)機(jī)制是常用的思路，所以可以了解一下服務(wù)注冊(cè)發(fā)現(xiàn)機(jī)制實(shí)現(xiàn)原理，并且可以思考服務(wù)注冊(cè)發(fā)現(xiàn)是選擇做成 AP 還是 CP 系統(tǒng)更合理（嚴(yán)格按 CAP 理論說(shuō)，我們目前使用的大部分系統(tǒng)很難滿足 C 或者 A 的，所以這里只是通常意義上的 AP 或者 CP）；

2.怎么樣找到實(shí)例？

找到服務(wù)后，當(dāng)前的請(qǐng)求應(yīng)該選擇發(fā)往服務(wù)的哪一個(gè)實(shí)例呢？一般來(lái)說(shuō)，如果同一個(gè)服務(wù)的實(shí)例都是完全對(duì)等的（無(wú)狀態(tài)），那么按負(fù)載均衡策略來(lái)處理就足夠（輪詢、權(quán)重、hash、一致性 hash，fair 等各種策略的適用場(chǎng)景）；如果同一個(gè)服務(wù)的實(shí)例不是對(duì)等的（有狀態(tài)），那么需要通過(guò)路由服務(wù)（元數(shù)據(jù)服務(wù)等）先確定當(dāng)前要訪問(wèn)的請(qǐng)求數(shù)據(jù)做哪一個(gè)實(shí)例上，然后再進(jìn)行訪問(wèn)。

3.怎么樣避免雪崩？

系統(tǒng)雪崩是指故障的由于正反饋循序?qū)е虏粩鄶U(kuò)大規(guī)則的故障。一次雪崩通常是由于整個(gè)系統(tǒng)中一個(gè)很小的部分出現(xiàn)故障于引發(fā)，進(jìn)而導(dǎo)致系統(tǒng)其它部分也出現(xiàn)故障。比如系統(tǒng)中某一個(gè)服務(wù)的一個(gè)實(shí)例出現(xiàn)故障，導(dǎo)致負(fù)載均衡將該實(shí)例摘除而引起其它實(shí)例負(fù)載升高，最終導(dǎo)致該服務(wù)的所有實(shí)例像多米諾骨牌一樣一個(gè)一個(gè)全部出現(xiàn)故障。

避免雪崩總體的策略比較簡(jiǎn)單，只要是兩個(gè)思路，一個(gè)是快速失敗和降級(jí)機(jī)制（熔斷、降級(jí)、限流等），通過(guò)快速減少系統(tǒng)負(fù)載來(lái)避免雪崩的發(fā)生；另一個(gè)為彈性擴(kuò)容機(jī)制，通過(guò)快速增加系統(tǒng)的服務(wù)能力來(lái)避免雪崩的發(fā)生。這個(gè)根據(jù)不同的場(chǎng)景可以做不同的選擇，或者兩個(gè)策略都使用。

一般來(lái)說(shuō)，快速失敗會(huì)導(dǎo)致部分的請(qǐng)求失敗，如果分布式系統(tǒng)內(nèi)部對(duì)一致性要求很高的話，快速失敗會(huì)帶來(lái)系統(tǒng)數(shù)據(jù)不一致的問(wèn)題，彈性擴(kuò)容會(huì)是一個(gè)比較好的選擇，但是彈性擴(kuò)容的實(shí)現(xiàn)成本和響應(yīng)時(shí)間比快速失敗要大得多。

4.怎么樣監(jiān)控告警？

對(duì)于一個(gè)分布式系統(tǒng)，如果我們不能很清楚地了解內(nèi)部的狀態(tài)，那么高可用是沒有辦法完全保障的，所以對(duì)分布式系統(tǒng)的監(jiān)控（比如接口的時(shí)延和可用性等信息），分布式追蹤 Trace，模擬故障的混沌工程，以及相關(guān)的告警等機(jī)制是一定要完善的；

分布式存儲(chǔ)引入了哪些新的問(wèn)題？

接下來(lái)我們?cè)賮?lái)看分布式存儲(chǔ)（有狀態(tài)）的內(nèi)部的協(xié)調(diào)是怎么做的，同時(shí)，前面介紹的分布式計(jì)算的協(xié)調(diào)方式在分布式存儲(chǔ)中同樣適用，就不再重復(fù)了：

1.分布式系統(tǒng)的理論與衡權(quán)

ACID、BASE 和 CAP 理論，了解這三個(gè)主題，推薦這一篇文章以及文章后面相關(guān)的參考文獻(xiàn)：

英文版本：https://www.infoq.com/articles/cap-twelve-years-later-how-the-rules-have-changed/

中文版本：https://www.infoq.cn/article/cap-twelve-years-later-how-the-rules-have-changed/

2.怎么樣做數(shù)據(jù)分片？

單機(jī)的存儲(chǔ)能力是不可能存儲(chǔ)所有的數(shù)據(jù)的，所以需要解決怎么將數(shù)據(jù)按一定的規(guī)則分別存儲(chǔ)到不同的機(jī)器上，目前使用比較多的方案為：Hash、Consistent Hash 和 Range Based 分片策略，可以了解一下它們的優(yōu)缺點(diǎn)和各自的應(yīng)用場(chǎng)景；

3.怎么樣做數(shù)據(jù)復(fù)制？

為什么滿足系統(tǒng)的高可用要求，需要對(duì)數(shù)據(jù)做冗余處理，目前的方案主要為：中心化方案（主從復(fù)制、一致性協(xié)議比如 Raft 和 Paxos 等）和去中心化的方案（Quorum 和 Vector Clock）了解一下它們的優(yōu)缺點(diǎn)和各自的應(yīng)用場(chǎng)景，以及對(duì)系統(tǒng)外部表現(xiàn)出來(lái)的數(shù)據(jù)一致性級(jí)別（線性一致性、順序一致性、最終一致性等）；

4.怎么樣做分布式事務(wù)？

對(duì)于分布式系統(tǒng)來(lái)說(shuō)，要實(shí)現(xiàn)事務(wù)，首先需要有對(duì)并發(fā)事務(wù)進(jìn)行排序的能力，這樣在事務(wù)沖突的時(shí)候，確認(rèn)哪個(gè)事務(wù)提供成功，哪個(gè)事務(wù)提交失敗。對(duì)于單機(jī)系統(tǒng)來(lái)說(shuō)這個(gè)完全不是問(wèn)題，簡(jiǎn)單通過(guò)時(shí)間戳加序號(hào)的方式就可以實(shí)現(xiàn)，但是對(duì)于分布式系統(tǒng)來(lái)說(shuō)，系統(tǒng)中機(jī)器的時(shí)間不能完全同步，并且單臺(tái)機(jī)器序號(hào)也沒用全局意義，按上面的方式說(shuō)行不通的。不過(guò)整個(gè)系統(tǒng)選一臺(tái)機(jī)器按單機(jī)的模式生產(chǎn)事務(wù) ID 是可以的，同城多中心和短距離的異地多中心都沒有問(wèn)題，不過(guò)想做成全球分布式系統(tǒng)的話，那么每一次事務(wù)都要去一個(gè)節(jié)點(diǎn)去獲取事務(wù) ID 的成本太高（比如中國(guó)杭州到美國(guó)東部的 RTT 為 200 + ms ），Google 的 Spanner 是通過(guò) GPS 和原子鐘實(shí)現(xiàn) TrueTime API 來(lái)解決這個(gè)問(wèn)題從而實(shí)現(xiàn)全球分布式數(shù)據(jù)庫(kù)的。

有了事務(wù) ID 后，通過(guò) 2PC 或者 3PC 協(xié)議來(lái)實(shí)現(xiàn)分布式事務(wù)的原子性，其他部分和單機(jī)事務(wù)差別不大，就不再細(xì)說(shuō)來(lái)。

進(jìn)階學(xué)習(xí)階段

到這里，對(duì)分布式系統(tǒng)脈絡(luò)上有了基本的概念，接下來(lái)開始進(jìn)入細(xì)節(jié)學(xué)習(xí)階段，這也是非常幸苦的階段，對(duì)于分布式系統(tǒng)的理解深入與否，對(duì)細(xì)節(jié)的深入度是很重要的評(píng)價(jià)指標(biāo)，畢竟魔鬼在細(xì)節(jié)。這里可以往兩個(gè)方面進(jìn)行系統(tǒng)的學(xué)習(xí)：

1.從實(shí)踐出發(fā)

研究目前比較常用的分布式系統(tǒng)的設(shè)計(jì)，HDFS 或者 GFS（分布式文件系統(tǒng)）、Kafka 和 Pulsar（分布式消息隊(duì)列），Redis Cluster 和 Codis（分布式緩存），MySQL 的分庫(kù)分表（傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的分布式方案），MongoDB 的 Replica Set 和 Sharing 機(jī)制集以及去中心化的 Cassandra（NoSQL 數(shù)據(jù)庫(kù)），中心化的 TiDB 和去中心化的 CockroachDB（NewSQL），以及一些微服務(wù)框架等；

2.從理論出發(fā)

從理論出發(fā)，研究分布式相關(guān)的論文，這里推薦一本書「Designing Data-Intensive Applications」（中文版本：數(shù)據(jù)密集型應(yīng)用系統(tǒng)設(shè)計(jì)），先整體看書，對(duì)比較感興趣的章節(jié)，再讀一讀該章節(jié)中涉及到的相關(guān)參考文獻(xiàn)。

總結(jié)

本文從分布式系統(tǒng)解決的問(wèn)題開始，再討論它是怎么樣來(lái)解決問(wèn)題的，最后討論了它引入了哪些新的問(wèn)題，并且討論這些新問(wèn)題的解決辦法，這個(gè)就是分布式系統(tǒng)大概的知識(shí)脈絡(luò)。掌握這個(gè)知識(shí)脈絡(luò)后，那么就可以從實(shí)踐和理論兩個(gè)角度結(jié)合起來(lái)深入細(xì)節(jié)研究分布式系統(tǒng)了。

參考

知乎 | 如何系統(tǒng)性的學(xué)習(xí)分布式系統(tǒng)

Martin Kleppmann.Designing Data-Intensive Applications

CAP Twelve Years Later: How the “Rules” Have Changed

posted @ 2020-11-26 16:20 小馬歌閱讀(214) | 評(píng)論 (0) | 編輯收藏