一、分布式系統面臨的挑戰有哪些
分布式系統需要(yao)大量機器協作,面臨諸多的(de)(de)挑戰,其(qi)中主要(yao)的(de)(de)挑戰有:
1、異構的機器與網絡
分布(bu)式系統中的(de)(de)機(ji)器,配置不(bu)(bu)一樣(yang),其上運(yun)行的(de)(de)服務也(ye)可能(neng)由不(bu)(bu)同的(de)(de)語言(yan)、架構實現,因此處理能(neng)力也(ye)不(bu)(bu)一樣(yang);節(jie)點(dian)間通過網(wang)絡(luo)(luo)連接,而不(bu)(bu)同網(wang)絡(luo)(luo)運(yun)營商提供的(de)(de)網(wang)絡(luo)(luo)的(de)(de)帶寬、延時、丟包率又不(bu)(bu)一樣(yang)。怎(zen)么保證大(da)家齊頭并進(jin),共同完成(cheng)目標,這是(shi)個不(bu)(bu)小(xiao)的(de)(de)挑戰(zhan)。
2、普遍的節點故障
雖然單個節點的故(gu)(gu)(gu)障(zhang)(zhang)概率(lv)較低,但節點數(shu)目達到一定規模,出(chu)故(gu)(gu)(gu)障(zhang)(zhang)的概率(lv)就變(bian)高(gao)了。分布式系(xi)統(tong)需(xu)要保證故(gu)(gu)(gu)障(zhang)(zhang)發生的時候,系(xi)統(tong)仍然是可用的,這就需(xu)要監控節點的狀態,在節點故(gu)(gu)(gu)障(zhang)(zhang)的情況下將(jiang)該節點負(fu)責(ze)的計算、存儲(chu)任務轉移到其他節點。
3、不可靠的網絡
節(jie)點(dian)(dian)間通(tong)過(guo)網絡通(tong)信,而(er)網絡是(shi)不(bu)可靠的(de)。可能的(de)網絡問(wen)題(ti)包(bao)(bao)括:網絡分割、延時(shi)、丟(diu)包(bao)(bao)、亂序。相比單機過(guo)程調用,網絡通(tong)信最讓(rang)人(ren)頭(tou)疼(teng)的(de)是(shi)超時(shi):節(jie)點(dian)(dian)A向節(jie)點(dian)(dian)B發出(chu)請(qing)求(qiu),在約定(ding)的(de)時(shi)間內沒有收到節(jie)點(dian)(dian)B的(de)響應,那么B是(shi)否(fou)處理了請(qing)求(qiu),這個是(shi)不(bu)確定(ding)的(de),這個不(bu)確定(ding)會(hui)帶來諸多問(wen)題(ti),最簡單的(de),是(shi)否(fou)要重試請(qing)求(qiu),節(jie)點(dian)(dian)B會(hui)不(bu)會(hui)多次處理同一個請(qing)求(qiu)。
總而言之(zhi),分布式的挑戰(zhan)來(lai)自不(bu)(bu)確(que)定(ding)(ding)性(xing),不(bu)(bu)確(que)定(ding)(ding)計(ji)算機什(shen)么時候(hou)crash、斷電,不(bu)(bu)確(que)定(ding)(ding)磁盤什(shen)么時候(hou)損(sun)壞,不(bu)(bu)確(que)定(ding)(ding)每(mei)次網絡(luo)通(tong)信要延(yan)遲(chi)多(duo)久(jiu),也(ye)不(bu)(bu)確(que)定(ding)(ding)通(tong)信對端是否處理了(le)發送的消息。而分布式的規模放大了(le)這個不(bu)(bu)確(que)定(ding)(ding)性(xing),不(bu)(bu)確(que)定(ding)(ding)性(xing)是令人討厭的,所(suo)以有諸多(duo)的分布式理論、協議來(lai)保證在這種不(bu)(bu)確(que)定(ding)(ding)性(xing)的情況下,系統(tong)還(huan)能繼續正常工作。
二、分布式系統帶來的問題及解答
1、如何找到所需的服務?——服務發現組件
問題描述:線上生(sheng)產環(huan)境(jing)中(zhong),尤其(qi)容器部署(shu)情況(kuang)下服(fu)務(wu)(wu)實例地(di)址(服(fu)務(wu)(wu)器端口(kou)(kou))是動態分配的(de),服(fu)務(wu)(wu)調用者無法(fa)提前(qian)獲取服(fu)務(wu)(wu)實例地(di)址和端口(kou)(kou)。
解決(jue)方案(an):在(zai)服務運行時,通過服務發現組件解析服務名來獲取服務實例(li)地址(zhi)和(he)端口。
2、如何找到實例?——請求分發的策略
問題描述:找(zhao)到(dao)服(fu)務(wu)器后,還(huan)應該確定將當前請(qing)求發往服(fu)務(wu)器的哪一個實例。
解決方案:
(1)如果同一個(ge)服(fu)務的實例都是完(wan)全對等的(無狀態(tai)),那么按負載均衡(heng)策略(lve)來處理就足(zu)夠(隨(sui)機、輪詢、權重、hash、一致性hash、fair等各種策略(lve))。
(2)如(ru)果(guo)同一(yi)個服(fu)務的實例(li)不(bu)是(shi)對等的(有(you)狀態),那(nei)么(me)需要通過路(lu)由服(fu)務(元數據服(fu)務等)先確定當前要訪(fang)問的請求數據在哪(na)一(yi)個實例(li)上,然后再進行訪(fang)問。
3、如何避免雪崩?
問題描述:一個故障由于正反饋不斷被擴(kuo)大(da),從而導致整(zheng)個系統故障
解決方案:
(1)【快(kuai)(kuai)速失敗】和【降級(ji)機制(zhi)】:熔斷、降級(ji)、限流等(deng),通過(guo)快(kuai)(kuai)速減少(shao)系統負(fu)載來避免雪崩的發生(sheng)。
(2)【彈性擴容機制】,通(tong)過快速增加系(xi)統的服務能力來(lai)避(bi)免(mian)雪(xue)崩的發(fa)生。
4、如何對系統進行監控?
問題描述:對于一個分布式系統,如果(guo)我們不能很清楚地了(le)解內(nei)部的狀態,那么高(gao)可用是沒有辦法(fa)完全(quan)保障(zhang)的。
解(jie)決方案:監控系(xi)統的各層
(1)【硬件層面】:服務器溫度、磁盤(pan)RAID陣列等。
(2)【系統層面】:存活狀(zhuang)態、CPU、RAM、load負載。
(3)【應用層】:mysql、Nginx、Django、LVS、HAProxy。
(4)【業(ye)務層面(mian)】:PV、UV、訂單。
5、分布式存儲如何做數據切片?
問題描述:既然要實現分(fen)布式(shi)數據(ju)庫,那么應該如(ru)何將數據(ju)進(jin)行切片?
解決方案:Hash、Consistent Hash和Range Based分片策(ce)略(lve)。
6、如何設置冗余?如何復制數據?
問題描述(shu):分(fen)布式(shi)存儲的(de)(de)高可(ke)用(yong)性需(xu)要冗余(yu)來保(bao)證(zheng)(zheng),那么如(ru)何做冗余(yu)?如(ru)何對數據進行復制(zhi)、更(geng)新時保(bao)證(zheng)(zheng)兩份數據的(de)(de)一致性?
解決方案:
(1)【中心化方(fang)案】:主(zhu)從復制、一致性協議(Raft和Paxos)。
(2)【去(qu)中心化的方(fang)案(an)】:Quorum、Vector Clock。