久久精品人妻一区二区蜜桃-欧美精品人妻一区二区免费视频-久久精品免费一区二区喷潮-久久精品中文闷骚内射-精品bbw-精品久久无码中文字幕-小小水蜜桃3视频高清在线观看-日韩免费一级aaa片毛太久-欧美激情肉欲高潮无码鲁大师-欧美影片一区二区三区-亚洲精品无码av无码专区一本,波多野吉衣一区二区三区在线观看,囯精品人妻无码一区二区三区99,包哟哟在线观看免费观看

產(chǎn)品分類

當(dāng)前位置: 首頁 >

類型分類:
科普知識(shí)
數(shù)據(jù)分類:

大規(guī)模云計(jì)算平臺(tái)的技術(shù)挑戰(zhàn)

發(fā)布日期:2022-04-17 點(diǎn)擊率:87

        硬、軟故障發(fā)生都會(huì)對(duì)系統(tǒng)的可靠性甚至可用性造成不良影響,因此如何及時(shí)有效地進(jìn)行故障檢測和恢復(fù)就變得比較關(guān)鍵。對(duì)于硬故障的檢測業(yè)界已有成熟的方案,本文第一部分只重點(diǎn)討論軟故障的檢測;本文的第二部分將集中探討故障恢復(fù)策略相關(guān)的問題;最后,我們將介紹如何在保證數(shù)據(jù)可靠的同時(shí)滿足在線應(yīng)用的低延時(shí)需求。

 

        正如單機(jī)操作系統(tǒng)的內(nèi)核,在阿里云OS中,飛天大規(guī)模分布式計(jì)算平臺(tái)起到了承上啟下的關(guān)鍵作用。飛天運(yùn)行在通過網(wǎng)絡(luò)互聯(lián)的通用服務(wù)器集群上,隱藏了海量硬件所帶來的復(fù)雜度和不可靠,向云OS的其他組件提供可信賴的的計(jì)算能力和存儲(chǔ)能力。

        具體來講,飛天本身是一個(gè)由多個(gè)組件所構(gòu)成的復(fù)雜的分布式系統(tǒng),其中的核心組件是以下兩個(gè)子系統(tǒng)。

        計(jì)算資源調(diào)度系統(tǒng)(又稱伏羲):管理和調(diào)度集群計(jì)算資源;在多個(gè)云服務(wù)間動(dòng)態(tài)分配計(jì)算資源,以滿足用戶的計(jì)算需求;自動(dòng)檢測服務(wù)器故障并遷移故障服務(wù)器上的服務(wù)。

        分布式文件系統(tǒng)(又稱盤古):管理集群的所有硬盤;合理地安排數(shù)據(jù)存放位置以兼顧性能和數(shù)據(jù)安全性;自動(dòng)檢測磁盤故障并復(fù)制數(shù)據(jù)以保證安全。

        在實(shí)現(xiàn)飛天云計(jì)算平臺(tái)的過程中,工程師們面臨了許多技術(shù)挑戰(zhàn),包括:

        在不可靠硬件基礎(chǔ)上提供高可靠的計(jì)算能力和存儲(chǔ)能力;

        提供高可用服務(wù);

        低成本運(yùn)維海量硬件;

        在線應(yīng)用與離線應(yīng)用并存;

        克服節(jié)點(diǎn)間帶寬的限制;

        最大化利用計(jì)算資源,等等。

        其中,不可靠的硬件是最基本的挑戰(zhàn)。集群規(guī)模達(dá)到上千臺(tái)后,單機(jī)上的小概率事件變成了必然的、頻繁發(fā)生的事件。硬盤、硬盤控制器、CPU、內(nèi)存、主板、電源等故障造成的宕機(jī)每天都會(huì)發(fā)生。這類硬件失效故障,我們稱之為“硬”故障(fail-stop故障)。此外,還有一類故障現(xiàn)象不那么明顯,稱之為“軟”故障,例如,磁盤可訪問但速度只有正常的1/10、服務(wù)器沒有宕機(jī)但程序運(yùn)行緩慢、網(wǎng)絡(luò)時(shí)好時(shí)壞等。這類“軟”故障同樣會(huì)影響服務(wù)質(zhì)量,因?yàn)樵诰€服務(wù)如果執(zhí)行緩慢會(huì)造成客戶端超時(shí),而對(duì)離線作業(yè)而言,哪怕只有1%的數(shù)據(jù)處理任務(wù)緩慢,也會(huì)拖延整個(gè)數(shù)據(jù)分析作業(yè)的完成時(shí)間。

        硬、軟故障發(fā)生都會(huì)對(duì)系統(tǒng)的可靠性甚至可用性造成不良影響,因此如何及時(shí)有效地進(jìn)行故障檢測和恢復(fù)就變得比較關(guān)鍵。對(duì)于硬故障的檢測業(yè)界已有成熟的方案,本文第一部分只重點(diǎn)討論軟故障的檢測;本文的第二部分將集中探討故障恢復(fù)策略相關(guān)的問題;最后,我們將介紹如何在保證數(shù)據(jù)可靠的同時(shí)滿足在線應(yīng)用的低延時(shí)需求。

云環(huán)境中的軟故障檢測

        檢測“軟”故障有兩種思路。

        一種思路是針對(duì)每種具體故障設(shè)計(jì)檢測方法。但“軟”故障產(chǎn)生的原因可能很多,例如執(zhí)行緩慢可能是服務(wù)器硬件故障、網(wǎng)絡(luò)故障、磁盤故障、操作系統(tǒng)軟件故障等,逐一檢測會(huì)使系統(tǒng)過于復(fù)雜。

        另一種思路是從宏觀現(xiàn)象來檢測,下面看兩個(gè)例子。

        例子一:檢測作業(yè)在某臺(tái)服務(wù)器上執(zhí)行特別緩慢的情況。

        我們統(tǒng)計(jì)每個(gè)作業(yè)在每臺(tái)服務(wù)器上的執(zhí)行時(shí)間。因?yàn)檩斎霐?shù)據(jù)被均勻地切片,每臺(tái)服務(wù)器上的執(zhí)行時(shí)間應(yīng)該大致相同。如果某臺(tái)服務(wù)器上執(zhí)行時(shí)間超過了平均時(shí)間的三倍,它就被標(biāo)記為“緩慢”。如果各種不同作業(yè)在某臺(tái)服務(wù)器上都“緩慢”,那么我們有充分理由懷疑這臺(tái)服務(wù)器有問題(但不知道原因)。調(diào)度系統(tǒng)會(huì)自動(dòng)把這臺(tái)服務(wù)器加入黑名單,不再用它執(zhí)行作業(yè)。之后再自動(dòng)或人工檢查這些可疑服務(wù)器的具體故障原因。

        例子二:檢測磁盤讀寫慢的情況。

        我們在分布式文件系統(tǒng)里也會(huì)統(tǒng)計(jì)每次磁盤訪問的時(shí)間。如果某塊磁盤有大比率的訪問時(shí)間遠(yuǎn)遠(yuǎn)超過系統(tǒng)平均值,那么很有可能是這塊磁盤快要發(fā)生故障了。文件系統(tǒng)此時(shí)會(huì)做三件事:

        停止寫新數(shù)據(jù)到這塊磁盤,防止更多數(shù)據(jù)處于危險(xiǎn)中;

        開始為這塊磁盤上的數(shù)據(jù)增加更多副本;

        當(dāng)這塊磁盤上的所有數(shù)據(jù)都有額外的副本,就可以將它下線,待運(yùn)維處理。


下一篇: PLC、DCS、FCS三大控

上一篇: 索爾維全系列Solef?PV

推薦產(chǎn)品

更多