百度服務(wù)器每天會(huì)收到數(shù)百億次來(lái)自用戶(hù)的請(qǐng)求,這些請(qǐng)求在到達(dá)百度服務(wù)器之前,需要在百度外的公共網(wǎng)絡(luò)上經(jīng)過(guò)多層網(wǎng)絡(luò)設(shè)備(如運(yùn)營(yíng)商接入交換機(jī)等)和鏈路(如運(yùn)營(yíng)商骨干網(wǎng)鏈路、省網(wǎng)鏈路等)的轉(zhuǎn)發(fā)及傳輸。公共網(wǎng)絡(luò)中的設(shè)備或者鏈路故障,會(huì)導(dǎo)致部分用戶(hù)無(wú)法正常訪(fǎng)問(wèn)百度的服務(wù),影響用戶(hù)體驗(yàn)。因此,需要對(duì)用戶(hù)到百度的外網(wǎng)連通性進(jìn)行實(shí)時(shí)監(jiān)控,在故障時(shí)引導(dǎo)用戶(hù)流量繞過(guò)故障設(shè)備/鏈路,從而提高用戶(hù)體驗(yàn)。
獵鷹:作為百度外網(wǎng)質(zhì)量監(jiān)控平臺(tái),對(duì)整個(gè)百度的外網(wǎng)訪(fǎng)問(wèn)質(zhì)量進(jìn)行實(shí)時(shí)監(jiān)測(cè),實(shí)現(xiàn)了分鐘級(jí)的外網(wǎng)故障發(fā)現(xiàn)和告警,同時(shí)提供豐富的數(shù)據(jù)可視化展示,為百度服務(wù)的可用性保駕護(hù)航,成為百度運(yùn)維工程師日常工作的必備利器之一。
接下來(lái),本文將對(duì)百度外網(wǎng)質(zhì)量監(jiān)控平臺(tái)獵鷹進(jìn)行介紹,主要介紹外網(wǎng)監(jiān)控概述、外網(wǎng)故障場(chǎng)景以及相關(guān)需求。
為什么需要外網(wǎng)監(jiān)控?
百度擁有數(shù)十萬(wàn)臺(tái)服務(wù)器,這些服務(wù)器分布在不同地理位置的互聯(lián)網(wǎng)數(shù)據(jù)中心中。當(dāng)用戶(hù)訪(fǎng)問(wèn)百度服務(wù)的時(shí)候,域名解析服務(wù)(DNS)會(huì)給用戶(hù)返回一個(gè)VIP地址(虛機(jī)地址),然后用戶(hù)的請(qǐng)求會(huì)被轉(zhuǎn)發(fā)到這個(gè)VIP地址上。用戶(hù)的請(qǐng)求在到達(dá)這個(gè)VIP地址之前,依次會(huì)經(jīng)過(guò)用戶(hù)本地接入設(shè)備(比如ADSL)→用戶(hù)所在地域的網(wǎng)絡(luò)運(yùn)營(yíng)商接入設(shè)備→運(yùn)營(yíng)商骨干網(wǎng)鏈路→百度IDC所在地域的運(yùn)營(yíng)商接入設(shè)備→百度IDC的VIP.
外網(wǎng)監(jiān)控對(duì)運(yùn)維的價(jià)值
那么對(duì)于百度的運(yùn)維工程師和網(wǎng)絡(luò)組工程師來(lái)說(shuō),日常工作中對(duì)外網(wǎng)監(jiān)控系統(tǒng)有哪些通用需求呢?通過(guò)對(duì)運(yùn)維工程師和網(wǎng)絡(luò)組工程師進(jìn)行相關(guān)調(diào)研,整理需求如下:
1、真實(shí)反映用戶(hù)到百度IDC間的網(wǎng)絡(luò)訪(fǎng)問(wèn)質(zhì)量
對(duì)于運(yùn)維工程師來(lái)說(shuō),他們真正關(guān)注的是影響用戶(hù)訪(fǎng)問(wèn)體驗(yàn)的網(wǎng)絡(luò)故障,因此,真實(shí)反映用戶(hù)到百度IDC間的網(wǎng)絡(luò)訪(fǎng)問(wèn)質(zhì)量是外網(wǎng)監(jiān)控系統(tǒng)進(jìn)行網(wǎng)絡(luò)質(zhì)量監(jiān)測(cè)的基礎(chǔ)。
2、覆蓋全國(guó)三大運(yùn)營(yíng)商的各個(gè)省份
百度服務(wù)每天會(huì)收到數(shù)百億次來(lái)自三大運(yùn)營(yíng)商各個(gè)省份的用戶(hù)請(qǐng)求,為了盡可能多地發(fā)現(xiàn)用戶(hù)端到百度IDC間的網(wǎng)絡(luò)問(wèn)題,監(jiān)測(cè)點(diǎn)應(yīng)當(dāng)盡量覆蓋三大運(yùn)營(yíng)商的各個(gè)省份。
3、準(zhǔn)確快速地主動(dòng)告警,確定故障類(lèi)型及影響范圍
當(dāng)出現(xiàn)網(wǎng)絡(luò)故障時(shí),需要快速檢測(cè)出故障并進(jìn)行主動(dòng)告警,需要確定故障類(lèi)型(機(jī)房側(cè)故障、骨干網(wǎng)故障、單省份故障),以便于決定采取何種策略進(jìn)行止損,并且需要確定故障影響范圍(即哪些業(yè)務(wù)線(xiàn)受到影響了),沒(méi)有受到影響的業(yè)務(wù)線(xiàn)的運(yùn)維工程師不需要收到故障告警。同時(shí),為了盡可能地縮短故障影響的時(shí)間,需要盡可能快地檢測(cè)出故障。
4、支持不同視角的可視化展示
運(yùn)維工程師通常情況下只關(guān)注與其服務(wù)相關(guān)的網(wǎng)絡(luò)質(zhì)量視圖,而網(wǎng)絡(luò)組工程師通常需要關(guān)注全局的網(wǎng)絡(luò)質(zhì)量視圖,因此需要提供多種不同視角的網(wǎng)絡(luò)質(zhì)量視圖,讓運(yùn)維工程師和網(wǎng)絡(luò)組工程師都能夠快速地獲取到其關(guān)心的網(wǎng)絡(luò)質(zhì)量視圖。
小結(jié)
本文從宏觀(guān)上介紹了百度外網(wǎng)質(zhì)量監(jiān)控的意義、外網(wǎng)故障場(chǎng)景分類(lèi)以及百度運(yùn)維工程師對(duì)外網(wǎng)監(jiān)控系統(tǒng)的需求。
【版權(quán)聲明】:本站內(nèi)容來(lái)自于與互聯(lián)網(wǎng)(注明原創(chuàng)稿件除外),供訪(fǎng)客免費(fèi)學(xué)習(xí)需要。如文章或圖像侵犯到您的權(quán)益,請(qǐng)及時(shí)告知,我們第一時(shí)間刪除處理!謝謝!