你好,我是楊先生。

之前我說過很多次,解決問題是所有網(wǎng)絡(luò)合作的必修課。

很多人一開始都是手殘,但手殘到引發(fā)嚴(yán)重的情況的還是比較少見的。

今天老楊的一位粉絲和我分享了關(guān)于他工作中親眼見到的,排錯時發(fā)生的“慘狀”。

老楊通篇看下來,覺得很有借鑒意義,可供新手網(wǎng)工們多參考。

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)

他有一句話我覺得很認(rèn)同:“由于設(shè)備本身的軟件或者硬件出現(xiàn)問題而導(dǎo)致的故障,其實是比較少見的?!?/p>

“大部分都是人為的?!?/p>

你遇到了什么尷尬的網(wǎng)絡(luò)故障?也歡迎留言區(qū)告訴我。

今日文章閱讀福利:《企業(yè)網(wǎng)快速構(gòu)建與排錯手冊》.pdf,很適合網(wǎng)工們食用。領(lǐng)取方式:私信老楊“手冊”,前10名粉絲即可免費領(lǐng)取最新高清資源。



-排錯排成這樣,誰能比我更夸張?


這是我之前工作中遇見過的一次網(wǎng)絡(luò)故障。

我覺得,排錯最重要的點在于,你發(fā)現(xiàn)網(wǎng)絡(luò)故障后,得對這個現(xiàn)網(wǎng)的網(wǎng)絡(luò)環(huán)境有個基本的判斷。

你要判斷它的組網(wǎng)是什么樣的,它的配置是什么樣的,這些基本的信息你要收集到,你才能對故障進行分析。

所以我先講下故障發(fā)生的背景,也給你們幾條線索,一起判斷下。

?

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)

這個故障的背景其實就是一個很簡單的配置變更。

在中午休息的時間,我的同事對廠區(qū)的某一棟樓的匯聚交換機進行配置變更。

他實際上是要增加一臺接入交換機,因為廠區(qū)人員變多了,終端也就變多了,所以現(xiàn)有的網(wǎng)絡(luò)和接入設(shè)備不能滿足需求,需要新增一臺接入層的交換機。

大家都知道,在現(xiàn)網(wǎng)中新增一臺接入交換機,這個配置是非常簡單的。

一般只需要將接入交換機上到機架,兩根光纖連到匯聚交換機就搞定了。

而通常你接入交換機連接匯聚交換機需要做什么配置?

一般來說,都是將這個接入交換機所需要VLAN配上,再將接入交換機連接匯聚交換機的兩個接口,或者一個接口配置成Trunk,搞定就好了。

?

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)

交換機之間互聯(lián)的鏈路需要配置成trunk,這是CCNA學(xué)習(xí)中很基礎(chǔ)的內(nèi)容,這里我就不多復(fù)述了。

然后為了保證這個鏈路的可靠性,需要從接入交換機到匯聚交換機配置一個鏈路聚合,這一塊也是比較基礎(chǔ)的網(wǎng)絡(luò)學(xué)習(xí)內(nèi)容,配置也很簡單。

如果你還不懂,或者你有意愿系統(tǒng)學(xué)習(xí)網(wǎng)絡(luò),深入提升技術(shù),可以了解下思科/華為系列認(rèn)證。它能幫助你更加系統(tǒng)的搭建技術(shù)底層邏輯。

私信老楊,發(fā)送“考證”,咨詢學(xué)習(xí)/提升的詳細方法。


本來,按照工作的進展,我同事刷完配置之后就回到了工位休息,而這個故障并沒有馬上出現(xiàn)。

因為當(dāng)時午休,沒人辦公,所以也就沒人會發(fā)現(xiàn)有這樣的問題。

而等到了下午2點鐘,上班的人使用網(wǎng)絡(luò)的時候才發(fā)覺,“啊?樓層交換機出現(xiàn)了故障!”,或者說才發(fā)覺當(dāng)時“不能上網(wǎng)了!”

因為對于終端用戶來說,最直觀的體驗就是電腦上不了網(wǎng)。

那上不了網(wǎng)怎么辦?投訴唄。

所以就打電話給技術(shù)支持。

其實技術(shù)他的配置變更非常簡單,只是新增了一臺設(shè)備,新增了一些配置,可這時候網(wǎng)絡(luò)卻出現(xiàn)了故障。

如果是你遇到了這種情況,你會怎么分析這個故障?

展開來看下它的網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)架構(gòu)其實就是傳統(tǒng)的三層架構(gòu),核心連接匯聚,匯聚連接樓層接入交換機,簡單吧?

?

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)

只是說它的網(wǎng)絡(luò)架構(gòu)會用到堆疊這個技術(shù)。

它的核心交換機連接匯聚的時候,匯聚是兩臺做了堆疊,這邊拋開核心交換機不看,兩臺匯聚交換機做堆疊,堆疊完成后,接入交換機上行兩條鏈路,分別連到2臺匯聚交換機。

雖然這邊有2臺匯聚交換機,但匯聚交換機在邏輯上是一臺設(shè)備,因為他這兩條鏈路上做了鏈路捆綁。

鏈路捆綁也是堆疊的基本技術(shù)。

邏輯拓?fù)淙鐖D所示,這個拓?fù)涫莻€無環(huán)網(wǎng)絡(luò)把?因為用了堆疊這個技術(shù),這樣的一個拓?fù)?,它其實就是一個無環(huán)的網(wǎng)絡(luò)。

?

編輯

添加圖片注釋,不超過 140 字(可選)

而匯聚是兩臺設(shè)備,那接入交換機只需要在連接下行的接口配上VLAN,連接下行終端——PC,只要做個VLAN劃分,然后我們的上行接口,配置鏈路聚合,同時將這個上行的鏈路聚合口配置成trunk口,就這么簡單的三個配置。

那這么簡單的三個配置,為什么會導(dǎo)致這個網(wǎng)絡(luò)出現(xiàn)環(huán)路?

當(dāng)然,當(dāng)時還不知道是環(huán)路。

因為我同事當(dāng)時覺得,這個網(wǎng)絡(luò)是沒有環(huán)路的,而且他用了堆疊,而且配置了鏈路聚合,這樣的網(wǎng)絡(luò),它是不存在環(huán)路的啊……

所以當(dāng)時他的第一反應(yīng)不是懷疑環(huán)路的問題。

此時再看我們的第一個線索:無環(huán)網(wǎng)絡(luò)。

以及第二線索:配置及其簡單,只配了vlan,trunk、鏈路聚合這三個。

?

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)

你分析出什么了嗎?

往下看第三個線索:設(shè)備無法遠程登錄。這該怎么理解?

實際上一般出現(xiàn)網(wǎng)絡(luò)故障之后,一般人會采取應(yīng)對做的第一步動作是什么?

肯定是要遠程登錄到網(wǎng)絡(luò)設(shè)備,進行配置查看,要看下配置對不對。

因為都是刷上去的配置,所以第一步就是遠程登錄這臺設(shè)備,可以登錄匯聚交換機也可以登錄接入交換機。。

但是試圖登錄的時候發(fā)現(xiàn),上不去。沒有辦法登錄到這兩臺設(shè)備上……

登不上怎么辦?

設(shè)備無法遠程登錄,通常會是什么情況?

它無法被ping通,無法對它talent,這應(yīng)該有同學(xué)在工作中遇到過吧?

?

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)

通常發(fā)生這種情況,如果設(shè)備沒有辦法ping通,你只要保證被路由沒有問題,而設(shè)備卻無法ping通,無法遠程管理,這就說明它的CPU已經(jīng)滿了。

因為所有需要ping這臺設(shè)備,需要直接訪問這臺設(shè)備的IP地址的所有報文,都是需要CPU來處理的。

ping或者talent這臺設(shè)備,所有的遠程報文都是需要CPU來處理的,這時候如果CPU飆到100%了,就會造成無法遠程登錄和管理。

這時候我同事,終于開始懷疑是不是網(wǎng)絡(luò)環(huán)路了……

因為在二層網(wǎng)絡(luò)里面,能夠?qū)е翪PU 100%的情況,大概率是由環(huán)路導(dǎo)致的,所以基本上可以判斷是一個環(huán)路。

但是為什么?為什么會出現(xiàn)環(huán)路?我命名配置的無環(huán)的!哪來的環(huán)路?

這時候要怎么辦?只能跑現(xiàn)場了。

當(dāng)時正好我在現(xiàn)場,由于當(dāng)天中午臨時突發(fā)了這個問題,我同事也叫我過去幫忙。

所以我就跟他們一起去現(xiàn)場看了下這個問題到底什么情況。

去現(xiàn)場一般來說你需要帶上console和筆記本。

?

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)

去設(shè)備的現(xiàn)場,一般通過console線遠程或者直接連接到這個設(shè)備上,登錄這個設(shè)備查看配置。

但是大家也知道,由于設(shè)備CPU 100%爆掉了,你如果通過console線登錄設(shè)備,也會非常的卡,基本上你敲命令,過幾秒鐘才會有反應(yīng)。

所以一般遇到環(huán)路這種問題,設(shè)備本身CPU滿了,因為你很難對這個設(shè)備進行配置查看,也就很難排查。

所以當(dāng)時用了個最笨的辦法——拔線。

在匯聚交換機上,匯聚交換機所有連接接入交換機的這個口,一條條去拔線。

最后拔到新增的這臺設(shè)備時發(fā)現(xiàn)網(wǎng)絡(luò)恢復(fù)了,這時候基本上就可以定位到新增的這臺交換機設(shè)備,它是存在問題的。

可配置明明這么簡單,卻出現(xiàn)環(huán)路了,離譜。

這個地方唯一有可能出現(xiàn)環(huán)路的是什么場景?

這里我直接告訴你,這是因為這里鏈路聚合的配置不對。他們在配置鏈路聚合的時候,只配了一端,只在匯聚交換機上刷了鏈路聚合的配置。

這里可以看出,匯聚交換機這兩個口是捆綁在一起的,但下行的這臺接入交換機,他的鏈路聚合沒有配,也就是說,它是2個獨立的口。

所以當(dāng)時拔線拔到了網(wǎng)絡(luò)恢復(fù),我就登錄進了設(shè)備查看配置。

這一查看讓我哭笑不得,發(fā)現(xiàn)非常簡單,只是漏了兩條配置而已,在物理接口下漏配了兩條鏈路聚合的命令,就這么簡單。

而就是這么簡單的一個問題,就導(dǎo)致了這次的網(wǎng)絡(luò)環(huán)路,這時候生成樹是不生效的。

?

編輯切換為居中

添加圖片注釋,不超過 140 字(可選)

其實它也開了生成樹,他就非常納悶,“我開了生成樹為什么還會有環(huán)路?是不是你設(shè)備有BUG,你設(shè)備是不是有問題?”

那為什么生成樹不起作用?

因為對于匯聚交換機來說,只有一個口;

而對于接入交換機來說,卻存在獨立的2個口。

只是從接入交換機發(fā)出的生成樹BPDU報文,發(fā)到上行接口之后,匯聚交換機不會再從接口發(fā)出來。

因為只有一個口,它是不會從這個接口再發(fā)出來的,所以這時候設(shè)備本身就不會認(rèn)為網(wǎng)絡(luò)有環(huán)路。

于是就導(dǎo)致了,生成樹這時候是沒有作用的,即使你開了生成樹也檢測不到環(huán)路的。

后來我把鏈路聚合的配置重新配上了,網(wǎng)絡(luò)就恢復(fù)了。

其實就是一個非常簡單的一個小的疏忽,就在刷配置的時候漏刷了2條命令,從而導(dǎo)致的網(wǎng)絡(luò)故障。

實際上在現(xiàn)網(wǎng)中的網(wǎng)絡(luò)故障里,50%以上都是人為的,基本上都是人為疏忽、配置變更導(dǎo)致的故障

由于設(shè)備本身的軟件或者硬件出現(xiàn)問題而導(dǎo)致的故障是比較少見的。

大部分都是人為的,要么配置配的不合理,要么規(guī)劃不合理,才會導(dǎo)致這樣或那樣的問題。

所以:認(rèn)真+扎實的基本功=好網(wǎng)工。

在工作的早期,我想很多網(wǎng)絡(luò)工程師應(yīng)該都會出現(xiàn)類似情況,會發(fā)生這樣或那樣的不該出現(xiàn)的錯誤。

其實沒關(guān)系,只要掌握好網(wǎng)絡(luò)理論知識,認(rèn)真執(zhí)行每一個命令,很多問題都能迎刃而解。

像我這個網(wǎng)絡(luò)環(huán)路,排查步驟其實很簡單。

對于環(huán)路來說,如果你的網(wǎng)絡(luò)設(shè)備沒有辦法登錄,那你只能用最笨的辦法一根根去拔線,因為設(shè)備無法查看,非???。

以上就是今天我分享的排錯經(jīng)歷,希望能給你一些啟發(fā)。


原創(chuàng):老楊丨9年資深網(wǎng)絡(luò)工程師,更多網(wǎng)工提升干貨,請關(guān)注公眾號:網(wǎng)絡(luò)工程師俱樂部

1.《關(guān)于網(wǎng)絡(luò)有上不了網(wǎng)怎么回事,你需要知道這些懂事的網(wǎng)絡(luò)工程師,早該學(xué)會處理這種故障了》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《關(guān)于網(wǎng)絡(luò)有上不了網(wǎng)怎么回事,你需要知道這些懂事的網(wǎng)絡(luò)工程師,早該學(xué)會處理這種故障了》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/gl/3128472.html