那些網(wǎng)絡(luò)中容易出現(xiàn)的故障!
來源:弱電工程師的圈子 編輯:小月亮 2020-07-21 17:07:13 加入收藏
運維人最怕網(wǎng)絡(luò)出故障。先拋開一些閑話不談,網(wǎng)絡(luò)故障從大體上來講,有下面幾種情況:
// 硬件問題 //
既然網(wǎng)絡(luò)設(shè)備是一臺機器,就有可能出現(xiàn)“疲勞”,從而導(dǎo)致各種各樣的硬件故障出現(xiàn)。硬件的故障,一般有下面幾種情況。
第一種是造成整機停機的故障。
停機屬于重大安全問題,造成停機的原因一般有以下幾點:
(1)設(shè)備電源模塊損壞,常見于一些單電源的盒式交換機;
(2)設(shè)備在搬移過程中,因為碰撞,摔打造成的主板芯片受損;
(3)一些使用超年限的設(shè)備,在重啟的時候出現(xiàn)問題,起不來了;
(4)因為機房環(huán)境不好,設(shè)備溫度過高造成“假死”的現(xiàn)象。
設(shè)備停機屬于重大安全問題,也是特別緊急的事件,需要馬上更換設(shè)備。即使是假死,都要把備機準(zhǔn)備好了再操作,防止假死的設(shè)備重啟時真的掛了。
第二種是設(shè)備的模塊、板卡損壞,不至于造成停機,但是引起了單點故障的隱患或者部分網(wǎng)絡(luò)業(yè)務(wù)中斷。
比如,Cisco 6509一般都會配備兩款引擎板卡,如果其中一塊引擎板卡損壞了,不至于造成該交換機停機,也不會導(dǎo)致網(wǎng)絡(luò)業(yè)務(wù)中斷。但如果不及時換掉這塊壞引擎板,就造成了這臺Cisco 6509單引擎運行,這肯定就是單點故障的隱患。如果這臺Cisco 6509壞掉的是一塊48口的千兆電口板呢?那肯定連接在這塊電口板上的業(yè)務(wù)全部中斷了。這種情況,就看根據(jù)整體的網(wǎng)絡(luò)業(yè)務(wù)有沒有受到影響來確定緊急程度了。對于客戶來說,壞一個板卡也是需要立即更換的。
// 軟件問題 //
軟件問題一般分為操作系統(tǒng)自身BUG,還有人為因素導(dǎo)致的操作系統(tǒng)拷貝不完整造成的一系列問題。操作系統(tǒng)本來是一類軟件,或多或少都會有一些BUG,可能體現(xiàn)在一些功能上面。
比較經(jīng)典的一個BUG就是H3C R6600系列,出廠自帶的操作系統(tǒng)Comware v7.1.059, ESS 0322,在配置BFD和BGP聯(lián)動的時候(對端是Cisco),BFD就不生效,需要升級為v7.1.064, Release 7618才可以。這也就是為什么說官網(wǎng)經(jīng)常對一些設(shè)備的操作系統(tǒng)軟件提供一些新版本的軟件包或者補丁包。
人為因素則是因為在對設(shè)備做軟件升級的時候,因為對設(shè)備操作系統(tǒng)軟件.bin文件拷貝不完整導(dǎo)致設(shè)備重啟以后就起不來了。導(dǎo)致這個問題的原因一般都是在拷貝軟件到設(shè)備的Flash里時,沒有仔細(xì)核對拷貝后文件的大小。
// 實施造成的問題 //
實施造成故障,這也算是一種比較常見的問題。網(wǎng)絡(luò)割接實施本來就有風(fēng)險。如果是操作人員經(jīng)驗不足或者技藝不精,對割接的風(fēng)險評估不足,前期的測試準(zhǔn)備不充分,就有可能在網(wǎng)絡(luò)割接的時候不僅沒能對網(wǎng)絡(luò)完成優(yōu)化改造,反而帶來一些新的故障。
一個很典型的例子,就是思科的設(shè)備換成華為或者H3C。比如拿一個拓?fù)鋱D來說:
第一個風(fēng)險點就是私有協(xié)議要改通用協(xié)議。
之前的Cisco 4503E使用的網(wǎng)關(guān)冗余協(xié)議是HSRP,換成華為就要換成VRRP。在這里要注意的就是,HSRP的組播地址是224.0.0.2,VRRP的組播地址是224.0.0.18,這里是HSRP和VRRP最關(guān)鍵的一個差異點。所以,HSRP改VRRP,首先就要檢查Cisco 4503E上的所有VLAN接口(SVI),看看VLAN接口下是否掛了ACL,這個ACL下必須增加放行224.0.0.18。
隨后的風(fēng)險點,就是這個鏈路捆綁 。
你可能會說,LACP是通用協(xié)議,華為的設(shè)備也支持啊!但是你要知道的是,思科的鏈路捆綁是Port-Channel,華為是Eth-Trunk。華為Eth-Trunk捆綁的默認(rèn)是手工模式,也不是LACP,所以,華為這邊需要在配置Eth-Trunk的時候,加一條“mode lacp”命令。
還有呢,就是路由協(xié)議這邊的風(fēng)險了。
可能你也會認(rèn)為,OSPF是通用協(xié)議,靜態(tài)路由更是幾乎所有三層設(shè)備都能支持,又能有什么問題呢?
在這個例子中,兩臺Cisco 4503E通過OSPF收取路由,再利用靜態(tài)路由進行分流。對于Cisco設(shè)備來說,OSPF路由的AD值是110,靜態(tài)路由的AD值默認(rèn)是1。而華為設(shè)備,OSPF內(nèi)部路由Pref值(類似于Cisco的AD值)是10,OSPF外部路由的Pref值是150,靜態(tài)路由的Pref值是60。所以這里可以看見:對于Cisco設(shè)備,靜態(tài)路由優(yōu)先級高于OSPF;而華為設(shè)備,OSPF內(nèi)部路由的優(yōu)先級卻高于靜態(tài)路由。所以為了防止思科換華為以后分流失效,所以在華為設(shè)備上配置靜態(tài)路由時,將pref值強行改為1。
如果是多路由協(xié)議混跑的骨干網(wǎng)中,思科設(shè)備換華為或H3C后,有時候也要在把華為或H3C上,把路由的Prefer值強行改為與Cisco一致。
當(dāng)然,這里說的風(fēng)險都是從宏觀上就能發(fā)現(xiàn)的一些風(fēng)險,還有一些小細(xì)節(jié)也可能是風(fēng)險點。比如光模塊能兼容Cisco,但不一定能兼容華為這些問題,能考慮到哪些就考慮到哪些,考慮得越細(xì)致,割接時出問題的概率就越低。
// 用戶造成的問題 //
這里說的用戶指的都是一些非專業(yè)用戶。很多運維人員都說:不怕這個用戶一點都不懂,就怕這個用戶是個似懂不懂的。有時候在辦公室里面悄悄接一個HUB,然后這個HUB上接滿了網(wǎng)線,一不小心就把網(wǎng)線的兩頭就插在同一個HUB上造成環(huán)路了;還有就是有些人不知道從哪里聽來的“旁門左道”,網(wǎng)速稍微一慢就亂改IP,認(rèn)為一改IP上網(wǎng)就快了,結(jié)果搞得IP沖突。還有就是亂接U盤,亂下載軟件,整一些ARP相關(guān)的病毒,弄得一個網(wǎng)段內(nèi)的主機全部都掉線。
// 設(shè)計缺陷導(dǎo)致的故障 //
設(shè)計的缺陷分為以下幾種情況:
IP地址規(guī)劃問題。
任何一個企業(yè),網(wǎng)絡(luò)規(guī)模都是從小到大的,在最初的時候,因為用戶數(shù)量少,IP地址充足,所以在規(guī)劃IP地址的時候都比較“奔放”。到了后期,用戶數(shù)量逐漸增加,業(yè)務(wù)分類也越來越多,IP地址的管理也會變得越來越復(fù)雜。如果在最初的時候就沒有對IP地址有一個較好的規(guī)劃,就很容易在后期導(dǎo)致IP不夠用或者是把兩段IP地址規(guī)劃到了不同的站點里面。
一些人員技藝不精的問題。
比如設(shè)計二層網(wǎng)絡(luò)的時候,讓生成樹的計算拓?fù)鋱D變得比較復(fù)雜,使得STP無法收斂;還有就是OSPF的區(qū)域規(guī)劃欠考慮,路由協(xié)議也是隨心所欲的用,設(shè)備上重分發(fā)很多,這些都會大大提升網(wǎng)絡(luò)中出故障的概率。
評論comment