想不到的网络故障!公司网络故障处理记录
- 时间:
- 浏览:
- 来源:未知
简述下困扰公司近半月的网络故障排除经历,本人非公司网管,也非专业人士,本人连个半瓶醋、瓶底醋都不算,因为机房迁移工作任务在我们部门,临时顶岗处理这个事情,过程可能有很业余的地方还请不要嘲讽。
机房线路:电信猫—防火墙(开启路由功能)--行为管理器—主交换机--(1.外接光跳2.接中转中型傻瓜交换机3.接无线AP)--分三线并联至3个大型傻瓜机—接入线架—接入主机
故障现象:外网无法联系公司内网,部分网址无法访问,多发(半小时一次)瞬时性(30秒至1分钟)网络拥堵,带宽下降严重
第一阶段
1.公司机房迁移,线路重新布置,大量主机电脑迁移;
2.迁移后第一天,大量人员反应网络拥堵,时常断开连接,无法打开网页,微信等通讯软件正常,部分网页持续无法打开;
3.开始单体排障,暂未怀疑设备问题,通过更改DNS、清缓存等,少数反应无法打开网页的电脑处理成功,无其它较严重问题反馈。
第二阶段
1.突发!严重!一级故障!大量人员反映个别网站无法打开,政府类、银行类、客户公司网站,集团公司网盘无法正常使用,公司资源共享服务器、软件服务器等外网无法登陆,确认迁移前没有相关问题;
2.使用第一阶段手段调整,仍然无法打开,测试公司其它电脑,全部无法打开,手机网络可以打开,怀疑机房设备故障,开始排查;
3.运用万能操作“重启”所有设备,问题持续,心想:完蛋。开始联络相关人员,寻求机房设备(防火墙、行为管理器、主路由、光跳箱、傻瓜路由)以及服务器主机后台密码,准备进入后台查看相关规则和设置,分析原因;
4.开始收集所有问题表现:资源共享服务器、软件服务器等外网无法进入(经测试可以PING通,说明前期配置的VPN正常),网络时常拥堵至无法打开网页,特定网站无法打开,特定地址无法流畅使用,问题收集完成,准备逐项分析,同时问题已经影响办公,头被催炸。
第三阶段
1.开始逐项解决问题,同时收到致命回复:严重!P0级别!只有行为管理器密码,其它设备密码全部遗失!提供的可能性密码经过测试全部错误(有点崩溃,有点懵逼);
2.根据现有条件开始解决问题。外网不能访问而内网可以,怀疑IP冲突,知道服务器IP,但服务器因为电脑登录密码遗失不能进入。首先查看电脑地址登记簿,未发现冲突可能,立刻开始对公司所有电脑开始IP查看,并同步对未固定地址进行固定,结果很烦躁,未发现有与服务器冲突地址,怎么办?不知道为什么莫名其妙就冲突了;
3.经过沟通考虑,决定使用PE清掉密码,进入系统进行修改,首先确保各基地能够使用。过程顺利,清除密码后进入系统,发现的确无法访问网络(网络黄色感叹号),不能连接互联网,更改IP后恢复,外网可进入,通知所有使用端更改连接地址,这一问题暂时解决。
第四阶段
1.开始解决网络拥堵、无法连接等问题。首先怀疑防火墙规则限制、主路由规则限制、光跳接入冲突 ,开始想方设法联系以前的设备供应商,并同步开始找程序员,准备擦掉所有规则,重置、重写防火墙及主交换规则;
2.联系上设备供应商,并与前网管沟通回忆以前的写入规则,发现规则较少,仅有少量接口规则,因接线方式为原样复原,初步判断设备无问题,开始着手跳过部分设备进行验证检测;
3.第一次测试:怀疑光跳冲突,断掉一基地的光跳连接,故障依然存在,排除光跳冲突;第二次测试:怀疑设备超负载,3个傻瓜交换机断掉其中一个,总在线数量减少33%,故障依然存在;第三次测试:怀疑中转傻瓜交换超负载,改主交换与大型傻瓜及直连且串联模式,故障依然存在;第四次测试:怀疑串联方式超负载,改主交换与傻瓜机并联,故障依然存在(有点小无奈了),又开始怀疑防火墙和交换机的规则限制,开始回头与供应商和前网管再次开始沟通;
第五阶段
1.沟通后经过确认,规则限制基本排除,并让我做跳过设备的连接试验,鉴于安全考虑暂缓了几天,开始联系外援进行问题反馈,共同讨论解决,并且期待问题能够自愈,结果表面我想多了,哈哈;
2.经过讨论新增怀疑:有网络回路导致网络风暴、有接口故障导致反复连接测试形成网络拥堵、行为管理器对访问有限制、有内网电脑存在攻击行为、访问地对公司地址进行屏蔽;建议我对以上问题进行排除。其实这些都只能单项解释拥堵、无法访问的问题故障,无法解释为什么他们并发产生;
3开始对各项怀疑进行测试,并对设备跳过行为进行测试。测试期间发现行为管理器接入方式有问题,只形成终端(怪不得前面进去的时候只能看到几个访问在线),未作为串联中的一环,遂对管理器进行接回,并排除行为管理器的访问限制导致故障,在行为管理器接入后对公司所有电脑网络访问进行监控,未发现异常流量,未发现夜间等异常行为,遂排除攻击行为;同时经沟通,开启设备内的过滤功能,考虑以前是否是管理器内的功能阻止了网络风暴等问题,打开后,发现问题依旧。歇歇歇,恢复原设置,防止新问题。
4.再报故障!全公司电脑对软件服务器部分功能无法访问,且为本地功能,立即怀疑IP更改原因,判断本地服务器代码内有写入原访问地址,所以在更换后全部电脑无法访问。鉴于IP地址不能改回,立即联系软件服务公司,要求他们对服务器内部代码进行改写或重新写入新的地址,软件服务商表示困难,原相关部门已撤编减员,原对我公司的服务人员已经离职,相关要求满足可能存在困难。。。。。。只能再想原因(我同时开始百度,怎么写这段代码,经过研究,我估计我会写,但是没试了,怕试出问题就炸了,哈哈),原地址为什么就不能访问,判定可能与主交换及或防火墙规则规定的接口有影响,因原服务器网络从主交换机直连。开始回头研究原线路视频、照片、线路图;
5.通过图像比对,接线正常,唯一可能就是三个接口存在相互位置误接,遂对接口进行左右调换,对软件服务器地址进行改回,并开始对接试验,经过短暂测试,发现原IP接入后可以访问,故障解除,通知软件服务器地址改回原地址,其它已经更改的共享服务器地址鉴于已经全部完成更改且新地址不影响使用,所以不再改回(有点折腾了,其实是不想被骂,唉);
第六阶段
1.开启其它故障测试,第一次测试:断开所有傻瓜交换机直连主交换机,故障依然存在;第二次测试:断开所有傻瓜机换机与行为管理器,故障依然存在;第三次测试:尝试防火墙到傻瓜机直连,发现无法访问,判断相互有规则绑定;第四次测试:电信光猫直连,网站无法访问的问题消失,网络拥堵因为故障特性,无法排除;第五次测试:电信光猫到傻瓜机直连,因为有五个地址,改三个电脑地址进行静态访问,网站无法访问的问题消失,网络拥堵因为故障特性,无法排除;开始怀疑公司设备故障,开始联系相关单位报价,准备对设备进行重置;
2.部分特殊网址无法访问,影响已经很严重,报税、登记等操作无法进行。迫于现状,开始进行短时间公司断网,通过静态IP让必须访问相关地址的电脑进行网络访问,其它非特定电脑联网的,建议其用笔记本电脑通过共享热点进行网络访问;
3.期间进行了其它测试:1.通过代理IP软件,在极少时候下能够访问相关网址;2.从下班后至夜间,无法访问相关地址的情况会随着时间变化出现好转,并且在夜间测试时随着每次改变线路,都会有短时间的网络故障消失,但是白天测试的时候不会出现这种变化,感到非常无语,因为前面已经经过下掉所有终端的测试,排除了设备负载问题,百思不得其姐……
4.开始联系电信、机房迁移的设备维护上、上级公司(网盘故障)、南京信息中心(大部分无法访问网站的维护方)。怀疑电信号段问题,怀疑接线线路问题,怀疑访问限制问题,甚至怀疑内网地址有问题,哈哈哈。有点病急乱投医了;
5.经过联系,电信答复没有任何问题,电信猫能访问说明他们就没有问题,让我对五个地址都进行测试;设备维护商就是接了个线路,设备都不是他们的,让我联系别人,但是愿意提供相关设备给我测试使用,并同我一同测试;上级公司表示他们的网盘访问没有任何限制;南京信息中心通过其安全公司反馈未对我公司地址有任何限制(开始绝望);
第七阶段
1.相关设备到位,提供了一台千兆路由器,用另一个IP再搭了一条线路,弄了两台笔记本电脑。测试内容为:原线路正常连接、一台电脑用电信猫通过静态地址访问、一台电脑通过新组线路进行访问,并连入有访问需求的相关电脑共七台进行测试;中间还发生了因为线路不在一个网段,网络打印机不能使用的问题让他们理解克服了;
2.测试结果:原线路访问:故障依旧;电信猫访问:网站无法访问的问题消失,网络拥堵因为故障特性,无法排除;新线路访问:网站无法访问的问题消失,网络拥堵因为故障特性,无法排除。当时小兴奋,难道原因找到了?解决问题了?并且解了部分电脑无法正常网络访问特殊地址的燃眉之急,不至于断大部分网络然后只通几个。当时严重怀疑原设备故障,向领导做了相关汇报,提出需要花钱的可能;但是同时心里留了个心眼,让连接新线路的终端使用者随时关注网络问题。(至于为什么没有全部换过来一是因为说是千兆路由,其实也就是个家用级别,担心负载问题,二是极路由说了,设定VPN连接可能导致网络不稳定,那就没办法进行对比测试了)
3.不知是喜是忧。测试36小时后,新线路报故障:“极少发性(一小时或几小时)、瞬时性(十秒左右)网络断开”,完全无法访问,心中一念:TMD,难道是电信设备的问题???立即联系电信,要求到场检测处理;
4.电信用相关设备和软件测试了半天(通过光猫直连)表示无故障,我表示问题为瞬发、偶发,短时间测试不能证明,要求其上报问题,其表示拒绝。期间沟通了解到电信在机房迁移过程中更换了光猫,NMB,我立即抓住问题不放,表示这是整个系统唯一更换过的设备,只有他可能存在问题,要求换回光猫,电信方表示拒绝;在此期间新建线路断网故障频率开始上升,但是无法访问的故障未再出现;
5.经过交涉,电信方多次至我公司进行测试。仍然坚称问题不存在,是我方设备问题,要求电信小哥引导我方更换设备或联系访问方,查看有无访问限制,我表示其提出的问题我已测试,并排除。给其听了电话录音,表示网盘为我公司内部系统,不会对我们进行限制,而且现场对我公司原线路及新线路进行了说明,表示电信网维部门提出的建议我已排除,电信小哥表示无能为力,通过其内部设备让我与上级网维进行沟通;
6.与网维大吵三次,因为期间电信小哥又来了两次进行检测,直接都是我和网维进行沟通,经过沟通,对方仍然坚信设备没有问题、地址没有问题,但是我表示我都换了几套设备了(夸张点和对方说,哈哈)还让我怎么换,都是电信猫单独使用正常,但是接上路由就不正常,那就肯定是猫的问题,你们想证明猫没有问题那就你们派个人来驻点,对猫进行长时间检测,你主张你举证。网维表示他们将内部协调解决,并报省公司,请求协助(要请大拿来了?);
7.在等待电信部门解决过程中,偶然进入在我们这边提供软件服务的第三方技术公司联系群,说明相关问题后,请他们协助判断,对方建议我使用Wireshark进行抓包检测。我对三组线路进行检测,在直连线路中发现存在掉包现象,立即将相关情况截图等发于电信方。
第八阶段
1.事情僵局出现转机,电信小哥转发截图给我,表示我们隔壁公司出现同类网络故障,已经持续一个月,并且请了专业公司进行诊断处理以及更换了部分主要设备,问题未能解决,今天保修了,去年年底换的和我们公司一样的设备。他立即网上申报,表明具有同类故障,电信方立即同意进行电信猫调换,电信小哥立即在隔壁公司进行更换,经48小时使用后反馈问题解决,相关故障消失;
2.于3月31下午更换我公司电信猫设备,进行电话及网络线路分离,更换后原线路不能访问部分网络的问题当即消失,其它问题仍在观测,预计完全消除;
其实折腾半天还是不知道问题原因,只是分析出了问题点在电信光猫上面,信号转换故障或者那个新猫本身就有需要召回的故障也说不好,总的就是一开始就没往电信设备上面去考虑希望问题不要再发生……
编 者
20200331