孙蓉桦
华为质量流程与IT管理部数据中心网络运维专家
自2014年开启云化转型之路以来,华为私有云规模呈指数级增长,云数据中心网络设备每年也以50%的速度激增,目前已超过20000台。每年,华为内部网络配置的变化量高达50万行,版本/补丁升级、设备替换等变更操作超过500次。如此巨大的工作强度之下,网络运维人员却仅有10人,这是如何做到的呢?
云计算时代,在业务快速增长的前提下,又如何才能在不增加运维人员的同时保持IT系统99.999%可用性?
从运维的角度
看云数据中心网络
随着云计算的不断发展,云数据中心网络显现出服务化、自动化、虚拟化和智能化4大特征,支撑了云业务的快速、灵活和弹性,但是其发展却并不均衡——面向用户的特性往往优先于面向运维,所以,网络在快速云化的同时,也给运维带来了很大挑战:
?网络设备数量不断增长,但是运维人力有限。
?网络运维自动化程度低,仍延续“人拉肩扛”的方式。
?网络的复杂性不断增加,对管理员的技能要求高,可用性保障困难。
?网络监控广度和深度不足,但告警信息太多,关键告警被淹没。
网络运维能力是云数据中心网络的核心竞争力之一,未来,网络运维的发展方向在于逐步实现自动化、智能化和无人值守,这其中,如何构建智能化网络运维平台是关键。
构建智能化网络运维平台
智能化网络运维平台主要瞄准4个目标:秒级故障定位、分钟级故障隔离与自愈、网络质量可预测与可优化以及全生命周期运维自动化。
华为规划的智能化网络运维平台由网络监控平台、网络智能分析平台和网络自动化平台这3大平台组成,平台间相互协同形成一个闭环自制的网络运维系统,最终实现无人值守的目标。
华为IT智能化网络运维平台
1
网络自动化
网络自动化可覆盖22个运维场景,包括策略增删改、健康检查、停电检修和转产验收等频度高、重复性强且耗费人力多的工作。华为每年有超过15万的防火墙策略调整,实现自动化后,基本无需管理员干预,而且还可以实现策略的一致性、合理性和合规性。
海量网络设备的自动化工具开发。华为通过规则与自动化程序解耦、采用非阻塞的socket交互方式以及线程优化控制等措施,可以实现20分钟内完成10000台网络设备的配置下发。
2
网络监控
华为在开源代码的基础上优化了数据存储和告警算法、重写了部分模块代码等,使得单台服务器5分钟的监控能力提升到200万个,这样只需5台服务器即可监控1000万个指标。
华为自建了网络日志系统,可以实时收集现网设备日志,并针对关键字进行监控告警。同时还可对每天收集到的1500万条日志进行预处理,支持多维度的日志信息检索和可视化。
3
网络智能分析
现在,华为云数据中心网络每万个监控指标的告警量已由2014年的每天10个大幅下降到了0.5个,这主要依赖于对历史告警的大数据分析持续优化了监控告警阈值的设定,同时结合不同的网络场景使用过滤、去重和Flapping抑制等方法减少了无效告警数量。
光模块是云数据中心网络中故障率最高的部件,光模块一旦出现故障会造成丢包等问题,对业务影响很大。为此,华为对影响光模块运行状态的指标进行了严密监控,每天收集现网80000个光模块的运行信息,结合专家经验、机器学习和时间序列分析方法对其进行分析预测,使得目前故障光模块的预测准确性已接近50%。
云开启了网络运维的新篇章,华为将持续构建智能化网络运维平台,不断拓展自动化、网络监控和智能分析等场景,形成闭环的网络运维体系,实现秒级故障定位、分钟级故障隔离与自愈、网络质量可预测与可优化以及全生命周期运维自动化的目标。让网络运维向着无人值守这一终极目标大步迈进!
?滑动下载全面云化网络专刊
文章节选 | 《ICT新视界》