IT运维如何防止陷入“中年油腻”和频繁被动地打“遭遇战”?腾讯云开发者

作者:陈峻近期,我拜访了一家文化传播公司的IT运维总监Tim,他向我讲述了他的团队是如何像当年玩《大航海时代》那样将IT系统的战舰越造越大,并使之在企业运营的海洋中平稳前行的。

该文化公司成立于2013年,他们最初从简单的“PC服务器+二手三层交换+托管服务器”这样的硬件架构起步,既要对内满足员工的“上网+邮件+文件共享+存储”,又要对外提供“官网+视频上传/下载”的服务。

但是随着公司这几年来的多元化发展,各种看得见的设备和看不见的软件越来越多,特别是“论坛+会员博客+微官网+在线订单+移动支付+远程访问”等业务所带动的系统复杂性,纵然他们不断练就七十二变,也无法笑对前方的八十一难。

总的说来就是:针对整个运维生命周期中的各个方面,用三步递进的模式来逐步改进日常各项工作,即“标准化—配置与流程、自动化—操作与安全、平台化—监控与管理”。

过去他们的运维人员过分依赖技术上的大牛,由于上手门槛较高,部门里往往充斥着个人英雄主义,当然也就造成了人员资源上的单点风险。与此同时,他们又时常被服务厂商所“绑架”。

由于各家实现方式的不尽相同,在系统出现问题的时候,要么相互推诿,要么一拥而上、各自为政。这些都给系统的正常运营埋下了不少的“雷”。

在经历数次“多么痛的领悟”之后,他们逐渐认识到标准化的重要性,并通过如下方面的实践,有效杜绝了各种“任性”。

软硬件类型标准化

无论是网络设备、服务器端、用户终端,还是操作系统和应用软件,他们都有既定的支持和首选的列表。

这样一来,在品牌和型号层面上大幅降低了不兼容性,并缩小了排查的可能性范围。

安装配置标准化

流程规范标准化

无论是新建发布、服务变更、事件处理、事故响应、还是项目推进等,都有可遵循的流程和清晰的操作次序图表。

交接标准化

虽然他们不像一些互联网企业那样有专门的Dev团队、且产品迭代也不频繁,但是他们也充分考虑到了“建转运”过程中的风险。

通过分阶段、分步骤地制定了相应的转化流程,他们实现了测试账户的及时回收,并合理区分了系统类与业务类账户与数据的迁移。

除了上述各个方面的标准化之外,他们还日常维护着诸如:硬件设备全量清单、软件应用全量清单、第三方服务提供清单、干系人联系清单等支持类文档。

这些文档多以图表的形式清晰直观地提供了各类速查的信息,同时方便了后面将要提到的平台化所进行的二次筛选与统计。

他们有专门的共享知识库(后面会提到CMDB)来分门别类地妥善存放所有的标准化文档。

可以说,他们以标准化作为基础的Ops+模式,能有效地降低人员犯低级错误的发生频率,统一整体的服务水平,提高他们的响应和处理速度,并能简化对其工作质量的考核。

为了控制成本和增加系统本身的鲁棒性,他们的团队在如下方面进行了自动化的尝试,进而提高了系统日常管理的效率。

监控自动化

通过软件(如Zabbix)的自动注册与发现特性实现了:

操作自动化

善假于物方可事半功倍:

安全自动化

上述操作自动化虽然能够广受运维人员的推崇,但势必会涉及到对特权的调用和对基线的调整。

为了防范由此所带来的安全隐患和漏洞,他们也上马和启用了针对安全运维方面的自动化:

业界喜欢用物理学上的熵理论来阐述:倘若不对IT系统进行人工管控的话,则会趋向于无序。

Tim和他的运维团队认识到:如果日常运维工作完全依赖于标准化和自动化进行推进的话,很快就会陷入“中年油腻”,大家也会频繁被动地打“遭遇战”。

因此,他们基于过往的经验汇总、需求分析、当然也考虑到实际预算,设计并集成了一个具有可视化和方便管控的平台架构。该平台具体由如下三部分所组成:

资产、资源管理

做到手中有粮,心里不慌:

监控报警

一站式获取策略的实施和服务的状态:

事件分析

做到事前防范、事中控制、事后溯源:

我正好在采访Tim之前阅读过《凤凰项目——一个IT运维的传奇故事》一书,书中很多桥段与他所奉行的Ops+模式遥相呼应。

在Tim看来,通过他们的Ops+,运维人员提升了对系统各类隐患的发现能力、对例行操作的处理能力、对应急事故的恢复能力和对内外攻击的应对能力。

正如他自己所坦言的那样:“我们正在确保自己所维护的系统能从runright(运行正确)稳步进化为rightrun(正确地运行)”。

THE END
1.如何有效利用服务器运维监控平台提升系统稳定性?服务器运维监控平台是一种用于实时监测和管理服务器性能、资源使用情况以及系统健康状况的工具,这类平台通过收集和分析各种数据,为管理员提供有关服务器运行状态的全面视图,帮助他们及时发现问题并采取措施解决。 二、主要功能 1、实时监控:持续跟踪服务器的CPU、内存、磁盘空间、网络带宽等关键性能指标。 https://www.kdun.cn/ask/721691.html
2.动态监控实时在线推动行业安全发展澎湃号·政务澎湃新闻为进一步落实行业监管责任,强化对全市巡游出租车、网约车、“两客一危”营运车辆事中监管力度,动态监控工作专班利用动态监控平台实行24小时动态监控,重点抽查营运车辆超速、人行横道不礼让行人、吸烟、接打电话等不文明驾驶行为,调取历史回放记录,核实乘客投诉的不文明服务、绕路、不礼让行人等行为,通过教育、约谈、培https://www.thepaper.cn/newsDetail_forward_27987807
3.动环监控系统如何跑业务动环监控系统不仅可以实现对设备状态的监控,还可以实现对设备的远程控制。通过远程监控平台,可以实时查看设备的运行状态,并进行远程操作和调整。这对于跨地域、异地运维和故障处理具有重要意义。 比如,对于分布在全国各地的某太能发电站来说,可以通过动环监控系统实现对发电设备的远程监控和控制,实现对发电过程的实时管理和https://h.chanjet.com/ask/5632c8c804393.html
4.干货千万级别数据20秒内反馈,携程酒店智能监控平台如何实现林晨曦,携程酒店研发部资深测试开发工程师,主要从事测试框架和平台的研发,现在负责监控系统与性能平台,热衷于研究技术提升测试工作效率。 一、前言 携程酒店业务量巨大,产生海量的埋点数据,以应用为单位接入公共日志平台;常规监控系统无法精确定位业务问题,测试人员花费大量时间查询与判断异常数据,低效且反应滞后。 https://cloud.tencent.com/developer/article/1416476
5.运维述职报告范文(通用12篇)上阶段(20xx年3月——20xx年12月)总共受理操作类服务15次,数据类服务20次,系统类服务27次,需求类服务26次,业务类服务12次,并提供53次远程技术支持工作。 本阶段(20xx年1月——20xx年06月)总共受理操作类服务17次,数据类服务4次,系统类服务16次,需求类服务9次,业务类服务4次,并提供22次远程技术支持工作。https://yjbys.com/shuzhibaogao/fanwen/2563152.html
6.互联网大厂的运维都在干什么?30K的总监来告诉你8.运维平台 记录和管理服务及其关联关系,协助运维人员自动化、流程化地完成日常运维操作,包括机器管理、重启、改名、初始化、域名管理、流量切换和故障预案实施等。 9.监控系统 负责监控系统的设计、开发工作,完成公司服务器和各种网络设备的资源指标、线上业务运行指标的收集、告警、存储、分析、展示和数据挖掘等工作,https://www.51cto.com/article/614104.html
7.关于发布生物工程技术人员等职业信息的通知1.安装、部署云计算管理平台,配置网络设备运行参数; 2.定期巡检,备份日志,清理垃圾文件; 3.分析、评估设备运行指标,扩容或调整相应设备; 4.监控、收集业务运行指标,制定优化方案,提升用户 体验; 5.处理云网系统应急突发事件,排除系统运行故障; 6.运用云计算、人工智能等新技术,提出云网系统架构的优化改进建议,制定https://www.yinjiang.gov.cn/jgsz/xzjdbsc/lxz_5698367/zfxxgk/fdzdgknr_5698460/shldbzgl_5876570/202408/t20240806_85330038.html
8.2023年年度设备管理工作计划(精选20篇)1)清洁、检查、补给作业一般由设备操作人员执行。 2)紧固、调整、润滑作业一般由机修工执行。 3)压力容器作业由专业人员执行。 4)电气作业由专业人员执行。 五、保养制度 本公司的设备保养制度是以预防为主,定运行工时进行保养的原则,分为例行保养,一级保养,二级保养,三级保养,季节性保养。设备保养的分级和作业内https://www.wenshubang.com/gongzuojihua/2834853.html
9.幼儿园校车监控管理制度(通用21篇)(三)故意遮挡、移动摄像头影响监控效果的。 (四)超员、超速、疲劳驾驶。 (五)无校车驾驶资质者驾驶校车(驾驶人调包)的。 (七)校车驾驶人在操作中吸烟、闲聊、使用手机的。 (八)校车不按审批线路运行、跨区域接送学生、幼儿的。 (九)校车运送学生时搭载无关、闲杂人员及货物的。 https://www.ruiwen.com/zhidu/5859364.html
10.模拟题二注册审核员网原因:总装车间**关键工序操作工未按要求对工艺参数进行监控,实际时间为15:45分,却已记录了16:30的参数。 3、2002年10月25日,检查组在检验科检查产品的例行检验和确认检验,检查员要求检验科长提供“例行检验和确认检验程序”,检验科长说我们制定了《成品检验规范》,没有制定“例行检验确认检验程序”,并将《成品https://www.shenheyuan.net/CCC-lianxi/11279.html
11.府谷电厂:660MW火电机组智能发电关键技术集成及应用示范机器人搭载高清摄像机、高灵敏红外热成像仪、拾音器等多种检测设备,按照既定的规则完成区域内各处的设备和仪表进行可见光拍照、表计读数、红外测温及环境监测等巡检活动,将巡检数据自动传输到综合管理平台保存,生成检测分析报告。 4)倒闸操作:机器人具备倒闸操作(包括开关由热备用转为冷备用、开关由热备用转为检修、https://www.58heating.com/news/show.php?itemid=7394
12.校车管理制度(通用10篇)(三)故意遮挡、移动摄像头影响监控效果的。 (四)超员、超速、疲劳驾驶。 (五)无校车驾驶资质者驾驶校车(驾驶人调包)的。 (七)校车驾驶人在操作中吸烟、闲聊、使用手机的。 (八)校车不按审批线路运行、跨区域接送学生、幼儿的。 (九)校车运送学生时搭载无关、闲杂人员及货物的。 https://www.unjs.com/fanwenku/448042.html
13.平台建设方案(精选十篇)软件平台建设,包括操作系统、数据库系统、GIS地理信息系统、中间件及系统安全软件等。 指挥中心建设,包括指挥中心场地装修、DLP大屏系统、LED电子显示屏、综合布线、音响系统、供电系统、集中控制系统、呼叫中心系统等。 2、应用系统建设 汛情实时监测,包括:视频监控系统、水位信息管理、雨量数据管理、气象信息展示、工情https://www.360wenmi.com/f/cnkeywt29n1h.html
14.2022道路运输企业主要负责人考试题模拟考试平台操作2022道路运输企业主要负责人考试题目系道路运输企业主要负责人考试100题考前必练习题目!2022道路运输企业主要负责人考试题模拟考试平台操作根据道路运输企业主要负责人考前押题。道路运输企业主要负责人考试真题通过安全生产模拟考试一点通上在线模拟考试。 1、【多选题】《安全生产法》第十八条规定,生产经营单位的主要负责人http://www.hnksxx.org.cn/tzzy/ksjs/10884.html
15.api监控平台api监控平台开发方案应用分析监控平台api对于表中存在要插入Pod的监控信息记录,并且enable状态为1。则认为该Pod的监控不需要改变 对于表中存在要插入Pod的监控信息记录(删除操作并不会删除源数据信息),并且enable状态为0。则认为该Pod的监控已被删除或者被停止。调用删除操作, 清空QRTZ (例行任务插件)表中的响应内容, 调用delete db操作清出监控信息相关表https://www.eolink.com/news/7434.html
16.政策丨深圳市发改革公开征求《深圳市新能源汽车充换电设施管理(一)充换电设施运营企业应建立企业级充换电设施安全监控系统,将运营管理的充换电设施接入市级统一的充电设施安全监控平台,实时上传相关数据。 (二)企业级充换电设施安全监控系统应具备数据采集、控制调节、数据处理与存储、事件记录、设备运行管理、充电过程监控与报警处理、安全风险预警、充电信息安全防御、用户管理与权https://www.yoojia.com/ask/19-12044028450634190430.html
17.智能化集成平台IBMS智能楼宇综合管理平台IBMSIBMS平台采用模块化架构,每个模块既可以完成相应的功能,每个模块即可独立完成相应的单一功能操作,又可与其它模块配合完成更加复杂的联合功能操作。 在楼宇的智能集成管理系统项目中的智能系统集成平台作为核心软件,有机地将各个子系统整合起来,集中监控,统一管理,使它们协调工作,共同为楼宇创造一个舒适、便捷、绿色、安全的https://www.ghibms.com/index.php?act=content&cid=28