知乎上看到一个问题“我朋友是运维,他说运维一天24小时必须在线,不能请假,周六周日有时还加班。运维这么恐怖吗?”以下为各位大牛的回答:
来自知乎的好友”HarryZhu“的回答:
微软的解决方案:
1)在西八区(西雅图)部署一个团队,解决全世界各个项目在各个IDC的的各种问题,下班点儿一到,人就都消失了;
2)在UTC时区(英国或者爱尔兰)部署一个团队,解决全世界各个项目在各个IDC的各种问题,下班点儿一到,人就都消失了;
3)在东八区(上海)部署一个团队,解决全世界各个项目在各个IDC的的各种问题,下班点儿一到,人就都消失了;
你们公司:
1)半夜三点经理K完歌给你发条消息,看看服务有没有问题;
2)你睡着了没回,又收到消息:工作态度不端正,要学会做事先做人;
4)你赶紧爬起来,检查了一下,没事呀?回复一切正常。经理睡着了……
所以,
微软的7x24,是三个时区的三个团队的8+8+8,一个时区上八小时,下班了,另外一个时区接上八小时,又下班了,第三个时区又接上八小时了。
你的7x24,是你的7,是你的24,
然后,你到网上发表高论:
做运维就是要7x24,一副前辈经验充足的模样!
来自知乎的好友”李明阳“的回答:
这话说一半啊。
运维是一个职业,是一个团队,而不是一个人。
7x24是运维这个职业的要求,小公司能有什么关键业务,用不上这个的。
大公司会有很大的运维团队,大家排班,所以单个人的工作量不会很大的。
我们公司的运维团队是全球的,大家只需要在自己的时区保证早八晚五即可。
唯一的缺点就是有串休,大约每个月会有两周的周末有一天上班,串休到下周的第一个工作日。
为了方便大家交接,运维系统都非常完善,基本上就在系统里操作就行了,都不用直接联系。
来自知乎的好友”浪里说“的回答:
你朋友应该说的是7*24oncall,这个是有要求的。但是不能算恐怖。
为啥?
业务提了紧急需求
业务出了灾难性告警
但按一个月来说,不会超过3小时。
来自知乎的好友”大海的欣“的回答:
运维确实是一个24小时都在线,确实需要随时处理线上故障的岗位。
对于公司处于初期,资源有限的情况下,对运维不够重视或者投入不足的时候,是会出现这种情况。
即使出现这种情况下,说明运维工作还有很大的提升的空间。改善这种情况主要从两方面入手。
首先是技术方面。运维工作有很多开源成熟的方法论,可以提升运维的工作效率。同时成熟的开源技术可以解决一般公司80%的技术层面问题。
比如说网站访问量过高的问题,可以用高可用技术解决。数据回源造成数据库比例高,通过提高hit解决。前后端分离解决动静分离。中台解决API治理。等等问题,从技术入手,通过社区调研,大部分问题可以得到缓解甚至解决。
然而面对管理时,可能就不那么简单了,虽然SLA中有关于人员方面的要求和配备。还是需要具体问题具体分析,不能搞一刀切。
比如值班问题,至少是standby状态,避免出现紧急情况没人响应。升级机制,避免问题被卡住,因为没有上升渠道,导致故障不能解决。备忘录机制的完善,避免出现问题无人问津的现象。
对于运维来说,无论是一个人,还是单独的小组或者部门,前期投入比较大,只要规则和模式跑通了,可以自行运转。慢慢的做好后期完善和梳理工作,应该不太需要太多的精力。
来自知乎好友”灰橙“的回答:
我就是运维,不需要。不过我小公司,就100多台阿里云服务器,现在云服务器都是高可用的,做好各种自动化脚本和监控,极少有事,周末也正常休息。
来自知乎好友”普通人罢了“的回答:
一般没有那么恐怖:
说说我的情况吧:
多项首批评估结果揭晓!2023年12月15日,中国信通院DevOps、AIOps系列标准最新评估结果重磅发布!
截至目前,共有104家各行业名企336个项目参与DevOps能力成熟度模型评估,包括六大国有银行、股份制银行、城商行、农商行、交易所、证券、基金、保险、信托、通信和互联网等行业的众多头部企业。
100行Shell脚本实现一个Docker?看完这篇“大作”,我大受震撼!