GitLab 史上最大危机:工程师误删大量资料,导致线上服务崩溃 1 月 31 日晚上恐怕是知名程序源码代管服务网站 GitLab 最长的一夜,因为一位工程师的疏忽造成大量资料流失,而又... 

1月31日晚上恐怕是知名程序源码代管服务网站GitLab最长的一夜,因为一位工程师的疏忽造成大量资料流失,而又发现所有备份方案都无效而崩溃。

更严重的是二号数据库连复制都有困难了,跟上线的一号数据库的同步已经严重延迟,甚至拒绝连线一号数据库。线上处理的工程师里,有一位工程师的时区位于荷兰,当时荷兰已是深夜,身心俱疲的他决定把不听话的二号数据库资料全部删除再重建。

他本意是要对二号数据库服务器特定目录下rm-rf(Unix系的指令,不经doublecheck就可以强制删除所在目录下的所有资料)指令,结果执行1秒或2秒后,猛然发现目标服务器弄错了,是正在线上服务中的一号服务器而不是有问题的二号!

这就好像空难电影里,双引擎客机要处理故障的右引擎时,却把维持飞机动力的左引擎给关掉了。

紧急取消指令后,300GB的资料被删到只剩下4.5GB。而最后一个潜在可用的备份是6小时前手动操作的,一时之间连网站都连不进去了。根据该公司Googledocs的维护纪录在最新的讯息提到:“这个事件影响了网站数据库(包括issue问题和mergerequests合并请求),但不影响gitrepos(git版本管控档案库和wiki服务)。”

看到这句以后,彷佛全世界所有人的脸都震惊地冻结好几秒,这有点像铁达尼号的沉没是连续好几个安全机制同时失常。该公司只能坦诚地总结了这些错误。

更糟糕的是,GitLab去年曾经公开发表一件事:该公司本来使用的云端已经超载不够用了,要构筑和运行自己的Ceph云端。GitLab的基础设施领导人PabloCarranza表示,决定采用自己的基础设施“将使GitLab更具备高效能、一致性、可靠性,因为我们将拥有更多整体基础设施的所有权。”

回顾完GitLab去年的决策,再看这次发生的意外灾难最新报告,实在很尴尬。在编写本文时,GitLab表示:

±6小时的资料遗失了

大致上,受到影响的有4,613个常规项目、74个项目分叉(fork)和350个导入(import),总共5,037个项目。由于Git储存库没有遗失,我们可以重建这些项目在意外发生前所有的用户/群组,但是我们无法恢复这些项目任何issue问题。

±4979(所以±5000)注解遗失了。

可能有707个用户不见了,很难从Kibana日志中确定。

GitLab成立于2014年,获得2,000万美元的风险投资,客户包含IBM、Macy’s、ING、NASA、VMWare等。在本周,这些投资者的内心恐怕比其用户更加忐忑不安。

GitLab这事件发生以后,突显了几个议题,除了网站资料备份机制的漏洞,可能还有工程师的超时工作(导致判断失常)以及工作纪律问题:sudorm-rf这样最高权限不经doublecheck就强制执行的指令,在使用时应该要有适当的sop或更好的权限防呆。这事件反映出,除软硬件设备外,人员的良善管理更为重要。

亡羊补牢为时不晚,GitLab展现诚意以YouTube直播与Twitter将讯息公诸于网络,但是看来GitLab必须非常努力,才能挽回客户与投资者对该公司的信心。对其他依赖资讯科技的公司而言,相信这也是很好的借镜。

THE END
1.网络工程师师网络工程师师招聘猎聘网络工程师师招聘频道为您提供大量的网络工程师师招聘信息,有超过10000多网络工程师师招聘信息任你选寻,招聘网络工程师师人才就来猎聘网络工程师师招聘!求职找工作就用猎聘聊。https://www.liepin.com/s/9274182ce59d5f512bedab3b3303e2d3/
2.海外线上服务工程师(J10404)海外线上服务工程师(J10404)招聘海外线上服务工程师(J10404) 6千-8千 锦浪科技股份有限公司 宁波 不限 本科 05-16 工作地址 浙江省宁波市象山滨海工业园区金通路57号职位描述 岗位职责: 1.负责海外客户安装及使用中问题的解决,故障的排查,提供线上支持与相关数据的收集,整理,提报。 2.对存在隐患或质量问题的情况进行反馈,立项,跟踪,处理。https://m.zhaopin.com/jobs/CC222069110J40572571405.htm
3.IT服务工程师线上培训班培训时间与方式赛虎学院为保证人员以及企业对于服务工程师的需要,全面系统的提提升相关人员的专业能力和水平,且更好的满足参训企业的时间需求,赛虎学院开展IT服务工程师线上培训班。 为保证人员以及企业对于服务工程师的需要,全面系统的提提升相关人员的专业能力和水平,且更好的满足参训企业的时间需求,赛虎学院开展IT服务工程师线上培训班。 https://www.edusahoo.cn/detail/3185.html
4.惠普e管家:一对一的线上服务很贴心笔记本电脑笔记本评测5、服务评价,在帮助结束之后,会有一个客户满意度调查系统,针对工程师的服务进行打分评级。 惠普e 管家有点像雷克萨斯汽车所采用的 G-BOOK 智能副驾系统,都是通过网络,以人工的方式对用户提供信息支持服务,同时惠普 e 管家支持美国中国双专利隐私保护技术,这是出于对用户信息安全方面的考虑。在使用上,惠普 e 管家提https://nb.zol.com.cn/284/2847536.html
5.一诺云网第二步,点左上角的”防伪开票“,将会自动进入队列; 如有排队请耐心等待,待客服接入后 可先通过文字交流判断问题后,向工程师申请远程服务 点击“我要远程”启动远程工具▲ 远程工具首页▲ 客服已接入,可进行文字交流▲ 远程工程师已向您发起远程协助,等待您的接受▲ https://www.enuoyun.com/tax/front/article/4753.html
6.系列招聘活动—钦州市新能源与电子行业线上招聘会保就业决策部署,强化就业优先政策,保障企业用工需求和高校毕业生、各类城乡求职人员的求职需要,稳定我市就业局势,推动实现更加充分更高质量就业,钦州市人力资源和社会保障局于2022年2月25日在广西人才网.钦州站举办“钦州市2022年‘学子归钦’系列招聘活动-钦州市新能源与电子行业线上招聘会”,欢迎各类求职人员踊跃https://www.gxrc.com/Article/info/f2b1b511-0921-48af-a6ae-e63910a5fcb2
7.1年时间这家“企业微信”好友从200破100万,“私域”变现破亿!实战优惠活动:例如每周、每月的优惠套餐活动。限时性和优惠力度可以有效激发粉丝的购买服务需求,引导下单。 4.2 小程序商城成交 啄木鸟也在公众号搭建了线上商城,通过小程序让客户静默下单。 为了提高效率和转化效果,啄木鸟有一套固定的咨询下单客服话术:从了解需求、诊断方案、到根据区域自动筛选工程师下达订单,全程最快30秒https://maimai.cn/article/detail?fid=1630901163&efid=iIeWiLdOTtFsdJ9aMaO48Q
8.关乎每个人!2020年互联网女皇的趋势报告(中文精简干货版)对于设计师而言,这份报告本身也是一份涉及未来发展的开放性答案:新零售,远程协作,B端设计,「按需服务」,线上娱乐,等等等等。就像报告中所说的,我们正处于一个快速变化的阶段,不要指望有什么确切具体的答案,即使有,它也可能很快失效。但是,它也昭示着新的机会在前头等着你。https://www.uisdc.com/our-new-world/
9.工程师个人简历集合15篇5.维护产线的正常运转﹐处理产线上塑胶产品的问题 离职原因:辞职 xx公司(20xx-04~20xx-04) 公司性质:外资企业行业类别:其它生产、制造、加工 担任职位:跟模工程师岗位类别:模具工程师 工作描述: 1.负责新机种模具开发的进度 2.参与试模,分析和解决塑胶件的各种问题 https://www.wenshubang.com/gerenjianli/3183021.html