在过去,我们每次使用ECS时,如果碰到问题,通常有以下两种途径去解决:
这两种方式在过去确实帮助我们解决了不少问题,但随着云服务的复杂性和用户需求的不断提升,也逐渐意识到它们存在一定的局限性。提工单虽然高效,但对于一些希望减少人际交流的用户来说可能不太理想;而搜索引擎对于解决罕见问题的有效性有限,特别是在面对特定配置或非典型错误时,网上的信息可能不够全面或及时。
正是在这样的背景下,云服务器租用推出了其云服务诊断工具,旨在为用户提供一款强大的“云端资源诊疗大师”。这款工具不仅能够实时监控云资源的健康状态,还能通过智能诊断功能帮助用户迅速识别并解决潜在的问题,从而极大提高了故障排查效率,保障了业务的连续性和稳定性。
要说到云服务诊断,大家可能听起来比较陌生,但是当看到ECS控制台的下图所示位置时,大家就会明白其实自己早已使用过该服务的能力了
这里还是先介绍一下云服务诊断产品的基本概念,便于大家有个全面的了解
当业务系统遇到问题时,首先应检查账号下各云资源实例的「健康状态」,以确认它们是否运行正常。如果所有实例的状态均显示正常,这就相当于排除掉了云服务器租用服务本身的故障可能性,此时只需要聚焦到服务器内部故障即可
通过使用「诊断」功能,可以实时监测和排查诸如网站无法访问、ECS实例连接问题、配置错误、安全风险、高负载、系统宕机、资源超限以及账户欠费等一系列问题。该工具不仅提供即时的问题检测,还会给出针对性的修复建议,帮助您迅速采取行动解决问题,确保业务尽快恢复正常运作
当我们首次使用健康状态时,需用户开通并创建服务关联角色
在开通资源管理后,资源中心处可以慢慢加载出自己当前账号下的所有资源,此时再回到「健康状态」处,可以看见刷新出来的资源列表
此处健康状态其实是指云资源的可用性状态:不可用为异常(红色),可用为正常(绿色)
我们展开下拉框后,也可以直接快捷跳转至对应服务的控制台中
同样,在控制台中其实也内置了这一功能
进入到运维管理中,可以查看其详情
点击「查看详情」,可跳转至健康状态详情页面,查看各资源每小时的健康状态
点击资源ID可跳转至该资源控制台
诊断可以对一个或多个云资源某种工作状态(配置/功能/性能/连接/安全等)的检测分析,并对异常进行详细描述并提供修复建议
目前,支持的诊断对象如下,共计30种情况:
可以看出,绝大部分都是针对于ECS云服务器疑难杂症的诊断,这块确实也是用户在使用云计算资源时最为关心的部分之一了
如果是计算类服务,点击后选择下一步,再选择到具体的实例ID即可
如果是网络类服务,需开通「网络智能服务」,目前公测免费试用,点击免费开通
同样也是选择到具体的实例ID,点击诊断即可
数据库和其他也是诸如此类
同样,该功能也集成在了控制台中,有以下两种方式可以快速进行诊断
诊断完成后,若存在异常,可查看异常详情和修复建议,并根据修复建议指引完成问题修复
除此,根据操作文档中说明,为了方便用户使用,从2024年11月8日开始陆续开放「一键诊断」功能的邀测
该功能作为普通「诊断」的升级版,可一键为用户全方位诊断云上资源,一次性解决问题,免去用户逐个排查的烦恼
目前周周也还未获取使用资格,只能先看一下使用示例了
一键诊断只需用户一次发起即可针对用户保有的云上资源进行整体诊断,排查每个资源是否存在异常情况,对异常进行严重等级排序并提供修复建议,方便用户集中处理。一键诊断类似全身体检,可排查有明显表征及无明显表征的健康问题;场景诊断类似专科检查。
点击「开始诊断」启动一键诊断,可查看整体诊断进度以及每个实例的诊断进度,整个过程大概1-2分钟
全部诊断完成后,可查看诊断结论
记得以前,面对复杂的云环境,我们需要手动监控和排查各种问题,从配置错误到性能瓶颈,每个环节都可能成为系统稳定性的隐患。而现在,这款优化后的诊断工具不仅涵盖了早期版本中ECS计算类的诊断,还扩展到了更多的场景,如网络连接、数据库性能、存储效率等,这大大减轻了我们的工作负担,让我们可以更加专注于战略层面的安全规划和架构设计
另外一个优势就是,对于运维新手,或者其他譬如开发人员而言,这样的工具也起到了非常好的辅助作用,即使是没有经验的工程师也能快速完成故障处理
要说诉求或者建议其实也谈不上,更多是对未来发展的期待。随着业务需求和技术的发展,云服务的复杂性只会不断增加,因此我希望云服务器租用能够继续致力于提升云服务诊断工具的功能和智能化水平。目前的这些场景,对于一些能力稍强的运维工程师来说其实都是类似于小玩具似的,能起到帮助但是并不是很大,所以我依然还是习惯按照自己的思路去快速判断,目前最希望的是能更新一些ACK(K8S)的排错场景。