腾讯SOAR的安全运营探索博客

作为一名安全应急人员,每天要处理安全系统的大量告警,据笔者了解,有些公司的安全应急人员每天要处理几百甚至上千个告警,且大都是无效告警,其中真正的安全事件是否遗漏、响应是否及时,没有人知道。此外随着业务上云和使用云原生开发模式,告警的数量也随着容器的量级大幅增长,应急人员能否长期保持专注力?大量的无效告警显然已经影响到应急质量和应急人员的生活质量了(周末值班)。安全系统提高告警质量可以解决这个问题,但在现实环境中,安全系统众多且策略研发同学一般需要一个较长的周期才能优化,有时候优化甚至赶不上告警波动变化。

我们要解决的三个问题:

1、策略逻辑和告警逻辑分离:应急人员不再被动接收告警,将策略和告警逻辑分开,应急人员可以根据告警组织自动化响应流程

2、精细化运营:解决重复误报、规避告警风暴和业务特性误报,加强关联分析和划分响应优先级

3、精准事件自动化响应:分析日志/数据、找人和止损操作尽量自动化,提高MTTR

我们使用SOAR架构实现了策略和告警的分离,为什么选择SOAR而不使用其他方案——比如让安全应急人员直接修改策略,主要有以下几个原因:

(1)策略研发的策略逻辑涉及比较复杂的算法,运营人员直接修改策略需要非常高的学习成本,效率低下,也容易出现问题

(2)很多实时策略基于Flink等流式平台实现,需要开发JAVA,团队应急人员的技能栈主要是Python/JavaScript(3)我们的分析逻辑、应急逻辑针对不同场景可以复用,计算平台不支持

SOAR正好和我们的几个需求完美契合。

1、支持多途径的源数据输入、支持自定义插件开发,基础平台功能上扩展性强。

经过调研分析,目前的SOAR产品基本都包含三个核心模块:Dashboards、Cases、Playbooks,我们的SOAR也是基于这三大模块构建而成

Dashboards除了兼顾以前SOC的Dashboard功能之外,还增加了特有的对Playbooks的展示,这个模块我们在实现上复用了自有的SOC系统。

Cases/Alerts则类似工单,目前我们已经有现成的工单系统,所以会按照SOARcases的特征对工单系统进行改造,不再重新建设这个模块。

Playbooks是SOAR系统的最核心功能,包含Playbooks的编写、应用管理、插件的管理,但其核心是基于事件驱动的工作流系统,也是我们这次SOAR系统建设的重点方向,以下重点介绍:

公司有百万级的集群和设备,每天处理的数据量非常大,引擎需要具备海量数据的处理能力,另外业务希望平台尽快落地且跟业界对标,基于此我们决定在开源事件驱动项目FLOGO上进行二次开发,快速满足业务需求的同时,定制我们自己的SOAR系统。

FLOGO的优势:

功能齐全,模块化架构,前端可视化编排、后端调度引擎、原生插件等一应俱全,方便快速二次开发;

后端使用Golang编写,借助Go语言的高性能和并发优势,提高安全事件响应速率,在海量数据输入场景下提升尤为明显;

主要有以下几个特点

通过对系统整体的无状态化和配置远程化改造实现前端控制台Web和后端应用在腾讯云TKE集群上的部署和自动扩缩容,目前在日均百万级的数据处理场景下运行稳定;

增加控制台的员工认证和权限管控机制,提升系统的安全性;

用户通过在剧本画布上对插件进行编排即可实现个性化的运营需求

平台默认会提供一些通用安全组件,也支持业务自定义开发

SOAR在接收到源数据后,经常需要对数据的上下文进行补充,为此我们将SOC数据接口封装为插件和函数两种形式,让运营人员可以在其他插件配置中通过函数快速整合上下文信息,实现灵活度更高、复杂度更低的剧本编排。

除了以上这些通用插件,还有其他一些安全运营所需的插件,支持Python/JavaScript,程序引擎中约定了插件的接口格式,开发插件时实现对应接口即可。

插件接口:

插件示例:

在旧式的运营中我们最痛的两个点:

(1)告警风暴处理。重复告警或者业务特性引起的大量告警,反馈优化周期长

(2)响应优先级。安全系统的告警大多数仅针对告警场景做的危害程度分级。在运营需要有自己的响应优先级分级指标和能力。

我们把策略告警数据接入SOAR平台,增加了两个插件来解决以上两个问题

针对告警压制的处置方案有:规则过滤、基于IP/文件等属性做聚合归并、业务历史基线对比等方法,我们开发的这个插件核心是将这些功能改成配置化放到配置中心,通过把规则和流程分开管理,规则可以很快迭代的同时,也不影响现有系统的运行,一次优化流程10分钟就可以上线。

不同的告警划分响应优先级的方案有所不同,木马类告警我们使用了文件二次分析方案,进程网络类异常告警我们使用了上下文关联分析,我们将不同的分析方案都封装成插件供不同的事件类型过滤调用,从而根据二次分析的结果做进一步的分级和打标签。

附EDR的WebShell告警的SOAR剧本示意图:

安全是在不断发展和变化的,安全运营仅仅是做被动响应很难跟上时代的变化,通过SOAR平台,安全运营提高了效率,也更好的发挥了自己的作用。除了洋葱EDR我们也在将在Web漏洞扫描器(“洞犀”)、WAF(“门神”)、NIDS/DDoS防护(“宙斯盾”)等安全系统也将会接入SOAR平台,未来在系统联动、剧本建设上会持续迭代。与业界先行者(如Siemplify、PaloAltoXSOAR、Rapid7InsghtConnect、雾帜HoneyGuide、碳泽千乘)相比,我们数据面板、剧本等平台功能方面仍有一些差距,未来也会持续建设。

最后,感谢运营团队、研发团队对我们SOAR平台建设运营的帮助与支持。对腾讯的SOAR商业化产品感兴趣的同志可以看看腾讯云的SOC产品。

1、梳理:近三年Gartner对SOAR定义的不断变化-安全内参决策者的网络安全知识库2、DefinitionofSecurityOrchestration,AutomationandResponse(SOAR)-ITGlossaryGartner3、GitHub-TIBCOSoftware/flogo:ProjectFlogoisanopensourceecosystemofopinionatedevent-drivencapabilitiestosimplifybuildingefficient&modernserverlessfunctions,microservices&edgeapps.

THE END
1.确保业务连续性:使用服务器监控实现无缝运行(确保业务连续性在当今快节奏的数字时代,业务连续性至关重要。为了维持竞争力,企业必须确保其系统和服务在任何时候都可用且可靠。 服务器监控在确保业务连续性方面发挥着至关重要的作用。通过监控服务器性能、可用性和其他关键指标,企业可以主动识别并解决问题,从而最大程度地减少停机时间并确保无缝运行。 https://www.ulidc.com/2024/12/16/%E7%A1%AE%E4%BF%9D%E4%B8%9A%E5%8A%A1%E8%BF%9E%E7%BB%AD%E6%80%A7%EF%BC%9A%E4%BD%BF%E7%94%A8%E6%9C%8D%E5%8A%A1%E5%99%A8%E7%9B%91%E6%8E%A7%E5%AE%9E%E7%8E%B0%E6%97%A0%E7%BC%9D%E8%BF%90%E8%A1%8C-%E7%A1%AE/
2.怎么判断一款SCRM的SOP能不能跑起来?群应用scrm更何况,在实际的私域运营中,人一直是变化的。用户的时间会变,用户本身的兴趣(对产品A、B、C、D感兴趣)、意向以及阶段(未购买、已购买、多次购买、长时间不购买)更会变呀。 所以说,这个sop的设置,还是一个标签触发的逻辑。我们在之前的文章《从这三个趋势里,我们看到了私域的最佳实践》中说到过,标签触发sop所https://www.wescrm.com/siyuzhishiku/siyuyunying/2142.html
3.java响应时间和吞吐量预警线mob6454cc6df18d的技术博客java 响应时间和吞吐量预警线 前言 接口性能优化对于从事后端开发的同学来说,肯定再熟悉不过了,因为它是一个跟开发语言无关的公共问题。 该问题说简单也简单,说复杂也复杂。 有时候,只需加个索引就能解决问题。 有时候,需要做代码重构。 有时候,需要增加缓存。https://blog.51cto.com/u_16099253/12845763
4.精准解答解释落实ej30.56.70看点最后一步是将分析结果落实到实际业务中,并持续跟踪效果和收集反馈,这一阶段需要与业务部门紧密合作,确保分析结果能够真正转化为企业的决策和行动。 1、制定实施计划:根据分析结果和企业实际情况,制定具体的实施计划和时间表。 2、培训与指导:为业务部门提供必要的培训和支持,帮助他们理解和应用分析结果。 https://news.liandiantech.cn/post/7311.html
5.大厂性能测试监控指标及分析调优指南其他实例文章###1.1 响应时间(Response Time) * **定义**: 从用户发送请求到系统返回结果所需的时间。 * **监控方法**: 使用工具如JMeter、Gatling等进行压力测试,记录平均响应时间和99%响应时间。 * **优化目标**: 降低平均响应时间和99%响应时间。 ###1.2 并发用户数(Concurrent Users) http://www.shili8.cn/article/detail_20002682395.html
6.关注某个业务的响应时间,可以将该业务定义为解为:发送请求-->网络传输-->收到响应 ? 关注某个业务的响应时间,可以将该业务定义为事务 1.1.12 集合点 ? 模拟系统上较重用户负载时,配置多个用户同时执行操作,当用户到达集合点时将进行等待,直到指定数量的虚拟用户到达后再进行用户并发操作。 https://blog.csdn.net/weixin_67553250/article/details/129182038
7.Jmeter组件介绍时间:系统处理用户请求的响应时间 资源:系统运行过程中,系统资源的消耗情况 1.2. 性能测试是什么 1.2.1 广义定义 基于协议模拟用户发出请求,对服务器形成一定负载,来测试服务器的性能指标是否满足要求性能指标关注点:时间性能、空间性能性能测试与页面无关 https://www.jianshu.com/p/88e76411dbe0
8.关于售后服务方案(通用16篇)三级故障(次要故障):指设备或软件在运转中发生的,影响系统功能和性能,但关键业务不受到影响的故障。 2、服务故障级别响应时间。 二、服务内容 我方承诺提供的服务如下: 1、电话积极支持服务 我方通过电话为招标人提供技术支持,协助其解决系统日常运行中的问题。 https://www.ruiwen.com/fuwufangan/5025246.html
9.一文1800字解读性能指标与性能分析在系统处于重压?区(基本饱和)时,并发?户数上升,平均响应时间(上升),系统吞吐量(基 本不变) 在系统处于崩溃区(压?过载)时,并发?户数上升,平均响应时间(上升),系统吞吐量(下降) 【点击打开下方文章链接(在点击里面的小卡片进群无偿领取200G软件测试网盘资源+软件测试技术交流学习+软件测试内推交流群)https://zhuanlan.zhihu.com/p/13878027515
10.交易公告签约时间:年 月 日 合同通用条款 根据《中华人民共和国民法典》、《中华人民共和国政府采购法》的规定,合同双方经协商达成一致,自愿订立本合同,遵循公平原则明确双方的权利、义务,确保双方诚实守信地履行合同。 1.定义 本合同中的下列术语应解释为: 1.1 “合同”指甲乙双方签署的、载明的甲乙双方权利义务的协议,包括https://www.qhdzzbfw.gov.cn/ggzy/jyxx/001002/001002002/20211208/a3671bb0-341f-4a47-8834-07135d29e12c.html
11.超全面!交互设计师的工作流程指南优设网互联网公司的AB测试也采用了类似的概念:将Web或App界面或流程的两个或多个版本,在同一时间维度,分别让两个或多个属性或组成成分相同(相似)的访客群组访问,收集各群组的用户体验数据和业务数据,最后分析评估出最好版本正式采用。 从对AB测试的定义中可以看出AB测试强调的是同一时间维度对相似属性分组用户的测试,时间https://www.uisdc.com/interaction-design-process
12.1530888,全部解答解释落实SP90.893PVC工程围挡SP90.893的定义与重要性 SP90.893是数据集中的一个关键性能指标,它可能代表了用户满意度、产品性能或者是服务响应时间等。这个指标对于评估业务流程的效率和效果至关重要,也是改进和优化决策的重要依据。 数据分析方法 为了全面解答和解释SP90.893,我们采用了多种数据分析方法,包括描述性统计、相关性分析、回归分析和机器http://www.ncwpwd.com/post/5464.html
13.华为中国企业业务维保服务概览V2.14维保服务是华为为客户专门打造并提供的维护保障服务解决方案。该方案在保修服务基础上,提高了问题处理、备件派送等相关服务的响应时间和响应速度,帮助客户维护更加高效、稳定的网络环境。华为维保提供多种可选择的维保服务包,灵活满足客户不同的维护保障需求。 https://support.huawei.com/enterprise/zh/customer-support-service/ENEWS1000008539
14.2024年售后服务响应与处理时间框架3篇.docx全文完。2024年售后服务响应与处理时间框架1本合同目录一览1.合同概述1.1合同定义1.2合同目的1.3合同适用范围1.4合同有效期2.售后服务响应时间2.1响应时间定义2.2响应时间承诺2.3响应时间计算方法2.4响应时间例外情况3.售后服务处理时间3.1处理时间定义3.2处理时间承诺3.3处理时间计算方法3.4处理时间例外情况4.售后服务流程4.1https://www.renrendoc.com/paper/370509508.html
15.发挥分布式储能微电网等虚拟电厂将成为支撑泛在电力物联网建设的重要同时,虚拟电厂运营商通过负荷代理集成参与市场交易获得收益,通过考虑各柔性资源对虚拟电厂系统的价值贡献度进行价值分配,其中需要考虑的因素包括响应时间、调节速率、调节深度等。建立有效的价值分配体系时形成长期虚拟电厂交易主体的重要支撑,在具体操作过程中需要引入博弈论理论方法进行机制设计[32]。 https://www.china5e.com/news/news-1071935-1.html
16.云计算术语MicrosoftAzure这可缩短远程设备上的响应时间,并使企业能够更及时地从设备数据中获得见解。了解详细信息。弹性计算 它让你能够对计算机处理、内存和存储资源进行动态设置和取消设置以满足不断变化的需求,而无需考虑使用率峰值的容量规划及工程设计。 了解详细信息。人脸识别 一种个人识别技术,它依赖于光学分析来分析图像。人脸识别https://azure.microsoft.com/zh-cn/resources/cloud-computing-dictionary
17.在线数据重组和重新定义Oracle中国Oracle Database 中的在线重组和重新定义功能为管理员提供了极高的灵活性,具体表现在 修改表物理属性以及改变数据和表结构,同时还允许用户在这期间仍然能完全访问数据库。 改进数据可用性、查询性能、响应时间和磁盘空间利用率,这些在任务关键型环境中都非常重要。 https://www.oracle.com/cn/database/technologies/high-availability/online-ops.html
18.物联网的定义原理示例边缘计算:边缘计算对于物联网变得越来越重要,因为它允许在更接近数据源的地方处理和分析数据,而不是在集中式数据中心。这可以缩短响应时间,减少延迟并减少需要通过物联网网络传输的数据量。 人工智能:人工智能和机器学习对物联网变得越来越重要,因为它们可用于分析物联网设备生成的大量数据并提取有意义的见解。这可以https://m.elecfans.com/article/2208147.html
19.何为安全SD通过基于用户的简单分层许可,实现运营支出业务模式转型 获取端到端可视化、分析及报告功能,以加速零信任计划的推进 各组织正积极推进零信任计划,旨在为其高度分布式环境构建更为强健的安全态势。Fortinet 安全 SD-WAN、FortiManager 和 FortiAnalyzer 共同为组织提供精细的网络流量可视化,高效的流量数据分析和自动响应功能,并https://www.fortinet.com/cn/products/sd-wan
20.阿里云产品(上)当小仙女们开启大规模的剁手模式时,用户大量并发访问商品数据库,消息队列可以缓解瓶颈,减少页面响应时间,当然还有其他方面的功能优势,咱这里阿里云百科网就不过多赘述,双十一就是MQ的典型应用场景,大概就是这么个意思。 四、阿里云万网产品 1、域名 这个好像大家都知道,我还说说吧,比如阿里云百科的域名就是aliyunbaikehttps://developer.aliyun.com/article/900969