安全产品的自我修养博客

前事不忘后事之师,先来盘点一下业界一些因为安全产品引发的故障案例。

1)杀毒软件和补丁升级的风险

哪怕是Windows官方提供的补丁,有些场景下部署了也会蓝屏——所以在传统金融行业,有些核心服务器为了保障可用性,是不会安装杀毒软件也不会打补丁升级的。

2)漏洞检测引发的风险

即使不在客户的计算机或者服务器上安装任何东西,单纯开启漏洞扫描器去探测客户是否存在已知风险,也有很大的几率导致目标服务器蓝屏、死机、丢失数据。

比如说,笔者了解到,曾经公司某业务就会把扫描器提交的参数全部都写入生产环境的数据库里,导致数据错乱;而有些扫描器在测试SQL注入漏洞的时候,可能就会引发服务端的一个不带where条件的update或者delete,造成数据丢失;更别说探测一些系统内核级别的漏洞引发的蓝屏、死机、重启、拒绝服务、crash等现象了。

3)实时阻断类产品引发的风险

有一些安全产品,比如IPS、WAF,一旦识别出恶意的攻击行为,就会对攻击源进行阻断,避免攻击的发生——问题是,如果出现误报将正常请求拦截了,该如何应对呢?

对于可用性要求极高的业务来说,这几乎是不可接受的。所以,绝大多数安全团队永远不会开启IPS的阻断功能,仅仅当作IDS在用。而WAF等安全产品,则必须严格区分“发现策略”和“阻断策略”:

发现策略可以有适当的误报,但是最好没有漏报。而阻断策略则必须没有误报,可以有漏报。

与此同时,自己发起的阻断,要给业务足够多的信息提示——否则有时候业务debug几天下来才发现其实是WAF阻拦、篡改了请求,换位思考,感受一下业务的怒火,就知道我们该怎么做了。

4)单点串联产品故障

有一些DDoS/WAF产品是串联部署在业务的网络里的,或者进入防护状态的时候,会串联到业务的网络路径中。一旦这些产品出现bug,就可能造成业务中断。

好玩的地方来了:原本为了保障可用性的安全产品引入,反而导致了可用性的故障,而这些故障的原因如果归因为我们无法提供稳定的高质量研发水平时,业务很可能宁可被攻击也不会再用我们的服务。

5)安全产品自身存在漏洞

安全人员站在制高点上指责业务开发团队没有遵循SDL后,自己转变成产品的制作方,却同样重复这些错误。

试想,统一集中管理认证的中心存在低级漏洞时,我们要如何说服业务把鸡蛋放在这个篮子是安全的?

【意料之外,情理之中】

安全产品引发不安全因素,虽然看起来意外,其实却有它的必然性。

在很多地方,负责研发、维护这些安全产品的开发团队,人手并不如明星产品那样每一个模块、每一个职能都有成熟的分工和千锤百炼的流程护驾。

部署到数十万台主机的Agent,也许只是3、5个研发人员花了几个月“敏捷迭代”出来的产品,没有专业的运维团队,没有专业的QA、发布流程,没有DO分离……

3、5个人,10来条枪,决策者的还是那个做攻防出身,几乎没有研发经验的领导,偶尔质量出一点问题就很容易理解了。

同样的产品,在乙方,开发、测试、运维、策略运营、售前售后分工都非常清晰,各司其职,通过严格的流程进行质量控制。其管理成熟度应该远远高于大部分甲方安全团队——然并卵,上一节举出的案例也证明了,即使在乙方足够投入的前提下,也不一定能够避免所有的意外发生。

那么,我们要怎么应对呢?

【安全产品的自我修养】

1)架构设计与定位

在设计安全产品和做自我定位的时候,是否可以充当“保姆”其实是非常值得商榷的。比如我们的主机安全Agent为了保证不影响业务,牺牲了非常多“理论上可以做”的安全特性,尤其是阻拦性质的。

洋葱系统会严格跟限制自身的CPU占用率、内存使用率、文件打开数量、日志文件大小等等,充分避免因自身问题引发主机层的业务故障(如果使用超过了指定的资源,安全Agent会把自己kill掉,同时运营人员会介入Agent离线事件)。

虽然洋葱的大部分功能是“只读”的,小心避免修改业务环境。但是,哪怕是“只读”的操作也可能是有风险的。比如我们绝对不敢轻易使用netstat、lsof等指令——这些指令会遍历当前打开的文件句柄,在某些服务器上,数十万的连接数遍历一遍能把CPU、IO占用率提升到业务无法接受的程度。

对于发现的安全事件,同样是“只读”操作——发出安全工单,由应急团队立即跟进处理,任何删除文件或者关闭服务的“写”操作都必须由业务运维同事自己来执行——安全Agent当然有这个能力,但是非特殊紧急必要情况不能使用。

2)严格遵守研发流程

说实话,腾讯安全团队发展到今天的规模之前,也经历过小作坊式的开发阶段,同样用3、5个人完成了当时极具挑战的开发任务,也逐步建立起来完善的研发流程。

每一个项目、需求的实现,会在内部项目管理系统TAPD中先做登记、审核。可以有1个开发兼任需求确认、代码实现、测试等不同的角色,但是每一个流程和环节却不能省——敏捷不代表可以不尊重流程管理和质量控制。

如下是一个典型的TAPD流程:

代码实现好之后,如果要发布到线上,必先经过灰度测试、拨测观察再扩大规模。而且,积累了无数血泪教训之后,腾讯还有“周五不变更”的文化,这种流程和文化会随在新人入职的第一个月就通过各种导师传帮带和部门级培训植入到每一个人的骨髓里。

3)投入专业运维团队

可惜的是,很多安全团队有能力投入一个作坊式的开发班子就很不容易了,这个开发班子往往自己还要负责运维发布,于是运维这个专业领域里被填过很多年的坑,安全团队都要自己再走一遍。

4)数据运营与响应

除了投入运维人员之外,一个安全产品的生命和灵魂其实在于运营。

所谓的运营,就是要让安全产品发挥预期的价值,并且减少一切可能影响达到目标的风险。因此,运营同学会深入了解安全产品设计和实现的原理,采集、生产数据的真实含义,建设一整套数据指标。

这些数据指标,有些是从业务角度衡量产品成功性的,比如主机Agent部署到了多少台服务器上,多少在线,多少离线。发现多少安全问题,漏报多少,误报多少。

有些则是衡量自身质量和健康性的,比如上报数据通道中,每一个环节提交的数据,和下一个环节收到的数据是否能够对账,是否存在丢包。

还有一些,则是定位于故障类型的检测,比如是否引发了业务性能、资源的异常。

通过数据运营的方式,运营人员每日实时响应各种异常,协调运维、研发将各种问题及时化解,维护自身的口碑,往往也更加深入的理解当前方案存在的局限性可以持续的优化和控盘。

5)产品化

不少安全产品从出身开始,就将自己定位于“能够实现功能即可”。对于用户交互、功能接口、故障排查、可运维性、可运营性等方面考虑的都极少。

我见过一个控制账号管理的安全产品,其Web管理后台真心只是把LDAP所支持的每一个参数和功能罗列了出来,完全没有考虑用户在使用这些功能和参数的频率、填写逻辑。

6)策略运营

安全产品毕竟是一个平台,要部署“安全策略”才能实现自己的业务价值。可惜很多负责设计和部署安全策略的人员,并没有太多全局的视野和评估能力,他们不知道,有些“阻断策略”、“打击策略”虽然理论上能够把坏人抓出来,但是如果误伤好人,对自身产品的运营伤害反而更大。

因此,严格区分“发现策略”和“打击策略”,在“发现”的时候接受更多的误报,人工离线筛选和运营,测试策略效果,在“打击”策略上更注重“精准”和“有把握”。

【总结】

安全团队能够投入研发力量,设计和开发自己的产品本身已属不易。但是这个开发过程和普通的产品开发过程并没有什么不同,软件工程领域成熟的方法论、流程、运维工具、质量管理体系、安全开发方法,对于我们自己依然有效。

最后,本文仅是个人的一点浅见,旨在抛砖引玉,欢迎大家一起来探讨。

THE END
1.辉视指挥调度系统:全方位应急管理与决策支持辉视指挥调度系统通过先进的通信技术,实现了应急调度指挥的“通信畅通、现场及时、数据完备、指挥到位”。在突发事件发生时,系统能够迅速启动应急响应机制,通过集群通讯、语音对讲等功能,确保指挥人员与现场人员之间的即时沟通,实现高效指挥。同时,系统还能够实时收集、分析现场数据,为决策者提供全面的信息支持。 https://blog.csdn.net/szhhzt/article/details/139126997
2.在设备上运行实时响应命令可以在单个 API 调用上运行多个实时响应命令。 但是,当实时响应命令失败时,不会执行所有后续操作。 如果实时响应操作已在运行,则无法在同一 (台计算机上执行多个实时响应会话,后续请求将使用 HTTP 400 - ActiveRequestAlreadyExists) 响应。 备注 从“设备”页启动的实时响应操作在 machineactions API 中不可用。 最https://learn.microsoft.com/zh-cn/microsoft-365/security/defender-endpoint/run-live-response
3.realtimeresponse的中文翻译汉语译词专业词典学术词典实时响应 机械 real-time response 实时响应 实时性 机械 real-time response characteristics 实时响应特性 机械 request-response real time manner 请求应答对时方式 电信 real time interrupt response 实时需求 机械 real time load response 实时负载响应 机械 short time real time emendation 短期实时校正 电信 rehttps://www.scidict.org/index.aspx?word=real%20time%20response
4.深入解析:及时响应率如何计算?(及时响应率如何计算)在服务行业,及时响应率是一项重要的服务质量指标。那么,及时响应率究竟是如何计算的呢? 一、定义及重要性 及时响应率是指在规定时间内完成响应的次数与总响应次数的比值。它直接反映了服务团队的响应速度和工作效率,对于提升客户满意度具有重要意义。 二、计算方法 https://www.zaixianjisuan.com/jisuanzixun/shenrujiexi_jishixiangyinglvruhejisuan_.html
5.如何在海外服务器加速器上实现实时数据处理和响应?随着云计算和分布式系统的发展,企业越来越依赖于海外服务器加速器来处理和响应实时数据。无论是金融交易、物联网设备数据还是在线游戏,高效的数据处理和响应速度直接影响到用户满意度和业务成功。 1. 选择适当的海外服务器加速器 首先,关键是选择适合业务需求的海外服务器加速器。考虑以下因素: https://www.hzjcp.com/6962.html
6.实时响应的英文实时响应翻译实时响应英语怎么说海词词典,最权威的学习词典,专业出版实时响应的英文,实时响应翻译,实时响应英语怎么说等详细讲解。海词词典:学习变容易,记忆很深刻。http://dict.cn/%E5%AE%9E%E6%97%B6%E5%93%8D%E5%BA%94
7.实时响应英文怎么写实时响应英语怎么说沪江词库精选实时响应英文怎么写、英语单词怎么写、例句等信息 real-time response 相似短语 The realn.现实 be realbe real 也作 get real, 理智的, 现实的 for real确实,实在地,真的 chattels real物的准动产 Real Madrid皇家马德里 Real IRA正统爱尔兰共和军 https://www.hujiang.com/ciku/384688_-979473653/
8.福建厦门:鼓励储能用户参与需求响应给予补贴4元/kWh!3.用户委托负荷聚合商参与需求响应,应与负荷聚合商签订需求响应可中断负荷业务委托协议,确定参与的设备以及负荷量,明确安全责任,委托协议扫描件上传至厦门市虚拟电厂管理平台。 4.鼓励具备条件的中央空调负荷资源(不涉及民生及安全)接入厦门市虚拟电厂管理平台,参与实时响应。 https://news.bjx.com.cn/html/20230419/1301762.shtml
9.实时调度任务调度策略是实时系统内核的关键部分,如何进行任务调度,使得各个任务能在其期限之内得以完成是实时操作系统的一个重要的研究领域。它的精简和高效,对提高低处理能力,小内存系统整体性能具有重大的意义。简介 POSIX 1003.b中定义:指系统能够在限定的响应时间内提供所需水平的服务。而一个由Donald Gillies提出的更加https://baike.baidu.com/item/%E5%AE%9E%E6%97%B6%E8%B0%83%E5%BA%A6/3344983
10.基于CAN总线系统的时间动态:CAN与CANopen的实时能力与局限性在前文中,我们探讨了具有实时能力的嵌入式通信系统的基本要求——平衡实时响应、安全性和保障。本篇文章将重点介绍CAN与CANopen的实时能力和局限性。 控制器局域网(CAN)协议是各个行业众多应用的基础,每个应用都有其独特的实时需求。CANopen和J1939等著名示例强调了该协议的多种适应性,以满足特定需求。值得注意的是,https://www.elecfans.com/d/2299139.html
11.RTC为基,AI为脑——「AI实时互动」上演音视频交互新能力极客公园在此之上,AI 实时互动公有云方案,整合教育行业模型、预置课程视频片段,结合AI 实时响应能力,打造无时间和数量限制、高品质的小班课,助力新型的教育模式发展。 这款AI 音视频通话端到端解决方案,不仅在上述四类场景中陆续落地,也在更多行业中探索创新。然而,其不仅在场景维度上的适用性很强,在物理空间上的服务质量https://www.geekpark.net/news/340483
12.客服系统的实时性与响应性:迅速回应用户的每一个问题客服系统的实时性与响应性,使得企业能够迅速回应用户的每一个问题。这不仅能够提升用户的满意度,也能够增强用户的信任感和忠诚度。 为了实现这一目标,企业需要从以下几个方面进行努力:首先,企业需要引入先进的技术,如人工智能和大数据,提升客服系统的实时性。其次,企业需要对客服人员进行专业培训,提升他们的业务能力和服https://www.live800.com/news/knowledge/1700620810.html
13.深挖“电力现货+需求响应”,泛能网助力售电公司尽享红利在需求响应的过程中,既要考虑客户的实际用能需求和用能舒适度,又要确保响应执行结果。如果不能实时监测资源的响应情况和用户用能舒适度,并将监测异常和调整方案快速触达用户或调节资源,就很难获得预期收益。 泛能网需求响应一体化云平台支持对负荷聚合商下属资源进行自定义颗粒度的分级监测,用户可实时在平台上看到不https://power.in-en.com/html/power-2408585.shtml
14.厦门虚拟电厂完成实时需求响应实用化技术验证厦门虚拟电厂完成实时需求响应实用化技术验证 作为福建省唯一的新型电力系统示范市,今年以来,国网厦门供电公司立足资源禀赋、产业生态、电网基础和政策机制优势,紧密融入“三大三先”(东南清洁能源大枢纽、高能级配电网大平台、“数字闽电”大生态,实现清洁发展水平领先、安全稳定水平领先、效率效益水平领先)省级高质量发展https://www.cnenergynews.cn/dianwang/2023/10/23/detail_20231023138251.html
15.西门子CPU模块SR40实时响应 先进的技术直至后的细节确保我们的CPU发挥杰出的实时响应率: ? 4个或6个独立的硬件计数器,每个30 kHz,带有CPU 224 XP的2 x 200 kHz,例如:通过增量编码器或者高速记录过程事件的路径监测 ? 4个独立的报警输入,输入滤波时间0.2毫秒至程序起动-大过程安全 http://hkjum261954.51sole.com/companynewsdetail_129244434.htm
16.科技能力持续领跑!菜鸟智慧园区项目供应链计划等多个项目入选通过菜鸟提供的车辆预约调度系统、门禁道闸系统、智能地磅系统、智能安全监控系统、访客管理系统以及智慧地磅、场内物流运营平台等一系列软硬件产品,乖宝宠物聊城工厂成功实现智能化管理升级:系统实现毫秒级处理数据,并可以根据分析实时响应,自动化程度也得到大幅提升。基于前期合作取得的积极成果,目前,乖宝宠物正与菜鸟一起https://www.cainiao.com/4768.html
17.隐私保护西安数据恢复中心24小时实时响应 在遭遇数据灾难时,用户的焦急心情我们十分理解,因此提供24小时实时响应服务。无论您在何时发现自己正面临数据灾难,都可以拨打我们的24小时服务热线与我们取得联系,我们的资深数据恢复工程师将为您提供最及时的专业服务。 24小时急救电话:15129012019http://www.xadrc.com/class.php?id=71
18.SORA微软基于PC的软件无线电平台软件无线电技术为了确保CPU可以实时响应,Sora采用了独占线程技术,可以让某个或者某几个内核专用于SDR的任务,不被其他系统调用影响。 实现这种技术不需要修改操作系统的内核。 Sora的性能测试 以WiFi 802.11a/b/g的实现为案例,测试Sora的性能。算法优化前后对比 Sora与商业网卡吞吐量对比 https://www.mwrf.net/tech/sdr/2012/9105.html
19.响应式架构在实时处理系统中的应用:从消息驱动到背压机制的实现以电商行业的实时推荐系统为例,通过流式处理,系统能够以实时响应用户行为,动态调整推荐内容,提高了用户体验,满足了用户个性化需求。 四、背压机制 为了应对高并发的情况,响应式架构提出了背压机制。背压机制能够在系统压力增大时,通过限制数据的输入,避免系统崩溃或任务堆积,保证系统的稳定性。背压机制通过监控系统各个组件https://www.jianshu.com/p/4e5e8c90acf2
20.全方位解析英特尔响应式零售平台美通社PR通过物联网全面建立实时响应且以顾客为中心的万物智能互联零售的未来 英特尔正在广泛的与零售商合作从而署英特尔?响应式零售平台,包括Avery Dennison*、ByReveal*、霍尼韦尔*、富士通*、JDA*、RetailNext*、SAP*和SATO*。通过这些合作,英特尔将推动零售行业转型以驱动全新的用户零售体验、提供实时洞察,并打造跨物理和数字https://www.prnasia.com/story/168506-1.shtml
21.太友SPC软件如何预防生产中的意外?实时报警快速响应!在当今快节奏的制造环境中,实时监控和及时响应是确保生产流程顺利进行的关键。太友SPC软件以其先进的实时报警功能,帮助企业预防生产中的意外,从而提高生产效率和产品质量。 1、智能实时监控 太友SPC软件的核心模块是产品过程质量的在线监控。系统采用质量电子看板模式,集中监控品质问题,让管理者无论是在公共办公区域还是个https://zhuanlan.zhihu.com/p/697951320
22.数据中台过时了?为什么现在都在说数据飞轮?可以看出,数据飞轮更加灵活、快速,尤其适合当今快速变化的市场环境和实时响应需求。 四、数据飞轮的实际应用案例 为了更好地理解数据飞轮的实际应用,下面我们通过几个真实的业务场景来展示数据飞轮的价值。 1. 亚马逊推荐系统中的数据飞轮 亚马逊的推荐系统是数据飞轮的一个典型应用。在用户浏览、搜索和购买商品的过程中https://blog.51cto.com/wamtar/12023539
23.220kV变电所综合自动化系统设计配置直观方便、可靠的监视和操作手段,快速地反映系统的运行状况,响应和执行操作命令;配置高分辨率彩色图形汉字显示、功能键盘和汉字打印机等设备。 4.5.1 主要显示内容 (1)全所主结线图; (2)按电压等级划分的分结线图(各线路、母线的潮流实时值); (3)按单元划分的单元结线图(设备主要参数和运行工况趋势曲线或棒https://supplier.alibaba.com/article/CTGNI37S9U6.htm