eSight特点包括全网设备统一管理、可靠性高、管理容量大、轻量化低成本以及开放集成等。
开放式架构,基于RESTfulAPI接口,方便外部系统对接集成。
eSight采用服务化架构,逻辑架构包括开放集成服务、运维分析服务、设备管理服务、基础管理服务、南向设备接入服务。
eSight逻辑架构如图2-1所示。
eSight提供南向接口、北向接口等多种外部接口。
eSight提供的外部接口如图2-2所示。
eSight对外提供的接口描述如下:
介绍eSight的功能特性,包括每个特性的定义、价值、应用场景和功能等。
介绍工作区的定义、价值描述、应用场景、功能介绍和技术原理等内容。
管理员通过工作区创建视图展示网络数据,掌握全网及关键资源告警、性能状态等信息。视图由多种widget组成,在视图中各区域以列表、曲线图、柱状图等方式展现设备状态、全网状态等信息。
管理员通过工作区上的视图展示设备关键数据,方便监控设备状态,及时发现设备的异常状态并支持跳转至对应的性能指标监控页面或者告警页面进行处理,从而保证设备的正常运行。
在日常维护中,运维人员在工作区集中创建场景化运维视图,必要时可以在大屏幕中演示或汇报网络的运行状态。
工作区提供的功能主要包括:首页视图、视图管理。
介绍个人设置的定义、价值、功能等基本信息。
本章节介绍资源分组的定义、价值描述、应用场景、功能介绍以及可获得性等。
分组类型和分组的概念说明如下:
资源分组功能的应用场景主要有两种:用户权限管理和设置告警/事件/告警日志等过滤条件。
用户通过配置不同的分组类型和分组对资源进行分类和分组,实现对资源的统一和高效管理。
介绍链路管理的定义、价值、应用场景、功能、可获得性、技术原理、依赖与限制。
eSight支持的链路及对应发现方式详细说明如下:
链路类型
链路含义
线缆
通过物理线缆直接连接两台设备形成的链路。
二层链路
设备物理端口之间实际物理连接的链路。
IP链路
链路两端接口的IP地址为一对30位子网掩码的链路。
CSP链路
CSP设备与CloudIVS设备之间的特殊虚拟链路。
手动创建
通用链路
不属于上述四种类型的链路统称为通用链路。
链路管理可以对设备间链路进行统一的监控管理、实现对链路的实时监控、且同一站点内设备间链路信息统一可视。
链路管理服务的应用场景包括链路统一监控和链路故障定位。
链路管理支持发现链路、创建链路、管理链路、监控链路和配置链路。
链路接入eSight后,可查看基本信息,执行快速搜索、导出、删除、定位到拓扑等操作。
实时监控链路的状态和信息,包括链路状态、名称、带宽、两端网元名称、网元IP、网元MAC以及两端端口IP、端口管理状态和端口运行状态。
介绍上下电管理的定义、价值描述、应用场景、功能介绍和技术原理等内容。
在日常维护中,对指定设备手动执行上下电,或创建自动任务对设备批量执行周期性的上下电。
上下电管理的功能包括:
介绍服务年限信息管理的定义、价值、应用场景、功能、可获得性、技术原理、依赖与限制。
服务年限信息管理致力于构筑一套eSight及其所管理设备服务年限信息可查询系统,帮助用户了解现网设备及eSight的服务年限信息,以便分析设备及软件老旧情况,及时更新设备或升级软件,减少网络风险,降低人工维护成本。
服务年限信息管理主要用于产品例行巡检或例行维护时对eSight及其所管理设备的服务年限信息进行排查统计。
服务年限信息管理提供查看、导入、导出服务年限信息及设置告警上报等功能。
告警管理的基本信息,包括定义、价值描述、应用场景、功能介绍、可获得性、技术原理等内容。
运维人员通过告警管理对系统自身或管理对象上报的告警或事件进行监控和管理。告警管理提供了丰富的监控和处理规则,还可以将故障通知给运维人员,帮助高效监控、快速定位和处理网络故障,从而保证业务正常运行。
系统自身或管理对象检测到自身存在异常或正常运行时的重要状态变化,将分别以告警或事件显示在告警管理界面中。管理对象指接入告警管理系统的对象或网元。告警和事件的定义等信息如表3-12所示。
名称
含义
区别
共同点
告警
系统自身或管理对象检测到故障而产生的通知。
以通知方式提示用户。
事件
系统自身或管理对象在正常运行状态下产生且需要主动提示用户的通知。
告警级别用来表示故障的严重程度、重要性和紧迫性,帮助运维人员在大量告警中快速识别告警的重要程度,采取相应的处理策略,运维人员也可以根据需要调整告警的级别。
告警的级别说明如表3-13所示。
告警级别
缺省颜色
说明
处理策略
紧急
已经影响业务,需要立即采取纠正措施。
需要紧急处理,否则有业务中断或系统瘫痪的风险。
重要
已经影响业务,如果不及时处理会产生较为严重后果。
需要及时处理,否则会影响重要业务运行。
次要
目前对业务影响轻微,但需要采取纠正措施,以防止更为严重的故障发生。
需要查找告警原因,消除故障隐患。
提示
检测到潜在的或即将发生的影响业务的故障,但是目前对业务还没有影响。
可根据告警了解网络和网元的运行状态,视具体情况进行处理。
告警的状态分类如表3-14所示。
状态名称
告警状态
确认状态
已确认、未确认
清除状态
已清除、未清除
初始清除状态为“未清除”。当修复了引起告警的故障,对应的清除通知自动上报到告警管理系统后,告警状态将变为“已清除”。部分告警修复后,清除通知无法自动上报至告警管理系统,则用户需确认故障修复后手工执行“清除”操作。“已清除”告警的背景色在界面中显示为绿色。
维护状态
正常态、维护态
失效状态
有效告警、无效告警
事件的状态分类如表3-15所示。
事件状态
当前告警和历史告警的说明如表3-16所示。
当前告警
包括:未确认未清除告警、已确认未清除告警、未确认已清除告警。用户可监控当前告警,及时发现故障,并作相应操作,通知给运维人员处理。
历史告警
已确认已清除告警。用户可对历史告警进行分析,优化系统的性能。
用户可以设置告警或事件的某些类型为过滤条件进行查询,以便进行分析、处理。
告警和事件的类型说明如表3-17所示。
通信告警
网元内部、网元之间、网元与管理系统之间、管理系统之间的通信失败而引起的告警。如:设备通信中断告警。
业务质量告警
业务质量退化问题而引起的告警。如:设备拥塞告警。
处理错误告警
软件或处理过程错误而引起的告警。如:版本不匹配告警。
设备告警
物理资源故障而引起的告警。如:单板故障告警。
环境告警
设备所处环境出现问题而引起的告警。如:硬件温度过高而产生的温度告警。
完整性告警
请求的操作不能正常提供。如:非法的修改、增加和删除用户信息。
操作告警
所需服务因不可用、故障或错误调用等问题无法正常运行而引起的告警。如:服务拒绝、服务退出、程序性错误。
物理资源告警
物理资源受到破坏而引起的告警。如:电缆破损、非法闯入机房。
安全告警
安全服务或机制检测到有关安全方面的问题发生。如:鉴权失败、机密泄露、非法访问。
属性值改变
管理对象的属性值发生变化。如:属性增加、减少和改变。
对象创建
管理对象的实例被创建。
对象删除
管理对象的实例被删除。
关系改变
管理对象的关系属性发生变化。
状态改变
管理对象的状态属性发生变化。
路由改变
路由发生变化。
保护倒换
倒换引起的告警或事件。
越限
当性能指标达到阈值时,上报该类告警或事件。
文件传输状态
文件传输成功/失败后上报该类告警或事件。
备份状态
管理对象的备份状态发生变化。
心跳
发送心跳通知。
告警管理致力于适配不断演进的复杂网络的监控和运维,不仅能支撑传统网络的故障监控与处理,还能对新一代网络NFV(NetworkFunctionsVirtualization)、SDN(Software-DefinedNetworking)进行故障监控,提升网络运维效率。
告警管理系统的价值包括:
告警管理全景图描绘不同运维场景下的告警操作任务。用户可以根据实际场景,执行对应的运维任务。
告警管理全景图如图3-67所示。
可配置的告警/事件规则说明请参见表3-18。
功能
描述
配置告警/事件
告警远程通知
个性化监控
监控告警/事件和处理告警的具体方式说明请参见表3-19。
监控和查看告警/事件
在告警管理中,运维人员可以监控和查看告警/事件,以便实时了解系统中的告警/事件状况并采取相应的措施。
处理告警
在告警管理中,运维人员可以对告警进行操作处理,以辅助故障处理。例如确认告警、清除告警等操作。告警处理的主要操作如下:
性能优化和统计
通过对历史告警、被屏蔽告警的分析,和对告警数据的统计,可了解设备的运行情况及检查规则配置的合理性,也可利用统计数据做进一步分析以发现设备运行中的潜在问题。
告警/事件数据管理
维护经验管理
处理告警后,及时将处理经验记录在维护经验库中,以便在后续维护工作中进行参考或对其他人的维护工作提供借鉴和指导。维护经验支持导入或导出。
介绍告警处理机制和告警/事件内部处理流程。
告警管理提供了3种告警处理机制,请参见表3-21。
机制
告警归并规则
为帮助用户提高监控、处理告警的效率,告警管理提供了告警归并规则,即将指定字段(定位信息、告警ID等)全相同的告警归并成一条告警。该规则仅用于在“当前告警”页面监控和查看告警,且仅对当前告警生效。
具体执行方案如下:
告警满处理规则
告警转储规则
为避免告警数据库数据过多,系统每2分钟按以下规则对事件、被屏蔽告警、历史告警数据进行转储处理,被转储的告警/事件在告警/事件列表中无法查询到。
转储后的文件符合以下任一规则,将会被删除。
告警内部处理流程是指告警上报至告警管理后,告警管理对告警的内部处理流程,包括进行屏蔽、级别重定义等操作。
告警内部处理流程如图3-68所示。
告警内部流程说明请参见表3-22。
操作
告警屏蔽
将符合屏蔽规则的告警丢弃(不进入数据库)或记录在被屏蔽告警数据表中,不再进行后续的告警预处理。
告警变更
根据上报的变更告警,更新当前告警信息,例如清除告警、修改级别等。
级别和类型重定义
将符合级别和类型重定义规则的告警进行重定义处理。
远程通知
当符合远程通知规则的告警上报时,发送邮件或短消息通知运维人员。
自动确认
将符合自动确认规则的告警进行自动确认,自动确认后的告警记录在历史告警数据表中。
入数据库
经过以上步骤处理的告警记录到数据库中。告警预处理中被屏蔽告警或转历史的告警将不会进行告警后处理,直接实时通知。
告警归并
将符合归并条件的告警进行归并。
实时通知
实时刷新告警界面中的告警信息。
事件内部处理流程如图3-69所示。
事件内部流程说明请参见表3-23。
事件屏蔽
将符合屏蔽规则的事件丢弃(不进入数据库),不再进行后续的处理。
将符合级别和类型重定义规则的事件进行重定义处理。
当符合远程通知规则的事件上报时,发送邮件或短消息通知运维人员。
将经过以上步骤处理的事件记录到数据库中。
实时刷新事件日志中的事件信息。
介绍报表管理的基本信息,包括定义、价值、常见的应用场景、主要功能等。
报表管理提供端到端的数据分析框架和报表展现平台。管理员可自主选择报表的图表形式、数据维度、度量等,快速生成所需的报表,实现快速灵活自助式数据分析、数据导出。
通过动态展示多图多表、多维度、多度量的业务数据报表,可以实现管理员快速灵活自助式数据分析,帮助管理员聚焦于关键指标的健康状况监控,监控业务KPI(KeyPerformanceIndicator),快速掌握业务整体健康状况,支撑运维决策。
运维人员可使用报表管理有效分析业务数据,监控业务KPI。
业务数据查看分析:
业务数据导出:
介绍报表管理为用户提供的功能。
本章节介绍了安全管理的基本信息,包括安全管理的定义、价值描述、应用场景、功能介绍和技术原理等内容。
安全管理功能支持管理用户的权限、认证方式、会话、用户策略等功能,以保障用户在自己的权限内使用系统和管理对象。
权限定义了“用户在什么对象上可以执行哪些操作”。
权限要素包括执行者、执行对象和操作,如图3-82所示。
用户是使用者在系统中的标识,包括用户名、密码和权限等属性。
角色是操作权限和管理对象的集合。
属于同一个角色的用户拥有相同的管理对象和操作权限。属于多个角色的用户拥有这些角色所包含的管理对象和操作权限。
系统提供的缺省角色如表3-25所示。缺省角色不可删除,并且其权限由系统提供,不可修改。
角色名称
Administrators
拥有除“用户管理”、“查询安全日志”和“查看在线用户”之外的所有权限。
安全管理员组
拥有“用户管理”、“License管理”、“查看在线用户”、“查询安全日志”和“更新ACL策略”的权限。
北向用户组
北向接口用户专用,拥有所有北向接口的操作权限和界面配置权限。建议将该角色分配给可以管理所有管理对象的用户。
文件系统组
拥有HOFS(HighAvailableObjectFileStorageService)的RESTful接口访问权限,建议将角色分配给需要访问HOFS的RESTful接口的用户。
操作权限是指用户可以执行某项具体操作的权限。安全管理员将操作权限分配给角色后,所属该角色的全部用户可以执行相应操作。
操作集是多个操作权限的集合。安全管理员将操作集赋予角色,所属该角色的全部用户即拥有了操作集的所有操作权限。