网络流量分析及业务性能管理平台在医院中的应用

1   前言

随着医院信息化建设的深入,网络规模越来越大,网络上的应用也越来越多,对全网络流量进行实时和回溯分析,及时发现和解决网络上出现的各种问题和隐患,分析各业务系统性能,有针对性地及时优化业务系统,对保障医院信息系统安全有重要意义。

传统的IDS/IPS,通过不断完善特征库,对常规网络流量中的恶意数据包进行检测,阻止入侵活动,对攻击性的流量进行自动拦截,提供一种主动的、实时的防护。它的特性决定了它的不足,一方面它不能对用户需要的数据包进行事后的详细回溯分析,另一方面对于未在特征库里定义或其他的正常数据包等则不能提供有效的分析。

网络流量分析系统,通过探针设备来收集和存储指定链路的全部流量数据,对关键业务系统、链路进行7×24小时、全方位的流量监控,智能学习关键性能指标的基线值,当业务或网络相关性能达到阈值时,进行主动预警,并可以实时/事后对需要的原始包进行下载和分析解码,快速定位问题原因。

2   流量监控部署设计及架构

为了保证网络安全,我院网络采用内外网物理隔离的方式,分别建有内、外两套网络,内外网之间通过部署网闸设备来保证必要应用的内外网数据交互和安全性。此次采用旁路式部署了内外网各一台探针设备。内网部分:分别将内网核心交换机、服务器区核心交换机和网闸内网端口流量做镜像给内网探针;外网部分:分别将外网核心交换机和网闸外网端口流量做镜像给外网探针。同时配置服务器一台,安装流量分析专家软件,以便进行实时/回溯分析数据包。图1是我院目前的网络流量分析及业务性能管理平台部署架构图。

图1  网络流量分析及业务性能管理平台架构图

3   网络流量的可视化管理

3.1 增强网络管控能力—网络运行异常的发现 网络运行的异常包括带宽利用率、数据包数等的异常。以带宽利用率波形图和前10位应用占比为例,每天的波形图有固定的波峰波谷,一周的波形上应该以固定周期重复出现,如图2一周链路使用波形图。

图2链路使用波形图

内网核心的带宽利用率峰值在65%,上午峰值基本在每天9、10、11时之间,下午峰值基本在15时左右,周一到周五明显比周六、周日的利用率要高。但仔细观察,发现明显的每天凌晨会有一个小的波峰,经确认,发现是LIS数据库的每天备份任务。总体来说一周波形固定,没有异常的突发流量。

如图3问题波形图所示,4月26日下午16点至22点,有明显的流量突发,1000M的带宽,利用率几乎达到100%。

图3问题波形图

查看下午16时至22时的应用协议占比,如图4 问题时间段应用占比 所示,73.91%的协议是SMB(文件共享),源地址:192.168.100.1,目的地址:192.168.100.2,这是2台HIS的测试服务器,查看部门工作日志得知正在拷贝数据库备份文件,搭建测试环境。

图4问题时间段应用占比

2   预测及保障—用户/设备行为异常的发现 异常的网络行为也都有明显的流量特征,如感染的蠕虫病毒、安装了后门程序等,流量分析能及时发现这些异常的网络行为,及时发现网络用户的异常网络行为是避免其影响网络运行的关键。

以我院2台门诊电脑为例,通过前10位通信对列表发现,2台电脑之间一周流量达到了252 GB,通过对该IP进行分析,访问192.168.100.3的地址主要就是 192.168.100.4,其他地址访问该Server端的流量都很小。通过对每天的各小时的会话指标进行分析,发现客户端很稳定的在每小时发起 3,479,000次请求。

打开一次IP会话数据,并进入协议层分析,发现每次文件的传递都是以下路径的文件:

W32X86\3\E_TVIFJ4E.VIF、W32X86\3\E_TBA7J4E.DLL 、W32X86\3\E_TBEWJ4E.DLL、W32X86\3\E_TURJ4E.DLL、W32X86\3\E_TBIDJ4E.LMD

而且都是进程PID 1624在传输文件,在客户端上查询该进程为打印机进程spoolsv.exe,而该2台电脑均未安装打印机,怀疑2台电脑感染了名称为Backdoor.Ciadoor.B的木马病毒,此病毒就是伪装成spoolsv.exe进程。之后桌面工程师重装了问题电脑的系统,此异常流量未再出现。

4   应用服务的可视化管理

应用异常主要包括:返回错误代码、连接数量、web应用服务器响应、应用流量的异常等。

4.1 应用错误代码HTTP500的处理 以我院呼叫中心WEB服务器为例,持续出现的HTTP 500 Internal Server Error的错误,比较稳定的每5分钟达近200次,通过分析过去一周的包数据,发现返回HTTP500的都是客户端访问 http://192.168.200.1:8080/qyNew/doHeartbeat.action 这个URL。与开发人员沟通,确定是心跳检测功能有问题,修正后,问题消失。

4.2 应用异常导致单边账问题的处理 我院设有自助机,患者/家属使用医保卡进行缴费,在医保局对卡扣费成功后,自助机却显示扣费失败,导致月底与医保局进行对账时,每月总是会有数笔账目不一致,也就是所谓的单边账。因为这涉及多台设备和我院局域网和医保专线两套网络,这个问题之前也一直困扰我们很久,始终找不到问题所在。使用网络流量分析与业务性能管理平台后,我们发现医保前置机服务器有很多的server reset操作,且都集中在黄岛院区。对不同时间段的多条问题交易记录的数据包进行了详细的分析。

从TCP三次握手成功开始计时,总延迟超过5秒,服务器就会主动发起reset操作,当用户在自助机上进行缴费操作时,两者之间一旦延迟超过5秒,服务器发起reset操作,将导致数据不能从服务器成功返回到自助机,从而用户看到的是缴费失败,服务器因通讯超时记录缴费失败,而医保局则正常扣款成功。当用户做扣费之外的操作时,服务器的reset操作只导致了操作失败或超时,因错误数量少、影响小,且没有人反馈等,此情况一直未被发现。我们仔细检查链路后发现和黄岛院区联网所租用的三条千兆链路中的一条只有百兆速度,报修运营商后修复,未再出现单边账问题,应用检测中的server rest也大幅减少。

5   结论与展望

随着互联网的迅速发展,网络的规模、应用、结构也越来越复杂,及时了解网络资源的负载情况、应用使用的趋势状况变得越来越重要。我们按地址段对各院区、楼宇之间的链路进行定义,并进行7×24小时的实时监控分析,可随时查看链路中的应用构成、比对分析链路的趋势。应用监控方面,梳理了各业务系统的访问关系逻辑,可以对应用进行可用性、网络传输性能、应用响应性能、访问负载、用户访问感知等维度进行深度的指标分析,做到了端到端的可视化监控与分析。传统IPS&IDS搭配网络流量分析系统,前者保障网络基本安全,后者协助优化IT服务,下一步,我们会凭借这一优势,挖掘医疗资源潜力,进一步提升IT服务品质。

文章转载自公众号 中国数字医学,作者 曲强 等

发表评论