在经历了十几年的HIS建设后,北医三院基础设施和应用系统已经建成一定规模,临床信息系统陆续建设了包括门诊和住院医生工作站、检验系统、护理系统、手术麻醉、影像系统等等,以电子病历为核心的临床数据积累达到了一定数量级。面对临床的数据利用呼声,数据挖掘及大数据利用研究相继展开。
北医三院信息管理中心做了初步探索。探索以临床运营指标、临床质量监控及临床科研分析为主要研究方向的临床智能应用,以患者为中心,以时间为轴线,建立临床事件数据模型,基于事件连续性建立数据集,数据展现围绕临床事件展开。在日前召开的北京卫生信息化大讲堂系列培训上,北医三院信息管理中心主任计虹结合医院自身尝试性建设探索向与会人员做了相关信息的分享。
遭遇多源异构数据,医院如何破解?
2009年是转折之年,新医改启动,大数据应用爆发。当快速增长的多元化医院数据遇到了大数据技术,医疗大数据应用快速受到医疗机构的欢迎。大医院基本上都有上百个系统在线运行,这些系统可能来自几十个厂商,由于缺乏信息表达、交换、处理方面的统一标准,医院数据体量庞大,类型复杂,传输速度快且价值大,完全符合大数据的特征。所以,大数据技术同样适用于医院数据应用,为挖掘医院数据价值提供可能。
从医院角度来看,临床业务对于医疗质量控制、科研分析研究以及信息的共享利用需求更加迫切。当这些来自一线业务的迫切需求被摆在信息中心面前,于是,医疗大数据应用探索起航。
传统的生产业务或者单个系统数据可以采用单一的数据分析集进行数据处理,大数据的分析需要四步来实现:第一步,集合多个数据集;第二步,解决不同类型的数据的融合和关联;第三步,按照一定标准进行统一的存储;第四步,将数据进行综合的关联分析之后以不同的主题来展现。
北医三院的基本情况
目前,北医三院日均门诊16000人次,医院现有床位1740张,住院周转率很快,人均住院6.37天,住院入出转是近8万一年,年手术量近5万台。近几年,日均住院率指标呈现逐年递减的态势。
医院的信息化规模,医院网络覆盖和机房建设规模庞大,具备集团化的规模优势。医院本部加上四个分支机构共有服务器近140台,其中包括部分虚拟服务器。业务网和办公网的终端设备有近4000台,移动终端包括推车150台,PDA 300多台,此外还包括丰富的软件资源,分为HIS、CIS、OA三大应用程序共计104个。
医院建立了容灾备份数据中心,主干光纤万兆,支持虚拟交换的网络核心平台,拥有统一的数据存储平台和集群的保护,此外还做了虚拟化服务器和存储。医院系统不能停,即便是花5分钟做数据维护,前端业务也会受到很大影响,所以医院不间断的业务连续性保证是非常重要的。机房采用异地灾备,灾备机房在不同的楼宇,基于高可用的灾备集群的网络架构。保证医院7×24小时的不间断业务运行。
临床业务数据平台建设
北医三院是2008年开始就建成了电子病历系统,到今天我院电子病历已经用了六年,这六年中我们积累了大量的临床业务数据,临床对于数据应用的呼声也非常高,那么,怎样才能把这些数据利用起来呢?“相信每个医院都面临着这个问题,我们也做了一些尝试性的探索,也想跟大家分享。”计虹说,“医院数据利用系统的建设有三大目标,分别是:加强日常的管理、追踪指标的监测、还有持续的医疗质量改进。”
医院临床业务数据平台建设的基本思路是建立基于HL7的临床事件模型,消除中间件技术,最终建立一个完善的架构体系。在这个体系中,底层就是各个应用系统,中间是统一的适配器做数据整合,集中存储,顶层是临床智能分析系统CI,对医疗质量、运行指标进行分析,最终实现服务临床和管理业务的目标。
临床数据大体分为结构化数据和非结构化数据。数据利用平台建设分为:数据整合、数据存储、数据分析、数据展现四个步骤。
1 数据整合
医院的数据是来自在线库、历史库;本院库、分院库等的异构数据,这些数据来自HIS、LIS、EMR、NIS、PACS等不同厂商,在信息表达、交换、处理上缺乏统一标准。临床数据又具有数据量大,类型复杂,传输速度快,价值大的大数据特征。利用大数据技术实现临床数据的利用是将以往单一数据集,分析聚合成多个数据集,解决不同类型数据的融合与关联。将结果按照一定的标准统一存储,并做综合关联性分析,以不同主题展现。通过对多源异构数据进行整合,将数据标准化,建立临床数据中心、可监测的分析指标体系以及追诉体系,实现对多源异构数据的有效管理。同时建立以患者为中心,以时间为逻辑关系,基于事件的连续性的数据集,实现异构系统和异构数据的对接。
计虹强调,“在建设临床业务数据平台的过程中我们发现标准化的问题在医院确实令人头疼,缺乏标准会极大降低数据的利用率。标准化越早做,你的数据有效利用越有价值。”
2 数据存储
基于MongoDB与Hadoop分布式大数据技术实现分布式的数据存储,为复杂的临床数据分析构建了多个分布式数据计算节点,它更适用于临床数据多维表达。通过在应用中对比实体机和虚拟机的运算,我们发现实体机堆叠式的运算方式更适合大数据的运算,要比虚拟化服务器性能高。当然,虚拟化对于前台应用的安全性的确大大提高,但是就大数据这种分布式运算来说,用实体机堆叠式方式来说更好。
3 数据分析
数据分析包括逻辑配置、分析引擎、数据封装三个步骤。
第一步:逻辑配置。逻辑配置需要依据个案指标、群组指标、分析断面、群组数排除等四大类进行配置。
第二步:分析引擎。分析引擎需要对关键临床事件进行鉴定,激活对于临床个案、病历的分析引擎来计算分析形成结果并进行数据展现,再基于临床数据中心形成的临床病历资源的子集建立灵活的临床或科研分析断面,最后将结果数据封装传递到前端。
第三步:数据封装。按照对应的临床事件进行封装,将多源数据归集,建立数据统一的适配器来完成临床数据的标准化。数据增量的方式分别采用了2中方式:大于30天的数据采用批量型适配的配置定时加载,小于30天的数据做在线库的增量适配器定时增量采集,减少对在线库的压力。
4 数据展现
临床数据模型是整个数据中心的基础,数据展现正是围绕临床事件展开的。我们建立了包括门诊、急诊、处方、结算、入院等等64个临床事件,以急诊的临床事件的为例:一个患者来了,他要就诊、办手续、诊断、医嘱、转科等等,要对这些事件进行整合。将数据按时间轴展开,最终为用户提供运营监测、医疗质量、科研分析、重点人群等多维度展现。
基于临床业务数据平台,我们建立了全院级的应用以提高医疗质控的能力和效率,实现对运行指标的监测;建立医疗多中心,让系统去考虑需要多科会诊的问题;建立科室级的应用为科研提供支撑。
总的来说,基于业务驱动的医院数据利用包含了数据整合、分析、利用等多个方面,最终为全院的绩效考核、质量安全、学科建设、临床诊疗还有患者管理等方面服务。
影像数据平台建设探索
影像数据更多的是非结构化数据,包括:CT、核磁、超声、内镜、核医学影像等,但它更符合大数据特征。增长量快,存储量大,例如:北医三院PACS数据年增长量是15TB。跨科室、跨院的影像文档如何实现统一管理?当老的系统不能支持新的业务时就要更新换代,海量数据的迁移也需要对这些影像数据进行整合,怎么办?这些影像数据需要统一管理平台,集中展现形式,更方便的让医生调用。计虹介绍说:“我们搭建了一个影像数据的集中管理平台,集成了PACS、RIS、超声、内镜、病案、核医学等等,实现了影像文档的采集和集中管理。该系统基于时间轴管理,所有记录按历史先后顺序展现,再分类排列,这种模式的确大大方便了临床医生的使用。同时数据应用平台也能支持科研需求,可以使用关键词进行全文的检索、类似病历的聚合等功能。未来,我们还将对协同诊疗、跨院区、区域化的影像互认等领域进行探索。”
总结问题
“医院的数据利用一定要以临床业务来推动数据的应用水平。”结合数据应用平台建设的经验,计虹强调系统好坏不仅是技术,因为数据利用不同于前端应用系统,它与临床的专业化程度息息相关,数据利用的好坏绝大部分取决于临床管理部门的需求是否明确和细化。如果使用人员描述不清,指标定义不明确,信息技术人员就无法配合实现,大大影响了数据利用的价值。所以,管理与临床部门有这个意识是好事,但医院数据利用平台建设的成功需要管理人员与临床学科密切配合、科研人员的深化研究,才能将医院数据挖掘与利用真正落地,而不一纸空谈。