医疗数据较为复杂,以医院来说建设的业务系统接近百来个,例如HIS系统、急诊系统、护理系统、电子病历系统、检验系统、检查系统、输血系统、生殖中心系统、体检系统等,每个业务厂家不同,设计不同,尽管医院都依照不同的主题建立部分分析型数据应用,但还是较为孤立的系统,医院也建立了集成平台,从业务的角度规范业务传输,同时在集成平台基础上了建立了临床数据中心,但都不是从医院整体数据中心管理为出发点,都是从数据应用为出发点。
现大数据技术已逐渐趋于成熟,卫生信息化建设也不断加快,医疗数据类型、标准和规模也日益增长,医疗已全面进入“大数据时代”,怎样结合大数据技术对医院数据进行治理、管理及应用成为关键话题,数据中心管理不局限于某个分析主题、科研主题,而不是手工或是后台数据库呈现方式,而是利用系统将数据标准、数据中心建立、数据采集、数据校验、数据分类、管理及应用智能管理起来。
数据中心管理系统建设
建立数据中心管理,规范数据中心设计,管理采集来源,将医院各业务系统数据有序有量的加载到数据中心库中,为数据类应用服务提供相应基础,该平台利用大数据技术[3]Hadoop中的分布式文件存储(HDFS)系统保存数据以及分布式实时处理框架(Spark)计算平台来实现。
系统架构 数据中心管理系统架构见图1。
基础层:基础层是指与医院数据决策支持平台有数据交互的系统中的数据,主要是HIS、EMR、PACS、LIS等医院业务系统。从业务系统抽取、转换等过程后加载到数据中心;交换层:将kettle封装到该中心管理系统中,将数据采集到数据中心,将整个采集过程及数据校验可视化;数据中心管理层:建立标准化管理,数据中心自由构建,将采集方式、数据模型等进行统一管理,建立智能化数据管理平台,利用分布式存储技术将数据分为不同的数据中心存储hbase数据库中;数据门户:统一数据输出管理,针对前端应用的需求,根据不同的需求类型、需求操作范围、需求的数据范围、需求操作流程进行管理,对数据实现智能检索功能;交互层:可将数据放到不同的媒介进行展现,同时可对接医院公有云或区域公有云等。
数据中心管理组件 建立数据中心管理组件,包括基础资源库、元数据管理组件、值域代码管理组件、数据集管理组件、数据抽取及监控组件、数据检验组件、模型管理组件、指标管理组件等,为数据中心的各种重要功能提供可视化统一管理工具。
基础资源库 包括整个平台从各个业务系统(HIS、EMR、LIS、PACS)中抽取并集成的各类标准数据信息,例如运营数据中心、临床数据中心、科研数据中心,采用NoSQL数据库存储方式。
元数据管理 元数据是数据中心数据管理功能的基本,是提供数据追溯的最基本单位。元数据管理模块需要按照标准去制定,有版本管理,所有的数据中心的建立都依赖于标准的元数据。用于定义字段名、字段内部ID,字段类型等,可内置国家标准、省标准或是建立医院内部标准,用户整个数据中心设计的统一管理,同时为互联互通提供数据标准。
数据集管理 数据集管理主要是管理由元数据组成的不同数据集,例如病人基础信息、病人医嘱、病人收费等,主要应用于国家、省等标准集管理,管理相应的版本、与元数据的关系等。
数据中心管理 可通过数据集或数据元自动建立数据中心表,同时对表中元数据的标准、数据类型、来源、来源表、来源字段和目标、目标表、目标字段等进行管理,方便用户追溯数据的来源及自定义表单。医院可通过数据中心管理查询到医院数据标准化程度,同时为数据模型提供来源。
标准字典管理 值域是标准字典允许值的集合,一个允许值是某个值和该值的含义的组合,值的含义称为值含义。例如,“患者病情状态”数据字典的值域是:①危急,②严重,③一般。其中①、②和③是值,其值含义分别是危急、严重和一般。
标准字典表的基本信息管理包括:类别、元数据类型、值域名称、值域标识符、定义等,用户可建立医院内部标准字典,或是内置国家颁布,在管理过程中建立标准对照功能主要是将医院业务系统与数据中心定义标准进行值的对照,亦可通过该平台发布同步机制,影响业务系统按照规定的字典标准统一更新。
数据采集管理 将kettle的采集过程进行可视化管理,主要目的是为了能了解后台数据抽取逻辑业务状态,如:业务逻辑的执行是否成功、业务逻辑的执行日志信息详情等,本功能可以通过作业名称、关联的分析主题、执行时间、完成时间、执行状态来过滤数据;可以停止/开启执行数据抽取作业;可以手动直接作业,筛选作业抽取的时间;还可以直接进行数据校验功能。
数据校验管理 数据校验主要是对抽取过来的数据进行一致性及准确性的校验。
创建数据校验时维护字段包括:数据校验名称、校验数据库ID、校验语句、源数据库ID、源数据校验语句。
具体功能实现:可以点击校验,筛选校验开始时间、结束时间;可以停止/开启执行数据抽取作业;可以手动直接作业,筛选作业抽取的时间,点击数据校验,还可以跳转到数据校验。
可自动校验、手动校验;自动校验是设定固定时间校验、校验时间段(可配置)、如若校验不一致可自动回退校验期间的数值进行数据重抽功能。
数据模型管理 利用Saliku在数据中心基础上建立多个数据应用模型,同时将其模型管理起来,管理模型的关联关系,模型内部指标集,定义指标来源、出处、规则、含义等,为规划指标统计规则,为规范指标的统计规则及含义,对指标统计进行流程化管理,可在该平台上申请指标定义及统计规则,由专人负责审核,完成整个数据流的管理工作,用户在通过数据模型自由构建报表时可查询该指标列规则、出处、内容,同时可点击校验该指标数据是否抽取完整。
数据检索功能 建立可视化数据检索功能,在数据模型的基础上,根据用户权限分配不同的数据权限,用户可以自由配置筛选条件及所需展现内容。
数据统一管理门户 为提供统一的数据管理门户,用户可在自身的权限范围内,享受平台提供的各项应用功能。
权限设置与用户认证:平台对用户应用访问进行控制,只有包含在受控的用户列表中的用户才能浏览系统应用,系统根据不同的用户权限展示允许范围内的报表信息;用户类型分组:为了控制平台应用服务的访问权限,将系统用户划分为不同的类型,如:管理员、科研人员、管理者等。不同的用户类型享用不同的应用服务,也就是对查询信息拥有不同的访问权限;数据对外管理:当其他系统调用数据中心时,[请确认修改]管理其数据去向、数据权限、数据安全;数据日志管理:对数据访问痕迹,数据日志,数据修改,数据报表建立等进行相应管理;数据应用类系统:将数据相关应用类产品实现统一的单点登录,如科研管理、院长平台、药学管理、医保控费、单病种管理等;首页个性化设定:用户可根据修改系统肤色及、可自由配置首页、组合所关注的特定报表、特定功能菜单。