医疗大数据分析应用平台产品的总体思路

2016-07-01 09:15:13 his医联体行心医养结合 阅读

总体思路

通过建立医疗卫生大数据的统一标准和规范,形成可被相关业务应用所利用的医疗卫生大数据源和交互机制,在此基础上,首先形成专题大数据应用,这些应用具有跨部门和组织机构的通用性,并具有良好的稳定性,因为这些应用是面向医疗卫生专题的;基于专题大数据应用,根据医疗卫生相关部门和组织机构的业务要求,可开发形成各种业务大数据应用,并且随着平台的推广,积累的医疗卫生业务大数据应用的实例将会越来越多,并最终形成不同方向的最佳应用样例。

2.png

1,对接数据源,获取医疗卫生大数据

医疗卫生大数据中心为本平台进行医疗卫生大数据分析提供数据源,但不在本平台范围内,并平台只是开发提供一套与该数据中心的数据读取接口,并具有监控数据读取情况汇总统计和异常提示功能。

该数据中心的定位:整合区域内不同医疗机构中患者/健康人群的各种临床诊疗数据、健康数据,在相对集中的逻辑/物理环境中,构建一个以存储和处理患者/健康人群诊疗信息为核心,覆盖多学科、多专业的面向区域内主要卫生行政主管部门、临床医疗机构和社会公众的医学(医药、医疗、健康)信息资源共享机制----区域性医学数据中心。区域性医学数据中心的建设以行政业务处理、医疗、预防、保健、康复为服务主线,以健康人群和患者的医疗活动需求为基础。区域卫生数据中心通过制定标准的数据接口,建立基于广域网的信息交换、数据采集和传输机制,对区域内医疗卫生信息数据进行采集、传输、清洗和汇总,将医院、社区、医药企业以及公共卫生机构的各类数据、系统有机地整合起来,生成区域的卫生大数据。

2,对获取的医疗卫生大数据预处理机制

医疗卫生大数据预处理主要完成对已接收数据的辨析、抽取、清洗等操作,目的是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具 (ETL) 包括:抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的;清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项。 因此要对数据通过过滤“去噪”从而提取出有效数据。

3,建立医疗卫生大数据的存储机制

虽然关系型数据库系统(RDBMS)在安装和使用上仍然占有主要地位,但毋庸置疑,非关系型数据库NoSQL技术已经成为今天发展最快的数据库技术。NoSQL是对数据库系统的总称,在某种程度上,它的性能和用途可能完全不同。

目前除了关系型数据库外,还主要存在有以下四种NoSQL数据管理系统:

键值数据库:当数据以键的形式访问时,比如通过国际标准书号ISBN找一本书,键值数据库是最理想的。在这里,ISBN是键,书籍的其他信息就是值。必须知道键才能查询,不过值是一堆无意义的数据,读取之后必须经过翻译。

文档数据库:该数据库以文档的形式管理和存储数据。有点类似于键值数据库,但文档数据库中的数据有结构。与键值数据库中值是一堆无意义的数据不同,文档数据库中数据以文档的结构被描述,典型的是JavaScript Object Notation (JSON)XML。文档存储数据库中的数据可以通过定义的任何模式进行查询,但键值数据库只能通过它的键进行查询。

列式数据库:也被称为列式存储或宽列存储,一改之前行式存储的方式,对数据进行列式存储。在传统关系型数据库中,数据经常以行来访问。以列式管理记录的NoSQL数据库可以管理大规模的动态列。因为没有固定的模式,所以列名和键可以变换。列式数据库适用于不经常写的情况,要满足ACID(原子性、一致性、隔离性和持久性)的要求并不难,而且模式是变化的。

图型数据库:图型数据库关注值与值之间的关系,用图型的数学概念存储数据。图型数据库用带有点、边缘和属性的图的结构表示和存储数据。在图型数据库中,每一个元素都包含一个直接的指向它毗邻元素的点,所以也就不需要索引查找。

每个种类的NoSQL数据库都有适用的不同类型的应用程序和用例,这就涉及到一个NoSQL社区常用的一个话题,即多样持久性,或者说根据数据库处理应用程序需求的不同,使用不同的数据库系统,用于不同的应用程序和用例。

4,医疗卫生大数据的处理和分析算法分类和形成

l  技术分类方法

ü   根据挖掘任务:分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;

ü   根据挖掘对象:可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web

ü   根据挖掘方法:可分为:机器学习方法、统计方法、神经网络方法和数据库方法。

l  主要处理和分析技术

ü   预言处理:用历史预测未来;

ü   挖掘规律处理:了解数据中潜在的规律;

ü   关联分析:查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构;

ü   序列模式处理:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值;

ü   分类(预言)分析:预测分类标号(或离散值),根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据。建立连续函数值模型,比如预测空缺值;

ü   聚类分析:聚类是一种无监督分类法: 没有预先指定的类别。在同一个类中,对象之间具有相似性;不同类的对象之间是相异度分析;把一个给定的数据对象集合分成不同的簇。将物理或抽象对象的集合分组成为由类似的对象组成的多个类;聚类在不同的应用领域,用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中;聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性;聚类与分类不同,聚类所要求划分的类是未知的;

ü   异常检测分析:异常检测是数据挖掘中一个重要方面,用来发现”小的模式”(相对于聚类),即数据集中间显著不同于其它数据的对象;

ü   可视化分析。数据可视化可以让数据自己说话,让用户直观的感受到结果;

ü   数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的量,同时还具有很高的处理速度;

ü   语义引擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等;

ü   数据质量和数据管理。透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

5,开发专题大数据分析,形成专题大数据应用

面向医疗卫生专业所特有的专题,开发形成一系列的专题大数据应用。在充分调研和分析医疗卫生行业的业务特性基础上,研发形成具有我国医疗卫生行业特征的分类专题大数据分析,并根据专题组成和业务功能要求形成满足该业务专题的大数据应用,如心脏病专题的大数据应用,包括其成因的大数据分析、其日常行为对病情影响的大数据分析等,为有关机构进行心脏病的有关活动(预测、预防、治疗、恢复)提供支撑。

6,开发机构大数据分析,建立机构大数据应用

面向不同的医疗卫生机构和部门及其相关企业机构,开发形成针对不同机构和部门业务的机构大数据应用,如医疗卫生机构应用、医疗卫生管理机构应用等。在上述专题大数据应用基础上,结合所承担的相关医疗卫生及其相关机构项目,进行机构大数据应用定制开发。

7,建立平台应用实施推广组织机制

在本平台开发和部署基础上,逐步形成基于本平台开发应用项目的实施推广组织机制,包括市场宣传、营销推广、实施维护和售后服务等。

8,建立平台产品优化升级服务组织机制

本平台作为公司的主打产品系列,要建立严格的版本控制,并根据市场反馈和内部技术发展,进行有计划的平台版本升级,并将新版本升级信息和文档,按规定要求通知已有用户,并及时进行产品升级,并提供维护服务。


标签:  医院信息化 医院信息化系统 医院信息化平台 HIS HIS系统 医院HIS系统 健康数据