当前心血管疾病大数据研究的挑战

本文探讨了心血管疾病大数据研究面临的挑战,包括确定合适的数据源、建立病人表现型等问题,并介绍了中医临床大数据在心血管疾病研究中的应用前景。

当前心血管疾病大数据研究的挑战


在我国目前的就医模式下,患者就诊数据包括患者基本信息、就诊信息、检验及影像检查报告、医学影像图像文件、住院相关病历等临床数据 。就上海市而言,医联数据中心总数据 规模已经超过150TB。初步统计显示,平均每日门诊就诊人次为180927,其中心血管患者占5.06%;平均每日新入院患者为4586,其中心血管患者占1.96%。但目前不管是区域卫生信息平台还是医院平台,都未曾对这些临床大数据进行针对 重大疾病的有效挖掘与临床应用,同时也缺乏中医临床数据(中医处方、诊断、治疗方法、病案 记录等) 。

英文:

(Denaxas S C, Morley K I,2015)系统化的给出了当前心血管疾病大数据研究的挑战,文中提出(1)如何根据研究问题确定合适的数据源(包括病人的信息,数据的类型以及格式)是非常重要但却有非常困难的。但是多源数据的融合对于基于EHR心血管疾病的研究非常重要,例如,(Herrett et al,2013)指出如何对于心肌梗塞可以四个方面的数据源给出全面的涵盖(临床实践数据库 (Clinical Practice Research Datalink; CPRD), 入院纪录(Hospital Episode Statistics; HES),国家心肌梗塞登记库 (Myocardial Ischaemia National Audit Project),和国家死亡登记表(Office of National Statistics; ONS)。其指出没有任何一个数据库可以涵盖所有的心肌梗塞类型,基于单一的数据源会导致结果估计低估了25%-50%。(2)一旦数据源确定,如何建立病人的表现型便是另外一个挑战性的问题。这个挑战一方面在于不同数据源的融合困难,例如英国,临床实践数据库(CPRD)使用的是SNOMED-CT医学本体,而入院纪录,和国家死亡登记表却使用的是ICD-10本体。另外一方面的挑战来于不存在一个统一化,标准化的方法去针对自身的数据确定病人的表现型,例如Mohebbi M, Ghassemian H 给出了一个基于ECG信号,SVM,LDA去检测心房颤动。Ritchie M D, Denny J C, Crawford D C, et al.基于心电图和临床纪录,采取自然语言技术,给出了心房颤动的表现型算法。


中文:

(高炬, 刘珉, 殷亦超;2014)从三个方面论述了面向心血管及肿瘤疾病的中医临床大数据的应用与挑战。第一是如何通过大数据平台建立临床知识库,通过对结构化及非结构化数据的处理,将自 然语言转变为计算机容易识别和理解的结构化知 识,形成两类疾病的病例库。在此基础上,构建中西医结合的两类疾病诊疗方案库。中医方面重点分析“理法方药与症候”、“症状—证型”、 “证型—方药”之间以及中药配伍之间的关联关 系,进行中医药在心血管疾病及肿瘤疾病治疗方面的疗效评价研究,辅助临床发现心血管疾病和肿瘤疾病诊治的规律 。第二是如何通过大数据验证中医药评价体系。临床实践证明,中医药在心血管和肿瘤疾病 治疗过程使用率非常高,但临床疗效评价缺少以死亡率或再入院率为终点的多中心、随机、安慰剂对照研究,另外中医的症状、体征、舌象、脉象等都是运用模糊性语言来表达,很难规范。 第三是如何基于大数据平台,研究分析心血管疾病及肿瘤疾病的发病及治疗总体情况,包括风险调查与数据评估、治疗与用药安全性监测、预后评估模型、 卫生经济学评估等,用于辅助管理决策。 







Denaxas S C, Morley K I. Big biomedical data and cardiovascular disease research: opportunities and challenges[J]. European Heart Journal-Quality of Care and Clinical Outcomes, 2015: qcv005.


Herrett E, Shah A, Boggon R, Denaxas S, Smeeth L, van Staa T, Timmis A, Hemingway H. Completeness and diagnostic validity of recording acute myocardial infarction events in primary care, hospital care, disease registry, and national mortality records: cohort study. BMJ 2013;346:f2350. 

Mohebbi M, Ghassemian H. Detection of atrial fibrillation episodes using SVM[C]//2008 30th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE, 2008: 177-180.

Ritchie M D, Denny J C, Crawford D C, et al. Robust replication of genotype-phenotype associations across multiple diseases in an electronic medical record[J]. The American Journal of Human Genetics, 2010, 86(4): 560-572.



高炬, 刘珉, 殷亦超, 等. 面向心血管及肿瘤疾病的中医临床大数据挖掘与分析[J]. 中国信息界: e 医疗, 2014 (6): 52-53.

转自CCF:https://dl.ccf.org.cn/lecture/lectureDetail?id=4663480272078848。 张勇,剑桥大学博士后。 摘要:健康医疗大数据是健康医疗活动的产物,同时也是进行健康医疗业务优化和辅助决策的基础。健康医疗大数据分散在多个主体管理的多个系统中,所以在应用健康医疗大数据的时候往往需要先进行数据釉合。然而由于生成数据的系统所采用的标准或规范不同,不同来源的数据之间经常存在数据不一致的情况,同时由于应用水平等问题,数据的质量也存在较大问题。数据不一 致和数据质量等问题大大阻碍了数据融合的效率和效果。知识图谱作为作为一种灵活的数据模型,通过一张图来集成所有相关的数据,同时利用对齐等技术来解决数据中存在的问题。本报告将从健康医疗大数据融合的数据模型、过程、工具和应用的角度来介绍如何应用知识图谱来进行健康医疗大数据融合。我们把健康医疗知识图谱分为概念图谱和实例图谱,定义了各 自的数据模型,然后分别介绍了各自的建立过程,以及两者之间如何建立关联。我们提出了“ 医在回路 ”的概念,对医生在构建健康领域知识图谱中的角色和职责进行了定义。基于这些数据模型,我们研发了健康知识图谱构建工具 HKGB 。该工具是一个易于扩展的、跨语言的、智能的知识图谱构建平台。基于该平台,我们构建了面向心血管疾病的知识图谱。最后本报告介绍了健康医疗知识图谱的应用情况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值