疫情数据的产生、应用到可视化,我们发现了数据应用的完整链路

楼主
谁教会我BI分析谁就是我一辈子的朋友

本文作者:帆软数据应用研究院 郑伟

1、疫情数据的产生、用途、可视化
1.1 发现历程
最近很火的影视作品如《流感》、《传染病》、《血疫》都拍出了传染病被发现的过程,在电影里人们好像总是后知后觉,不过在现实生活中,我们其实也一样没有上帝视角。

12月8日,武汉官方通报的首例不明原因肺炎患者发病。尽管获取到了患者标本,但一种新病毒的检测时间是以月计的,所以那时所有人都没有意识到这代表了什么。

传染病只有在出现传染的迹象并显现出严重症状之后,才会获得医生、研究人员的关注,并需要医者和研究人员具备敏锐的头脑、果决的判断。

12月26日,一条数据在电子病历系统中存储下来,而记录的医生惊讶地发现,当天上午居然已经有另外三条类似的数据,都包含了发热、咳嗽、华南海鲜市场三个相同的关键字,她感觉出了异常。第二天,她向副院长、院感、医务汇报,院方果断把数据上报了江汉区疾控中心。又过了两天,到12月29日下午,类似的数据增长到了7条,这位医生再次向医院报告,医院立刻召开多部门会诊,会诊之后,副院长决定,直接到省、市卫健委的疾控处报告。这家医院是湖北省中西医结合医院,最早上报疫情的医生是呼吸与重症医学科主任张继先。

1.2 数据来源
1.2.1 医疗数据
在央视采访中,张继先医生说:“我们医生写病历,有病历系统,填出来的时候就发现了,这些人的共同点都是在华南海鲜待过。”张医生提到的电子病历是患者所有健康相关的完整数据档案。不仅仅指病程记录,还包含相关的检验、检查项目及结果,处方记录,手术记录,护理记录等。这意味着医院在诊疗病人的同时,会获取更加完整的数据。

目前,电子病历系统(EMR)是国家推动的医院信息化升级中的一个核心系统。在2018年到2019年,国务院和国家卫健委总共有9条政策详细提到了国家对于电子病历的硬性要求。医院也普遍响应号召,2019年,全国总计有7000多家医院申报了国家的电子病历评级。正是因为有了升级,系统对数据的采集更加完善,才有更快发现传染的可能。如果没有这样的数据,我们发现疫情可能会更晚,影响会更大。

此外,除了电子病历系统,医院的HIS、LIS、PACS系统也是这次疫情的重要数据来源。

1.2.2 医疗之外的大数据
在发现传染病之后,就面临了传染病的防控策略。

国际社会风险治理的经验总结,应对不确定性的社会风险强度和程序上主要有两种原则:防范原则(preventive principle)和预防原则(precautionary principle)。
防范原则强调的是政府和社会与对于风险治理的行为必须以科学为依据,在科学上有充分证据证明因果关系之后才能采取行动,即:宁可漏,不可错。

不过随着人类面临越来越多的风险,且短期内无法在科学上确定因果关系,预防原则应运而生。在特定时期基于一些相关性的证据就可以采取行动,即:宁可错,不可漏。
这次,我们国家为了保证人民的生命安全,在后来的行动中基本采取了预防原则。

预防方法:
①控制传染源,对于传染源来说有隔离(对患者和疑似患者分开隔离)和消毒两个措施;
②切断传播途径,对疫源地进行消毒;
③保护易感人群,包括主动免疫和被动免疫。

第一步,就是控制传染源,但在十四亿人口、交通高度发达的国家,要找到传染源,我们需要大量的数据支撑。

所以,在这场抗疫战争中,我们见到了各式各样的数据:公共交通数据(飞机、高铁、火车、客车、出租)、三大运营商数据、社区采集和个人举报数据(个人体温、个人路径轨迹、个人密切接触者、集会活动)、社交数据(微博、微信、微信运动、QQ)、互联网数据(搜索、在线问诊)、其他数据……

1.3 数据用途与可视化
将医疗小数据与各式各样的大数据结合,就能够创造出不少实用的抗疫数据应用:同行航班查询、同行车次查询、周边社区确诊查询、疫情全国分布等等,相信多数人已经使用过了,这里便不多讲。

多数应用的推广都离不开数据的可视化,除了常规的柱状图、折线图、饼图之外,这次最让人关注的始终都是疫情地图。

来自丁香医生公众号18号的截图

有个有趣的事实,最早的数据可视化就是在1854年由John Snow医生制作的霍乱死亡病例地图。通过地图,snow医生获得了重要的认知,霍乱传染与水源有关。
除此之外,相关的病例数据还会进入到科研中,医生、科研人员将对患者的病历数据进行分析,发表研究性论文,得出对于疾病的准确认知。例如20年2月11日,国家疾控等机构在MedRxiv上合作发表的最新一篇论文,对8866例患者进行详尽的分析,得到了以下关键数据:
1、新冠肺炎基本再生数R0估计值为3.77(95% CI:3.51-4.05),在调整潜伏期和感染期参数后的敏感性分析中得到的R0范围为2.23-4.82;
2、从出现症状到确诊的时间中位数为5天(2-9天)。估计新冠肺炎潜伏期的中位数为4.8(3.0-7.2)天;
3、观察到的确诊患者病死率为1.44%(95% CI:1.10-1.86%),估计调整后总体的病死率为3.06%(95% CI:2.02-4.59%)。
人类对于病毒的恐惧,多数是来自于未知。现在大家对于新冠肺炎的理解越来越深入,对于它也就逐渐不再害怕。

2、疫情数据流转中遇到的问题
2.1 数据标准问题
在这次疫情过程中,最容易引发争议的,恐怕就是前期和中期疫情的数据变化和真实情况相差过大。在这里捋一下时间线和关键事件:
12月8日 官方通报首例不明原因肺炎
12月26日 张继先发现严重性 27日上报
12月31日 武汉卫健委发现肺炎27例
1月3日 武汉卫健委公布病毒性肺炎诊断44例
1月5日 武汉卫健委公布病毒性肺炎诊断59例
1月11日 武汉卫健委公布新冠病毒感染的肺炎41例,出院2例,重症7例,死亡1例
1月12-17日 武汉卫健委每日通报,无新增新冠病毒感染的肺炎病例
1月18日 武汉卫健委公布 16日新增病例4例,
1月19日 武汉卫健委公布 17日新增病例17例
1月19日 国家卫健委宣布开始下放检测试剂盒。
1月20日 武汉卫健委公布 18日新增病例59例 19日新增77例
1月20日 钟南山肯定新型冠状病毒人传人
……
在这里其实能看出,报告的确诊病例增长趋势和传染病的常规增长模型有显著差别。
究其原因,关键是在于病例数据的判断标准问题。

1、一开始,在对病毒缺少了解的情况下,医院根据病毒性肺炎来作为诊断依据。

2、在1月11日,“不明原因的病毒性肺炎”病原体初步判定为新型冠状病毒之后,武汉卫健委的诊断标准采用了国家第一批专家组的诊断条件:1.有华南海鲜市场的接触史2.有发烧症状3.病毒基因组测序 。由于病毒基因测序时间长、从医院角度诊断困难,且处于武汉市两会、湖北省两会期间,所以在接下来到17日,武汉卫健委没有发布新增病例。

3、在1月22日国家颁布了《新型冠状病毒感染的肺炎诊疗方案(试行第三版)》,里面明确了确诊病例需要样本的核酸检测阳性,或者通过病毒基因测序。因此我们看到的数据增长明显加快,就是在23日,此后确诊数在保持几乎相同的增长速度。

4、国家不断根据实际情况修改诊疗方案,一直到了第五版,将湖北和其他省份区分开,且给湖北增加临床诊断病例,因此,我们又看到了12日的暴增,其实质是放开核酸限制,直接关注能够临床诊断的患者。


到了现在,我们可以发现疑似病例开始持续低于确诊病例,也就意味着,医院的处理能力跟上来了,现在的数据已经贴近了真实状况。在这个过程中,数据的波动只是表象,而数据背后的标准波动才是问题的核心。最近有不少数据分析师想用数据分析预测出未来的疫情结束日期,笔者认为没有必要,理解了数据的变化核心,就能理解这样的数据做预测是难以做准的,前中期获得的数据并不算是完整的疫情数据。同时,对于疫情,我们应该始终保持警惕,结束时间有合理预期即可,不必精准预测。

2.2 院内数据统计问题
在疫情期间,笔者一直在为合作的多家医院做技术方案上的支撑,所以也了解到他们在疫情期间的数据痛点。

现在院外上报的流程是,一般医院会将EMR、HIS(医院信息系统)、LIS(实验室检验系统)等系统内的数据汇总之后,会上传到卫健委、疾控中心。国家卫健委在2月3日发布了《关于加强信息化支撑新型冠状病毒感染的肺炎疫情防控工作的通知》,各地卫健委根据通知不断改进采集方式,多数已经开始采用网络直报的方式,变得较为方便。

但是多数医院对于他们正在处理的患者数量、确诊疑似病例分布、内部科室人员配比、排班情况、防护物资等状况反而无从知晓,甚至出现通过excel打印纸质表单、手写统计的方式(注意:病毒可以通过接触传播),可以说低效的数据工作反而给他们的工作带来了不少负担和危险,也让管理者难以获得全貌,主任和院长无法进行快速调度,甚至连排班都做不了。也因此才有了上海华山医院张文宏主任排班排不下去了,让党员先上的“粗暴”做法。这个问题的实质是多数医院较为依赖厂商的服务,缺少快速开发数据采集和处理数据的能力。

从医院反馈的需求来看,医院遇到的内部数据堵塞点非常多。真正要将疫情数据发挥出价值,就一定要从数据层面思考完善。本次疫情数据的用法应该分为两块,一是负责“治”,二是负责“防”。
医院目前已有的数据需求,笔者将其分解为三大方向。

第一块是填报微系统的需求。医院目前的主流信息系统已经极其复杂,但其功能大多是围绕着医院的常规运行部分,对于很多可以运营的数据并没有做额外的采集,也就造成了医院的许多临时性的需求数据无法采集。那么填报微系统主要就是为了将医院日常可能通过excel进行收集的部分数据,或者突发性、临时性的数据进行采集,并保留到数据库中。


同样,在这次疫情中,许多医院搭建的填报微系统也发挥了作用。


自动化业务报表,目的就是为了让医院从复杂繁琐的报表任务中解脱出来,并且能够结合医院自身情况,进行报表的快速调整和修改。
实验室报告样本分析——医院自行开发
实时住院查询——医院自行开发

同样的,在疫情过程中,自动化报表也在医院发挥着重要作用,在此,笔者特地梳理出了医院详细的分析指标模块,供其他医院参考。

第三块是管理型的数据应用,将医院的EMR、HIS、LIS系统的数据连接上,再结合填报微系统采集的数据,很方便的就能给医院管理者分析出目前的医院运行状况和指挥发力点。
全院门诊监控看板
地区疫情医院监控看板
现在,疫情已经看到了胜利的曙光,不过再乐观的人,也不会说这次是最后一次瘟疫的来临。经历了03年的非典、13年的禽流感、20年的新冠肺炎,笔者认为,我们现在能够做的是通过技术不断提高发现传染病的能力,因为早控制一点,就能让感染的数字少一点,损失的生命就会少一点。正如张文宏主任在演讲中所说,总要有一批人保持焦虑,人类才能长久的活下去。



分享扩散:

沙发
发表于 2020-3-25 08:33:12
沙发
板凳
发表于 2020-3-25 10:39:02
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表