第二十讲:大数据:从“杂乱无章”到“价值连城”的点金术

在前面几讲,我们探讨了多种多样的数据生产采集技术。

  • EMRHIS,通过人的录入,生产了关于诊疗行为的数据。
  • 物联网(IoT),通过传感器的采集,生产了关于生命体征物理世界的数据。

现在,我们面临着一个幸福的烦恼:数据太多了

这些来自不同源头的、格式迥异的、质量参差不齐的数据,像一条条浑浊的支流,汇集到医院这个数据湖中。此时的里,充满了泥沙、浮木和杂草。如果你直接跳进去游泳,不但游不快,还可能被水草缠住,甚至喝一肚子脏水。

今天,我们的任务,就是学习如何治理这片浑浊的数据湖,并从中淘金

第一部分:重新认识大数据”——超越,看见“4V”

首先,我们必须纠正一个普遍的误解。很多人听到大数据,脑子里浮现的第一个词,就是,就是数据量(Volume)很大。

这没错,但只说对了一半。在医疗这个特殊的领域,另外三个“V”的挑战,远比单纯的要严峻得多。

1. 体量(Volume):数据规模巨大

  • 这最好理解。一家大型三甲医院,一年产生的各类数据,可以达到PB(拍字节,约等于100GB)级别。特别是PACS的影像、基因测序的序列,都是数据量的巨无霸

2. 速率(Velocity):数据产生和流动极快

  • ICU里的监护仪,每秒钟都在产生新的数据流。5G网络下的远程手术,要求数据传输的延迟必须在毫秒级。

3. 多样性(Variety):数据类型和结构极其复杂

  • 这是医疗大数据最核心、也最艰巨的挑战。
    • 有来自HISHRP的、格式规整的结构化数据(像Excel表格)。
    • 有来自EMR病程记录、医生笔记的非结构化数据(自由文本)。
    • 有来自PACS的影像(DICOM)、病理的切片(WSI)、监护仪的心电波形(ECG)等半结构化数据
    • 还有来自基因测序的组学数据、来自可穿戴设备的传感器数据……
  • 将这些语言形态完全不同的数据,融合在一起进行分析,难度极大。

4. 真实性(Veracity):数据的质量和可信度参差不齐

  • 数据在录入、采集、传输过程中,充满了各种噪音错误
    • 医生笔误录错的诊断。
    • 传感器因为干扰而产生的异常读数。
    • 不同系统之间因为编码不统一而导致的同名异物
  • 如果不对这些脏数据进行处理,那么后续的所有分析,都将是垃圾进,垃圾出

所以,请记住,医疗大数据的挑战,主要不在于存不下,而在于理还乱 它不像金融或互联网行业的数据那样,天然就是高度结构化和标准化的。它本质上,是一片充满多样性和不确定性的数据沼泽

而我们今天要探讨的点金术,其核心工作,就是在分析挖掘之前,必须先对这片沼泽,进行一次彻底的勘探治理

第二部分:点金术的第一步——“数据治理,从源头确保水质

任何淘金者都知道,你不能直接把一铲子河床里的泥沙,就扔进熔炉。你必须先进行筛选清洗

在数据世界里,这个过程,就叫做数据治理(Data Governance。它是一套枯燥、繁琐、但至关重要的底层工作。没有它,所有上层的AI和大数据应用,都只是空中楼阁。

数据治理的核心,是建立一套规则流程,来确保数据的质量合规

1. 建立数据宪法”——制定数据标准

  • 我们在第十四讲构建ODR时,已经提到过主数据管理。这就是数据治理的立法过程。
  • 医院必须成立一个跨部门的数据治理委员会,由医务、信息、运营、核心临床科室共同参与,来制定全院统一的数据标准
  • 比如,共同决定全院统一的疾病诊断编码标准药品编码标准手术操作编码标准”……
  • 这个过程充满了痛苦的扯皮,但一旦确立,就如同颁布了宪法,所有新建和改造的系统,都必须无条件遵守。

2. 建立质量检测站”——数据质量管理

  • 光有标准还不够,还需要有检测机制
  • 我们需要建立自动化的数据质量稽核平台。这个平台会像一个不知疲倦的质检员,定期地扫描所有数据源,并根据预设的规则,自动发现和报告质量问题
  • 稽核规则举例
    • 完整性规则出院病人的病案首页,主要诊断字段不能为空。
    • 一致性规则同一个病人在HISEMR中的性别信息,必须保持一致。
    • 合理性规则患者的年龄,不能大于150岁。
  • 发现问题后,平台会自动生成数据质量报告,并派发整改工单给相应的业务部门。

3. 建立数据身份证”——元数据管理

  • 我们不仅要知道数据是什么,还要知道关于数据的数据,也就是元数据(Metadata
  • 元数据,就是每一份数据的身份证说明书。它记录了:
    • 这份数据是谁创建的?(来源)
    • 它是什么时候创建的?(时间戳)
    • 它的业务含义是什么?(业务定义)
    • 它的技术格式是什么?(数据类型、长度)
    • 它和哪些其他数据有关联?(数据血缘)
  • 一个拥有良好元数据管理的医院,就像一个拥有中央数据地图的城市。任何分析师,都可以快速地找到他想要的数据,并理解它的前世今生。

数据治理,是一项看不到尽头的、持续性的苦活累活 它不像做一个炫酷的BI驾驶舱那样,能立刻看到成果。但它决定了一家医院数据资产的含金量。没有经过治理的数据,是矿渣;经过了良好治理的数据,才是金矿石

第三部分:点金术的第二步——“数据标准化,让世界说同一种语言

现在,我们有了高质量的金矿石。但是,如果我们想把我们医院的金矿石,和北京协和医院的金矿石放在一起,进行更大规模的冶炼(比如,进行多中心临床研究),我们就会发现一个新的问题:

即使两家医院内部的数据标准都很好,但他们两家之间的标准,可能完全不同。

这就极大地限制了医疗数据的流动性可复用性

为了解决这个问题,全球的医学信息学专家们,一直在努力创建一种世界语,一种能让来自不同医院、不同国家的数据,都能被统一表示和理解的通用数据模型(Common Data Model, CDM

在众多CDM中,目前全球最受瞩目、应用也最广泛的,是一个叫做OMOP CDM的模型。

  • OMOP是什么?
    • OMOPObservational Medical Outcomes Partnership)是一个国际性的、非盈利的合作组织。
    • 它创建的OMOP通用数据模型(OMOP CDM,本质上是一套标准化的数据库表结构标准化的医学词汇表(Vocabulary
  • OMOP如何工作?

1.       标准化的桌子OMOP定义了一系列标准化的数据表,比如“PERSON”(病人表)、“CONDITION_OCCURRENCE”(诊断事件表)、“DRUG_EXPOSURE”(用药暴露表)等等。无论你医院原始的数据库长什么样,你都需要写一个ETL程序,把你的数据,转换和映射到这些标准桌子里。

2.       标准化的语言OMOP整合了全球主流的医学编码体系(如ICD, SNOMED CT, LOINC, RxNorm等),形成了一个庞大的、统一的标准词汇表。在映射过程中,你需要把你医院内部的方言编码(比如你院自定义的药品编码),都翻译成这个词汇表里的标准普通话

  • OMOP的价值是什么?
    • 当全球成百上千家医院,都把自己的数据,转换成了OMOP CDM这种标准格式后,奇迹就发生了。
    • 一个研究者,可以编写一个分析程序,这个程序无需任何修改,就可以在所有这些医院的数据集上即插即用地运行,并快速地得到一个跨越数亿人口的、超大规模的真实世界研究结果。
    • OMOP,正在构建一个全球医疗数据的联邦铁路系统 它让数据的多中心、规模化应用,变得前所未有的高效和低成本。

作为咨询顾问,当你向客户的科研副院长,提到OMOP CDM时,这会立刻展现出你对行业最前沿趋势的深刻理解。

结论:从拥有数据驾驭数据

今天我们进行了一次深入数据沼泽的淘金之旅。

我们必须建立一个超越技术细节的战略认知:
在大数据时代,一家医院的核心竞争力,不再仅仅是拥有多少数据,而是驾驭数据的能力有多强。

驾驭能力的高低,并不取决于你买了多昂贵的AI算法或分析工具,而是取决于你在那些看不见的、基础性的底层工作上,投入了多少精力。

  • 数据治理,决定了你内部数据资产的质量。它是一场向内求的修行,目标是实现院内的车同轨,书同文
  • 数据标准化(如OMOP CDM,则决定了你数据资产的流动性外部价值。它是一场向外看的远征,目标是让你医院的数据,能够融入全球知识生产的大航海时代

这两项工作,都需要巨大的投入、长期的坚持和跨部门的决心。它们是典型的难而正确的事

我们作为咨询顾问的价值,就是帮助客户理解,为什么必须要做这些难事,并为他们规划出一条从杂乱无章价值连城的、清晰、可行的点金之路

在下一讲,我们将在这些治理好的、高质量的数据之上,释放那个最令人兴奋的魔法”——人工智能(AI)。


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: