在前面几讲,我们探讨了多种多样的数据“生产”和“采集”技术。
- EMR、HIS,通过人的录入,生产了关于“诊疗行为”的数据。
- 物联网(IoT),通过传感器的采集,生产了关于“生命体征”和“物理世界”的数据。
现在,我们面临着一个幸福的烦恼:数据太多了。
这些来自不同源头的、格式迥异的、质量参差不齐的数据,像一条条浑浊的支流,汇集到医院这个“数据湖”中。此时的“湖”里,充满了泥沙、浮木和杂草。如果你直接跳进去游泳,不但游不快,还可能被水草缠住,甚至喝一肚子脏水。
今天,我们的任务,就是学习如何“治理”这片浑浊的数据湖,并从中“淘金”。
第一部分:重新认识“大数据”——超越“大”,看见“4V”
首先,我们必须纠正一个普遍的误解。很多人听到“大数据”,脑子里浮现的第一个词,就是“大”,就是数据量(Volume)很大。
这没错,但只说对了一半。在医疗这个特殊的领域,另外三个“V”的挑战,远比单纯的“大”要严峻得多。
1. 体量(Volume):数据规模巨大
- 这最好理解。一家大型三甲医院,一年产生的各类数据,可以达到PB(拍字节,约等于100万GB)级别。特别是PACS的影像、基因测序的序列,都是数据量的“巨无霸”。
2. 速率(Velocity):数据产生和流动极快
- ICU里的监护仪,每秒钟都在产生新的数据流。5G网络下的远程手术,要求数据传输的延迟必须在毫秒级。
3. 多样性(Variety):数据类型和结构极其复杂
- 这是医疗大数据最核心、也最艰巨的挑战。
- 有来自HIS、HRP的、格式规整的“结构化数据”(像Excel表格)。
- 有来自EMR病程记录、医生笔记的“非结构化数据”(自由文本)。
- 有来自PACS的影像(DICOM)、病理的切片(WSI)、监护仪的心电波形(ECG)等“半结构化数据”。
- 还有来自基因测序的组学数据、来自可穿戴设备的传感器数据……
- 将这些“语言”和“形态”完全不同的数据,融合在一起进行分析,难度极大。
4. 真实性(Veracity):数据的质量和可信度参差不齐
- 数据在录入、采集、传输过程中,充满了各种“噪音”和“错误”。
- 医生笔误录错的诊断。
- 传感器因为干扰而产生的异常读数。
- 不同系统之间因为编码不统一而导致的“同名异物”。
- 如果不对这些“脏数据”进行处理,那么后续的所有分析,都将是“垃圾进,垃圾出”。
所以,请记住,医疗大数据的挑战,主要不在于“存不下”,而在于“理还乱”。 它不像金融或互联网行业的数据那样,天然就是高度结构化和标准化的。它本质上,是一片充满多样性和不确定性的“数据沼泽”。
而我们今天要探讨的“点金术”,其核心工作,就是在“分析”和“挖掘”之前,必须先对这片沼泽,进行一次彻底的“勘探”与“治理”。
第二部分:点金术的第一步——“数据治理”,从源头确保“水质”
任何淘金者都知道,你不能直接把一铲子河床里的泥沙,就扔进熔炉。你必须先进行“筛选”和“清洗”。
在数据世界里,这个过程,就叫做数据治理(Data
Governance)。它是一套枯燥、繁琐、但至关重要的“底层工作”。没有它,所有上层的AI和大数据应用,都只是空中楼阁。
数据治理的核心,是建立一套“规则”与“流程”,来确保数据的“质量”与“合规”。
1. 建立“数据宪法”——制定数据标准
- 我们在第十四讲构建ODR时,已经提到过“主数据管理”。这就是数据治理的“立法”过程。
- 医院必须成立一个跨部门的“数据治理委员会”,由医务、信息、运营、核心临床科室共同参与,来制定全院统一的“数据标准”。
- 比如,共同决定全院统一的“疾病诊断编码标准”、“药品编码标准”、“手术操作编码标准”……
- 这个过程充满了痛苦的“扯皮”,但一旦确立,就如同颁布了“宪法”,所有新建和改造的系统,都必须无条件遵守。
2. 建立“质量检测站”——数据质量管理
- 光有标准还不够,还需要有“检测机制”。
- 我们需要建立自动化的“数据质量稽核平台”。这个平台会像一个不知疲倦的“质检员”,定期地扫描所有数据源,并根据预设的规则,自动发现和报告“质量问题”。
- 稽核规则举例:
- 完整性规则:“出院病人的病案首页,‘主要诊断’字段不能为空。”
- 一致性规则:“同一个病人在HIS和EMR中的性别信息,必须保持一致。”
- 合理性规则:“患者的年龄,不能大于150岁。”
- 发现问题后,平台会自动生成“数据质量报告”,并派发“整改工单”给相应的业务部门。
3. 建立“数据身份证”——元数据管理
- 我们不仅要知道数据“是什么”,还要知道“关于数据的数据”,也就是元数据(Metadata)。
- 元数据,就是每一份数据的“身份证”和“说明书”。它记录了:
- 这份数据是谁创建的?(来源)
- 它是什么时候创建的?(时间戳)
- 它的业务含义是什么?(业务定义)
- 它的技术格式是什么?(数据类型、长度)
- 它和哪些其他数据有关联?(数据血缘)
- 一个拥有良好元数据管理的医院,就像一个拥有“中央数据地图”的城市。任何分析师,都可以快速地找到他想要的数据,并理解它的前世今生。
数据治理,是一项“看不到尽头”的、持续性的“苦活累活”。 它不像做一个炫酷的BI驾驶舱那样,能立刻看到成果。但它决定了一家医院数据资产的“含金量”。没有经过治理的数据,是“矿渣”;经过了良好治理的数据,才是“金矿石”。
第三部分:点金术的第二步——“数据标准化”,让世界“说同一种语言”
现在,我们有了高质量的“金矿石”。但是,如果我们想把我们医院的“金矿石”,和北京协和医院的“金矿石”放在一起,进行更大规模的冶炼(比如,进行多中心临床研究),我们就会发现一个新的问题:
即使两家医院内部的数据标准都很好,但他们两家之间的标准,可能完全不同。
这就极大地限制了医疗数据的“流动性”和“可复用性”。
为了解决这个问题,全球的医学信息学专家们,一直在努力创建一种“世界语”,一种能让来自不同医院、不同国家的数据,都能被统一表示和理解的“通用数据模型(Common Data Model, CDM)”。
在众多CDM中,目前全球最受瞩目、应用也最广泛的,是一个叫做OMOP CDM的模型。
- OMOP是什么?
- OMOP(Observational
Medical Outcomes Partnership)是一个国际性的、非盈利的合作组织。
- 它创建的OMOP通用数据模型(OMOP CDM),本质上是一套“标准化的数据库表结构”和“标准化的医学词汇表(Vocabulary)”。
- OMOP如何工作?
1.
标准化的“桌子”:OMOP定义了一系列标准化的“数据表”,比如“PERSON”(病人表)、“CONDITION_OCCURRENCE”(诊断事件表)、“DRUG_EXPOSURE”(用药暴露表)等等。无论你医院原始的数据库长什么样,你都需要写一个ETL程序,把你的数据,转换和映射到这些“标准桌子”里。
2.
标准化的“语言”:OMOP整合了全球主流的医学编码体系(如ICD, SNOMED CT, LOINC, RxNorm等),形成了一个庞大的、统一的“标准词汇表”。在映射过程中,你需要把你医院内部的“方言”编码(比如你院自定义的药品编码),都翻译成这个词汇表里的“标准普通话”。
- OMOP的价值是什么?
- 当全球成百上千家医院,都把自己的数据,转换成了OMOP CDM这种“标准格式”后,奇迹就发生了。
- 一个研究者,可以编写一个分析程序,这个程序无需任何修改,就可以在所有这些医院的数据集上“即插即用”地运行,并快速地得到一个跨越数亿人口的、超大规模的真实世界研究结果。
- OMOP,正在构建一个全球医疗数据的“联邦铁路系统”。 它让数据的多中心、规模化应用,变得前所未有的高效和低成本。
作为咨询顾问,当你向客户的科研副院长,提到OMOP CDM时,这会立刻展现出你对行业最前沿趋势的深刻理解。
结论:从“拥有数据”到“驾驭数据”
今天我们进行了一次深入“数据沼泽”的淘金之旅。
我们必须建立一个超越技术细节的战略认知:
在大数据时代,一家医院的核心竞争力,不再仅仅是“拥有”多少数据,而是“驾驭”数据的能力有多强。
而“驾驭能力”的高低,并不取决于你买了多昂贵的AI算法或分析工具,而是取决于你在那些看不见的、基础性的“底层工作”上,投入了多少精力。
- 数据治理,决定了你内部数据资产的“质量”。它是一场“向内求”的修行,目标是实现院内的“车同轨,书同文”。
- 数据标准化(如OMOP CDM),则决定了你数据资产的“流动性”和“外部价值”。它是一场“向外看”的远征,目标是让你医院的数据,能够融入全球知识生产的“大航海时代”。
这两项工作,都需要巨大的投入、长期的坚持和跨部门的决心。它们是典型的“难而正确的事”。
我们作为咨询顾问的价值,就是帮助客户理解,为什么必须要做这些“难事”,并为他们规划出一条从“杂乱无章”到“价值连城”的、清晰、可行的“点金之路”。
在下一讲,我们将在这些治理好的、高质量的数据之上,释放那个最令人兴奋的“魔法”——人工智能(AI)。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment