Digital Health Insider

SDoH-GPT：利用大型语言模型提取健康社会决定因素（SDoH）

从非结构化病历中提取健康社会决定因素（SDoH）往往依赖于耗时费力的人工标注，而这些标注通常针对特定任务，缺乏通用性和可复用性，限制了数据共享。为了解决这一难题，本研究提出了一种简单高效的少样本大型语言模型（LLM）方法——SDoH-GPT。该方法利用对比示例和简洁指令，无需依赖大量医学标注或昂贵的人工参与，即可高效提取 SDoH 信息。研究结果表明，SDoH-GPT 能够将时间成本降低至原来的十分之一，将经济成本降低至原来的二十分之一，并且与人工标注结果高度一致，Cohen's kappa 系数高达 0.92。此外，我们将 SDoH-GPT 与 XGBoost 算法相结合，充分发挥了二者的优势，在保证高精度和计算效率的同时，实现了 0.90 以上的 AUROC 分数。通过对三个不同数据集的测试，进一步验证了该方法的稳健性和准确性。本研究凸显了利用 LLMs 变革医学文本分类的巨大潜力，证明了其能够以更低的时间和经济成本实现高精度的分类结果。

1. 论文的研究目标、问题及背景

研究目标

论文《SDoH-GPT: Using Large Language Models to Extract Social Determinants of Health (SDoH)》的研究目标是开发并验证一种基于大型语言模型（Large Language Model, LLM）的方法，用于从非结构化医疗记录中高效提取健康社会决定因素（Social Determinants of Health, SDoH）。该方法旨在减少对繁重人工标注的依赖，提高效率和可重用性。

实际问题

目前，从非结构化医疗记录中提取SDoH高度依赖劳动密集型的人工标注，这些标注通常是任务特定的，限制了其可重用性和共享性。因此，研究旨在解决如何从医疗文本中自动且高效地识别SDoH的问题。

是否是新问题

这个问题并非全新，但使用LLM（尤其是GPT系列模型）来高效解决SDoH提取任务的方法尚属新颖。传统方法包括基于规则、基于工具或监督/无监督学习方法，这些方法都依赖于不同程度的人工标注。

科学假设

论文假设通过少量示例和简洁指令，LLM（特别是GPT-3.5）能够以高效且经济的方式自动标注SDoH，且其性能可与人类标注相媲美。

归类与领域内研究员

该研究属于医疗信息学、NLP和机器学习交叉领域。值得关注的领域内研究员包括但不限于：

医疗信息学：那些致力于将AI应用于医疗数据分析的研究者。
NLP：特别是那些利用LLM解决特定NLP任务的研究团队。

2. 论文提出的新思路、方法及模型

新思路

论文提出了SDoH-GPT方法，利用GPT-3.5进行少样本学习（few-shot learning），通过对比示例和简洁指令来自动标注SDoH，无需广泛的人工标注。

方法及模型

SDoH-GPT：利用GPT-3.5模型，通过设计包含指令、示例和查询的模板，从非结构化医疗文本中提取SDoH。
少样本学习：通过少量人工标注的示例（零样本或两样本）来指导模型学习。
XGBoost分类器：使用SDoH-GPT标注的数据训练XGBoost分类器，提高预测准确性和计算效率。

关键与优势

高效性：SDoH-GPT显著减少了人工标注的时间和成本。
准确性：实验结果显示，SDoH-GPT标注的一致性（Cohen's kappa值）高达0.92，与人类标注接近。
可重用性：与任务特定的人工标注相比，SDoH-GPT的标注更加通用和可重用。

3. 实验设计与结果

实验设计

数据集：使用三个不同数据集（MIMIC-SBDH、Suicide Notes、Sleep Notes）来验证SDoH-GPT的性能。
实验流程：
1. 数据预处理：从医疗记录中提取社会历史部分，构建训练和测试集。
2. SDoH-GPT标注：使用零样本或两样本学习对未标注数据进行标注。
3. XGBoost训练：使用SDoH-GPT标注的数据训练XGBoost分类器。
4. 性能评估：通过AUROC、时间成本等指标评估SDoH-GPT和XGBoost的性能。

实验数据与结果

时间成本：与人工标注相比，SDoH-GPT在标注2048个样本时，时间成本降低了十倍，成本降低了二十倍。
准确性：SDoH-GPT标注的一致性（Cohen's kappa）在多个数据集中均达到0.70以上，最高可达0.92。
AUROC：XGBoost-SDoH-GPT在多个SDoH类别上的AUROC接近或超过0.90，与人类标注训练的XGBoost性能相当。

支持科学假设

实验结果显示，SDoH-GPT能够在减少人工标注负担的同时，保持与人类标注相当的准确性，从而验证了其科学假设。

4. 论文的贡献、业界影响及应用场景

贡献

技术贡献：提出了一种基于LLM的少样本学习方法SDoH-GPT，显著提高了SDoH提取的效率和准确性。
方法论贡献：展示了如何将LLM与传统机器学习模型（如XGBoost）结合，以实现更好的性能和效率。

业界影响

医疗信息学：促进SDoH在医疗记录中的自动化提取，有助于更全面地评估患者健康状况。
AI医疗应用：推动AI在医疗领域的深入应用，特别是在个性化医疗和公共卫生管理方面。

应用场景与商业机会

健康管理：医疗机构可利用SDoH-GPT为患者提供更全面的健康管理服务。
公共卫生研究：研究人员可使用自动化提取的SDoH数据进行大规模流行病学分析。
商业保险：保险公司可根据SDoH数据调整保费和产品设计，提高风险评估的准确性。

工程师应关注的方面

LLM的应用：了解如何在特定领域（如医疗）中有效应用LLM。
模型融合：探索如何将LLM与传统机器学习模型结合，以优化性能和效率。
数据标注：研究减少人工标注负担的方法，提高数据标注的效率和准确性。

5. 未来研究方向与挑战

未来研究方向

多类别SDoH提取：扩展SDoH-GPT以支持更多类别的SDoH提取。
跨领域应用：探索SDoH-GPT在其他非医疗领域的应用潜力。
模型优化：通过调整模型结构和参数，进一步提高SDoH-GPT的性能和效率。

挑战

数据不平衡：医疗记录中SDoH数据往往不平衡，需开发有效的平衡策略。
上下文理解：提高LLM对医疗记录上下文的理解能力，减少标注误差。
计算资源：LLM通常需要大量计算资源，如何在保证性能的同时降低计算成本是一个挑战。

6. 论文的不足与存疑

不足

类别限制：当前研究仅限于三个SDoH类别，未全面覆盖所有重要的SDoH。
二分类限制：SDoH的标注被简化为二分类问题，可能无法全面反映SDoH的复杂性。
数据集依赖：实验结果依赖于特定数据集，可能不具有广泛的普适性。

存疑

LLM的泛化能力：LLM在医疗领域的泛化能力仍需进一步验证。
标注一致性：尽管Cohen's kappa值较高，但标注不一致性的来源和解决方法仍需深入探讨。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

数据与知识强强联合：GPT-4O 有效解读机器学习模型，助力预测肺癌淋巴结转移

淋巴结转移（LNM）是影响肺癌患者预后和治疗方案的关键因素，然而，精准的术前 LNM 诊断仍然充满挑战。近年来，大型语言模型（LLM）凭借其强大的文本生成能力备受瞩目。LLM 能够利用其从海量数据中学习到的丰富医学知识，对临床问题进行概率估计，但其预测性能一直以来都逊于数据驱动的机器学习模型。本研究提出了一种新型集成方法，将 LLMs 掌握的医学知识与机器学习模型识别出的潜在模式相结合，以提升 LNM 预测的准确性。首先，我们利用患者数据训练机器学习模型。然后，我们设计了一个提示模板，将患者数据与机器学习模型预测的概率整合在一起。接下来，我们使用 OpenAI 开发的最先进 LLM——GPT-4o，根据患者数据初步估计 LNM 的可能性，并利用机器学习模型的输出结果对估计值进行校准。最后，我们使用相同的提示从 GPT-4o 获得三个输出结果，并将这些结果进行集成，得到最终的预测结果。实验结果表明，采用该方法构建的模型在 LNM 预测任务中取得了 AUC 值 0.765、AP 值 0.415 的优异成绩，相较于传统的机器学习模型，预测性能得到显著提升。这说明 GPT-4o 能够有效结合自身掌握的医学知识和机器学习模型预测的概率，实现更精准的 LNM 预测。本研究证实了 LLMs 在临床风险预测任务中的巨大潜力，为未来将医学知识与患者数据相结合进行临床预测开辟了新的道路。

1. 论文研究目标与实际问题

研究目标

论文《结合数据与知识的力量：GPT-4o在肺癌淋巴结转移预测中的有效解释器》旨在通过结合大型语言模型（LLMs）和机器学习模型的优点，提升肺癌患者淋巴结转移（LNM）的预测性能。

解决的实际问题

肺癌淋巴结转移的准确术前诊断对于患者的治疗决策至关重要，但传统的诊断方法往往存在局限性，导致治疗决策不优，影响患者预后。尽管机器学习模型在数据驱动预测中表现出色，但其性能仍可通过结合医学知识进一步提升。

是否是新问题

淋巴结转移的准确预测一直是临床上的难点，尽管已有大量研究利用机器学习提升预测精度，但结合LLMs与机器学习模型进行预测仍是一个相对较新的尝试。

科学假设

结合LLMs的医学知识与机器学习模型的潜在模式可以显著提升LNM的预测性能。

关注的研究员

论文由来自浙江大学和北京大学的多位研究者共同完成，如Danqing Hu、Bing Liu等，他们在医学人工智能领域具有较高的知名度。

2. 新的思路、方法或模型

新思路

论文提出了一个结合LLMs（以GPT-4o为例）和机器学习模型预测结果的集成方法。具体步骤如下：

数据准备与特征提取：收集肺癌患者的临床数据，使用机器学习模型进行初步预测。
设计提示模板：将患者数据和机器学习模型的预测结果整合到提示模板中。
利用GPT-4o进行预测：根据提示模板，利用GPT-4o生成新的预测结果。
集成预测结果：对GPT-4o的多次预测结果进行集成，得到最终预测。

解决方案的关键

关键在于整合LLMs的医学知识库与机器学习模型的潜在模式，通过LLMs对机器学习预测结果的再评估和调整，提高预测精度。

特点与优势

知识整合：结合了LLMs的广泛医学知识和机器学习模型的数据驱动能力。
性能提升：相比单一模型，集成模型在AUC和AP值上均有显著提升。
可解释性：GPT-4o的预测过程提供了逐步推理，增强了模型的可解释性。

3. 实验设计与结果

实验设计

数据集：收集了767名肺癌患者的数据，包括临床信息、影像报告和肿瘤标志物等。
模型训练：使用逻辑回归、随机森林和支持向量机三种经典机器学习模型进行初步预测。
提示模板：设计包含患者信息、任务描述、机器学习模型预测结果的提示模板。
预测与集成：利用GPT-4o进行多次预测，并采用最大值、最小值、中位数和均值四种策略进行结果集成。

实验数据与结果

基线模型性能：单独使用GPT-4o或GPT-3.5的预测性能不如机器学习模型。
集成模型性能：集成后的GPT-4o+ML模型在AUC和AP值上均有显著提升，特别是在使用最大值和均值集成策略时。
统计显著性：集成模型与单一机器学习模型相比，在多个指标上达到统计显著性（p<0.05）。

支持科学假设

实验结果表明，结合LLMs和机器学习模型的集成方法显著提升了LNM的预测性能，验证了论文的科学假设。

4. 论文贡献与业界影响

论文贡献

提出新方法：首次提出结合LLMs和机器学习模型进行LNM预测的方法。
性能提升：通过集成模型显著提高了预测精度。
可解释性增强：LLMs的逐步推理过程增强了模型的可解释性。

业界影响

临床决策支持：为临床医生提供更准确的术前LNM预测工具，有助于优化治疗决策。
技术示范：展示了LLMs在医学预测任务中的潜力，为类似研究提供了范例。
商业机会：促进基于AI的医疗解决方案的开发，如智能诊断系统、风险评估工具等。

潜在应用场景

术前风险评估：为肺癌患者提供术前LNM风险评估。
治疗方案优化：根据预测结果调整治疗计划，如是否需要进行新辅助治疗。
医疗资源分配：优化医疗资源配置，提高诊疗效率。

工程师关注方面

数据整合与处理：确保高质量的数据输入，提高模型训练效果。
模型集成与优化：探索更有效的集成策略，进一步提升预测性能。
临床验证与应用：与临床医生紧密合作，确保模型在临床实践中的有效性和可靠性。

5. 未来研究方向与挑战

未来研究方向

多模态预测：结合影像数据和其他生物标志物进行多模态预测。
跨疾病应用：探索LLMs在其他疾病预测中的应用潜力。
实时预测系统：开发实时、高效的预测系统，满足临床即时决策需求。

挑战

数据质量与标注：确保高质量、标准化的数据集，降低标注误差。
模型可解释性：进一步提高模型的可解释性，满足临床医生的信任需求。
临床验证与推广：通过大规模临床验证，确保模型在实际应用中的稳定性和可靠性。

6. 论文的不足与进一步验证

不足

数据集局限性：研究仅限于肺癌患者，对其他类型肿瘤的应用效果未知。
未考虑影像数据：未利用影像特征进行预测，可能限制了模型性能。
计算资源消耗：多次调用GPT-4o进行预测，计算成本较高。

进一步验证

跨疾病验证：在不同类型的肿瘤预测任务中验证模型的泛化能力。
多模态融合：结合影像数据和临床信息，提升预测精度。
实时性优化：探索降低计算成本、提高预测速度的方法。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

SDoH-GPT：利用大型语言模型提取健康社会决定因素（SDoH）

1. 论文的研究目标、问题及背景

研究目标

实际问题

是否是新问题

科学假设

相关研究

归类与领域内研究员

2. 论文提出的新思路、方法及模型

新思路

方法及模型

关键与优势

3. 实验设计与结果

实验设计

实验数据与结果

支持科学假设

4. 论文的贡献、业界影响及应用场景

贡献

业界影响

应用场景与商业机会

工程师应关注的方面

5. 未来研究方向与挑战

未来研究方向

挑战

6. 论文的不足与存疑

不足

存疑

数据与知识强强联合：GPT-4O 有效解读机器学习模型，助力预测肺癌淋巴结转移

1. 论文研究目标与实际问题

研究目标

解决的实际问题

是否是新问题

科学假设

相关研究与归类

关注的研究员

2. 新的思路、方法或模型

新思路

解决方案的关键

特点与优势

3. 实验设计与结果

实验设计

实验数据与结果

支持科学假设

4. 论文贡献与业界影响

论文贡献

业界影响

潜在应用场景

工程师关注方面

5. 未来研究方向与挑战

未来研究方向

挑战

6. 论文的不足与进一步验证

不足

进一步验证