Digital Health Insider

医疗LLM框架MEDITRON解读

大语言和多模式模型（LLM 和 LMM）将改变对医学知识和临床决策支持的获取。然而，当前领先的系统未能实现这一承诺，因为它们要么规模有限，限制了它们的能力，要么是闭源的，限制了可应用于它们的扩展和审查，或者不足以适应临床环境，这抑制了它们的实际使用。在这项工作中，EPFL通过开发 MEDITRON 使大规模医疗人工智能系统民主化：一套开源 LLM 和 LMM，具有适合医疗领域的 7B 和 70B 参数。 MEDITRON 将预训练扩展到全面策划的医学语料库，其中包括生物医学文献和国际公认的临床实践指南。
使用标准医学推理基准进行的评估显示，与当前所有开放获取模型和几个最先进的商业法学硕士相比，这些模型都有显着改进，这些模型的数量级更大，托管成本更高，并且是闭源的。通过增强视觉处理能力，EPFL的 MEDITRON-V 模型在各种生物医学成像模式的多模态推理任务上也优于所有开放模型和更大的闭源模型。除了传统的基准之外，EPFL还创建了一个基于真实世界临床环境的新颖的、由医生驱动的对抗性问题数据集，以及一个全面的指标评估标准，以评估与真实世界临床实践的一致性和情境化。将该框架应用于 MEDITRON-70B 的响应后，16 位独立医生发现所有指标都高度一致，包括医疗准确性、安全性、公平性、沟通和解释。 MEDITRON 套件是缩小封闭源和开源医学基础模型之间技术差距的重要一步。通过发布EPFL的方法、模型和现实世界的临床实践基准，EPFL的目标是推动更强大、更具代表性、更易于访问和更透明的医疗人工智能助手的开源开发。

一、引言

《MEDITRON: Open Medical Foundation Models Adapted for Clinical Practice》是一本由Antoine Bosselut等来自EPFL（洛桑联邦理工学院）及其他机构的专家撰写的著作。本书深入探讨了大型语言模型（LLMs）和大型多模态模型在医学领域，特别是在临床实践中的应用。这些模型为医疗行业的进步和创新提供了新的可能性，推动了精准医疗、患者监护以及诊断准确性的提升。

二、研究背景与意义

随着人工智能技术的快速发展，大型语言模型和多模态模型已经显示出在医疗领域的巨大潜力。MEDITRON项目致力于开发开放性的医学基础模型，并将它们适配于临床实践中。这不仅有助于提高医疗服务的质量和效率，还能够通过标准化和自动化降低医疗成本。此外，这些模型还有助于促进医疗知识的共享和传播，推动全球医疗水平的整体提升。

三、主要研究内容

本书详细介绍了MEDITRON项目的主要研究内容，包括：

大型语言模型在医学领域的应用：探讨了LLMs如何理解和分析医学文本，包括病历、医学论文等，从而为医生提供诊断支持和治疗方案建议。
多模态模型的整合：介绍了如何将图像、视频等非文本医学数据与文本数据相结合，构建多模态模型，以更全面地理解和分析患者的健康状况。
模型适配与临床实践：详细讨论了如何将上述模型适配于临床实践中，包括模型的训练、优化、验证以及在实际应用中的性能和表现。

四、研究方法与实验结果

书中详细介绍了MEDITRON项目所使用的研究方法，包括数据收集、模型构建、训练、评估等。同时，也展示了通过实验验证模型性能的结果，证明了这些模型在医学领域中的有效性和实用性。

五、应用前景与挑战

本书还探讨了MEDITRON项目所开发模型的应用前景，包括在精准医疗、远程医疗、医疗影像分析等领域的应用。同时，也指出了当前面临的挑战和问题，如数据隐私保护、模型的可解释性和可靠性等，为未来的研究提供了方向。

六、结论与展望

《MEDITRON: Open Medical Foundation Models Adapted for Clinical Practice》一书为医学领域的人工智能研究提供了新的视角和思路。通过开发开放性的医学基础模型，并将其适配于临床实践中，这些模型有望为医疗行业的进步和创新提供强大的支持。未来，随着技术的不断发展和完善，这些模型将在医疗领域发挥更加重要的作用，为人类健康事业做出更大的贡献。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

医疗LLM框架Med-Gemini解读

人工智能要在各种各样的医疗应用中取得卓越成绩，面临着巨大的挑战，这需要高级的推理能力、获取最新医疗知识的渠道，以及理解复杂多模态数据的能力。Gemini模型在多模态和长文本推理方面表现出强大的通用能力，为医学领域带来了令人兴奋的机遇。在Gemini 1.0 和 1.5 版本核心优势的基础上，Google推出了 Med-Gemini，这是一个专为医学领域打造的功能强大的多模态模型家族，它可以无缝集成网络搜索功能，并可以通过自定义编码器高效地适应新的模态。Google在 14 个覆盖文本、多模态和长文本应用的医疗基准测试上对 Med-Gemini 进行了评估，结果表明它在 10 个基准测试中达到了最先进的水平，并在所有可行直接比较的基准测试中超越了 GPT-4 模型家族，且优势明显。在流行的 MedQA（USMLE）基准测试中，表现最佳的 Med-Gemini 模型达到了 91.1% 的准确率，这要归功于一种新的不确定性引导搜索策略，相比之前最好的 Med-PaLM 2 模型提高了 4.6%。Google的基于搜索的策略在《新英格兰医学杂志》（NEJM）和 GeneTuring 基准测试的复杂诊断挑战中取得了最先进的表现，证明了其策略的通用性。在包括 NEJM 图像挑战和 MMMU（健康与医学）在内的 7 个多模态基准测试中，Med-Gemini 相比 GPT-4V 取得了平均 44.5% 的相对提升。Google还展示了 Med-Gemini 在长文本任务中的有效性，它在从去识别的长期健康记录和医疗视频问答中进行信息检索的任务中取得了最先进的表现，超越了仅使用情境内学习的先前定制方法。最后，Med-Gemini 在医疗文本摘要和转诊信生成等任务中的表现超越了人类专家，同时在多模态医疗对话、医学研究和教育等方面展示出巨大的潜力。总之，Google的成果有力地证明了 Med-Gemini 在医学领域的广阔前景，尽管在实际应用到这个安全关键领域之前，还需要进行更全面的评估。

一、引言

随着人工智能（AI）技术的飞速发展，其在医学领域的应用日益广泛。然而，医学领域的复杂性和多样性对AI技术提出了巨大的挑战。为了应对这些挑战，Google Research和Google DeepMind团队联合推出了Med-Gemini模型，这是一系列高度专业化的多模态模型，旨在通过其强大的多模态和长上下文推理能力，为医学领域带来突破性的进展。

二、Med-Gemini模型的核心特点

多模态能力：Med-Gemini模型能够无缝集成和解析来自不同来源的医学数据，包括文本、图像、视频等，从而实现对医学信息的全面理解和分析。
长上下文推理：在处理复杂的医学问题时，Med-Gemini模型能够考虑到更多的上下文信息，包括病人的病史、家族史、实验室检查结果等，从而做出更准确的诊断和建议。
无缝集成网络搜索：Med-Gemini模型能够实时访问和整合最新的医学知识，确保模型始终基于最新的医学研究成果进行工作。
高效性：Med-Gemini模型在保持高精度的同时，也注重计算效率，能够快速地处理大量的医学数据，为医生提供及时的诊断支持。

三、Med-Gemini模型在医学领域的应用

Med-Gemini模型在医学领域具有广泛的应用前景，包括但不限于以下几个方面：

辅助诊断：Med-Gemini模型能够分析病人的病历、影像资料等，为医生提供辅助诊断建议，提高诊断的准确性和效率。
治疗方案推荐：基于病人的具体情况和最新的医学研究成果，Med-Gemini模型能够推荐个性化的治疗方案，帮助医生制定更科学、更有效的治疗方案。
健康风险评估：通过对病人遗传、生活习惯等数据的分析，Med-Gemini模型能够评估病人的健康风险，为预防疾病提供科学依据。
医学研究和教育：Med-Gemini模型在医学研究和教育领域也有广泛应用，如文献挖掘、疾病模拟、虚拟实验等，为医学研究和教育提供有力支持。

四、结论

Med-Gemini模型作为一系列高度专业化的多模态模型，在医学领域具有巨大的潜力和价值。通过其强大的多模态和长上下文推理能力，Med-Gemini模型能够实现对医学信息的全面理解和分析，为医生提供辅助诊断、治疗方案推荐等支持，提高医疗服务的质量和效率。同时，Med-Gemini模型在医学研究和教育领域也有广泛的应用前景，有望为医学事业的发展注入新的动力。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Supercharging Research: Harnessing Artificial Intelligence to Meet Global Challenges解读

美国总统科技顾问委员会（PCAST）于2024年4月发布了研究报告"Supercharging Research: Harnessing Artificial Intelligence to Meet Global ChallengesSupercharging Research: Harnessing Artificial Intelligence to Meet Global Challenges"，探讨了人工智能（AI）在科研领域的应用潜力以及如何负责任地利用AI技术解决全球性挑战。

一、引言
本报告由美国总统约瑟夫·拜登的总统科学和技术顾问委员会（PCAST）编写，旨在全面分析并探讨人工智能（AI）在促进研究以解决重大社会和环境挑战方面的潜力和机遇。PCAST作为一个由28名国内学术、政府和私营部门思想领袖组成的联邦咨询委员会，负责向总统提供关于科学、技术和创新政策的建议，以及关于影响经济、工人赋权、教育、能源、环境、公共卫生、国家和国土安全、种族平等等领域的科学和技术信息的咨询。
二、报告背景
报告的背景源于拜登总统对安全、可靠和可信赖的人工智能发展的重视，以及他签署的关于人工智能安全、可靠和可信赖发展的具有里程碑意义的行政命令。PCAST响应这一行政命令，致力于探索和研究AI在推动科学研究以应对全球挑战方面的能力。
三、AI在科研中的潜力
提高研究效率：AI技术能够加速数据处理和分析，帮助科学家从庞大的数据集中提取有价值的信息，从而提高研究效率。
创新研究方法：AI算法能够模拟和预测复杂系统的行为，为科学研究提供新的视角和方法。
跨学科融合：AI的跨学科性质使其能够促进不同学科之间的融合，推动交叉学科研究的发展。
解决复杂问题：AI在处理复杂问题方面表现出色，如气候变化、疾病预测和治疗、能源管理等，为这些问题的解决提供了新的途径。
四、AI在应对全球挑战中的应用
气候变化：AI技术可用于气候模拟、能源效率优化和碳排放减少等领域，以支持应对气候变化的努力。
公共健康：AI在疾病预测、诊断、治疗和疫苗研发等方面具有巨大潜力，有助于提升公共健康水平。
能源管理：AI能够优化能源生产、分配和消费过程，提高能源效率，降低能源消耗和排放。
教育和工人赋权：AI技术能够推动个性化教育和学习，提升教育质量；同时，AI也促进了劳动力的数字化转型和升级，帮助工人提高技能和适应能力。
国家安全：AI在情报分析、网络防御、军事策略等方面发挥着重要作用，有助于维护国家安全和稳定。
五、挑战与建议
尽管AI在科研和应对全球挑战方面具有巨大潜力，但也面临着数据隐私、算法偏见、伦理道德等挑战。为此，PCAST提出以下建议：
加强数据隐私保护：制定严格的数据隐私法规，确保AI技术在尊重和保护个人隐私的前提下得到应用。
确保算法公平性和透明性：推动算法审计和透明性标准的制定，减少算法偏见和歧视现象。
加强伦理道德监管：建立AI伦理道德委员会，制定AI伦理道德准则，确保AI技术的研发和应用符合人类价值观和社会利益。
加强国际合作：推动国际间在AI技术、政策、伦理等方面的交流与合作，共同应对全球挑战。
六、结论
本报告全面分析了AI在促进科研和解决全球挑战方面的潜力和机遇，并提出了应对挑战的建议。PCAST坚信，通过充分发挥AI的潜力并应对相关挑战，我们能够更好地应对全球挑战，推动人类社会的可持续发展

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

生成式AI大语言模型概述

2022年，随着OpenAI推出ChatGPT，“生成式人工智能”开始进入公众视线并逐渐受到广泛关注。这种新型的AI不仅可以生成文本，还可以创建图像和视频等多类型的内容，几乎堪称“万能”。进入2023年，生成式AI的发展势头更为猛烈。

相较于过往的人工智能时代，机器学习只是在模仿人类认知世界的方式，生成式AI的出现则预示着人工智能已进入一个新纪元。在此新纪元中，机器不仅可模仿人类，更开始替代人类去创新，给社会生产力发展带来巨大推动力。

一、 基本概念

自从20世纪50年代图灵测试提出以来，人们就一直在探索让机器处理语言的可能性。机器只有理解了人类的语言，才能通过语言来学习人类文明的知识，并与人类进行有效的沟通。

语言模型是处理语言文字（或者符号体系）的AI模型，它能识别人类语言中的规律，并根据给定的提示，自动生成符合这些规律的内容。近年来，研究人员在大规模语料库上训练得到的语言模型在解决各类自然语言处理任务上展现出了强大的能力。这种模型甚至产生了一个有趣的现象：即当模型的参数规模超过一定水平时，它的性能会显著提升，并且会出现一些在小模型中不存在的新能力，比如上下文学习。为了与基于统计或神经网络的语言模型区分，这种模型被称为“大型语言模型”（Large Language Model，简称LLM）。

尽管大语言模型目前没有正式的定义，但它通常指由具有许多参数（通常数十亿个权重或更多）的人工神经网络组成语言模型，它通过处理和理解自然语言文本数据来进行预测和生成新的文本。简单地说，它就像一个掌握了多门语言的人，不仅可以理解和解释已有的文本信息，还可以根据给定的上下文环境猜测一个句子或段落接下来可能出现的内容，甚至可以自己想出新的词汇或概念。

生成式AI与大语言模型关系

图 1生成式AI与大语言模型关系

生成式AI（Generative AI 或 AIGC）是一种借助深度学习技术，基于大模型（包括但不限于语言模型）创造全新内容和想法的先进技术，可以生成全新的数字视频、图像、文本、音频或代码等内容。图像生成领域的应用包括DALL·E-2、Stable Diffusion等，自然语言处理领域的应用包括ChatGPT，代码生成领域的应用包括Github Copilot等，多媒体生成领域的应用包括MusicLM、MusicGen等。

使用大语言模型的生成式AI，可以根据输入的文本或关键词，自动生成连贯且有意义的文本，可以广泛应用在文本摘要、机器翻译、对话系统、文本生成和知识图谱等领域。

总而言之，大语言模型与生成式AI密切相关，前者为后者提供了强大的自然语言处理能力，并使得生成式AI在各种任务中表现出色。

二、 全球大语言模型总览

目前，全球领先的生成式AI大语言模型主要有OpenAI的GPT-3、GPT-4，Google 的PaLM 2、T5，Facebook 的Galactica 、LLaMA 等，这些模型都具有超大规模的参数量（从几十亿到几千亿）、支持多语言交互。基于大语言模型，部分开发机构已经构建面向消费者及行业用户的生成式AI应用，典型应用包括ChatGPT、Bard、Claude。

在中国，诸多研究机构和企业也在积极开发生成式AI大语言模型，包括北京智源人工智能研究院的悟道系列、百度的ERNIE系列、科大讯飞的星火认知大模型以及清华大学的CPM系列等。

表 1 国内外主要大语言模型

模型名称	开发机构	模型大小（训练参数）	发布时间	面向消费者的应用
国外
PaLM 2	Google	3400 亿	2023/05/10	Bard
Med-PaLM 2	Google	未知，基于PaLM 2的医疗领域语言模型	2023/03	暂无
GPT-4	OpenAI	未公开，推测为17600亿	2023/03/14	ChatGPT
LLaMA	Facebook	650亿	2023/02/24	暂无
AnthropicLM v4-s3	Anthropic	520亿	2023/01	Claude
GPT-3	OpenAI	1750亿	2020/05/28	ChatGPT
国内
WinGPT 2.0	卫宁健康	130亿，医疗领域语言模型	2023/07	暂无
悟道3.0	北京智源	未公开，2.0版本为17500亿	2023/06/10	暂无
HuatuoGPT	香港中文大学（深圳）、深圳市大数据研究院所	130亿，医疗领域语言模型	2023/5/25	华佗GPT
MedGPT	医联	1000亿	2023/5/25	暂无
星火认知大模型 V1.5	讯飞	未知	2023/06/09	星火
CPM-Bee	清华大学	100亿	2023/05/27	暂无
ERNIE 3.0 Titan	百度	2600亿	2021/12	文心一言

尽管大语言模型和生成式AI仍处于早期发展阶段，但其在医疗健康行业中的应用正在逐渐增多，潜力和影响力也在不断扩大。在临床场景，能够分析医学文献和患者信息，协助识别疾病，预测疾病风险，并定制个性化治疗计划；在患者服务场景中，可充当健康咨询师的角色，推动患者沟通，并对健康生活方式的选择提供指导；在临床研究场景中，有助于解析疾病机理，并加快新药物的开发；在管理场景中，可用于自动化处理病历管理和保险索赔等行政任务。

Google推出的医疗行业定制模型 Med-PaLM 2 ，可以从各种密集的医学文本中总结见解并回答相关问题，是第一个在美国医疗执照考试 (USMLE) 数据集MedQA 上达到“专家”应试者水平表现的大语言模型，准确率达到 85% 以上。香港中文大学（深圳）和深圳市大数据研究院发布医疗大模型 ——HuatuoGPT（华佗GPT），使语言模型在在线咨询问诊场景中，具备像医生一样的诊断能力和提供有用信息的能力，同时保持对用户流畅的交互和内容的丰富性，对话更加“丝滑”。[shi1] 卫宁健康自主研发的专注医疗领域的大型语言模型 - WiNGPT，支撑七大基础任务（问答、多轮对话、信息提取、标准化、文本相似度计算、摘要、分类、生成）以及超过20个子任务。WiNGPT将以Co-Pilot诊断辅助模式融合到数字化医疗系统WiNEX中，提供全景式、沉浸式的智能应用，如在健康体检场景中，WiNGPT可以对体检记录进行剖析，自动生成总体检查报告和健康指导建议；在影像检查场景中，WiNGPT可以解析患者的多次检查影像及相关报告，自动产出疾病进展分析和预测。

三、 生成式AI市场及投融资现状

据《福布斯》报道，全球人工智能投资从 2015 年的 1275 万美元飙升至 2021 年的 935 亿美元。进入2023年，尽管全球风险投资势头低迷，但生成式AI的蓬勃发展吸引了大量投资。市场分析公司PitchBook Data数据显示，仅在2023年第一季度，生成式AI初创企业的融资规模就达到了2022年全年投资资金的四倍， 2023年底将达到426亿美元，到2026年将达到981亿美元。另外，IDC预计，2026年中国人工智能市场总规模预计将超264.4亿美元。

科技巨头也在生成式AI领域展开竞争、进行大规模投资，并对初创公司进行积极收购或建立合作关系，以便跟上AI新时代的步伐。微软于2023年1月向OpenAI投资了100亿美元；谷歌于2023年2月向Anthropic（Claude的开发商）投资了约3亿美元；大数据公司Databricks在2023年6月以13亿美元收购了生成式AI初创公司MosaicML。

随着生成式AI大语言模型的训练和使用成本的迅速降低，众多AI研究人员从学术界转向初创公司，投入到模型和产品的开发中，受到了大量投资机构和资本的青睐。Stability（Stable Diffusion的开发商）于2022年10月完成了1亿美元的融资，百川智能于2023年获得了5000万美元的天使轮融资，光年之外于2023年获得了3亿美元的融资。

值得注意的是，垂直行业大模型市场正在成为一个重要的机会所在，Google、Facebook以及国内外的医疗信息化厂商都在积极开展面向医疗行业的专用大语言模型的训练。

四、 大语言模型技术机制与流派

大语言模型的强大力量在很大程度上归功于它们使用的Transformer模型架构和注意力机制，这种架构和机制使得这些模型能够理解并生成复杂的文本内容。值得一提的是，这些大语言模型在训练时，会处理数以百亿计的语料库，包括各种各样的书籍、文章、网站和其他形式的文本。这样，模型就能够学习到各种语言模式，包括语法、词汇、习语，和各种真实事件（事实型知识）和常识性知识。而且，这些模型都经过了精细的训练和调整，以确保它们在实际应用中能够生成准确、连贯、自然的文本。

Transformer模型由“编码器（Encoder）”和“解码器（Decoder）”两部分构成。编码器部分主要负责理解输入的文本，并为每个输入构建相应的语义表示。解码器部分则负责产生输出，它利用编码器输出的语义表示和其他输入信息来生成目标输出序列。根据Transformer模型中编码器和解码器模块的注意力机制模式不同，目前的大语言模型主要可以划分为三类：编码器架构（Encoder-Only）、解码器架构（Decoder-Only）和编码器-解码器架构（Encoder-Decoder）。

图 2 大语言模型演化树

编码器架构：以Google BERT (Bidirectional Encoder Representations from Transformers)为代表，它在训练时考虑了上下文的双向信息，因此能够更好地理解语言的语义。适用于文本分类、命名实体识别等场景。

解码器架构：以OpenAI GPT (Generative Pre-training Transformer) 为代表，它在训练时只考虑上下文的单向信息，但是在生成文本时却有很好的连贯性。适用于文本生成、对话等场景。

编码器-解码器架构：以Google T5 (Text-to-Text Transfer Transformer) 为代表，这种架构结合了编码器和解码器的优点，通常用于序列到序列的任务。适用于机器翻译、文本摘要等场景。缺点是模型的复杂度较高，需要更多的计算资源和训练时间。

今年以来，对大语言模型的高效参数微调以及特定领域数据的训练，使得其计算效率和数据利用效率得到了显著提升，在各行业领域的应用中也取得了广泛的好评。2023年3月发布的PaLM-E模型更是揭示了大语言模型的发展趋势，即通过视觉、多模态和多任务训练来拓展其能力，预示着更多突破想象的"类人脑"人工智能应用的崭新可能性。

在医疗这样一个数据密集型的行业，大语言模型和生成式AI已经展现出不可忽视的前景。我们深信，随着这些先进技术与医疗场景、流程的深度融合，我们将迈入一个由AI驱动的智慧医疗新时代。