Digital Health Insider

EyeGPT：眼科智能助手——基于大语言模型的眼科诊疗辅助系统

人工智能在医疗咨询中的应用备受关注，因为它可以提高临床工作效率和改善医患沟通。然而，大型语言模型如果仅靠一般知识训练，可能无法满足眼科等专业领域的需求。为此，我们开发了一种专门为眼科设计的大型语言模型EyeGPT，采用三种优化策略：角色扮演、微调和增强生成。我们还设计了一个全面的评估框架，涵盖眼科多个 subspecialties、不同用户和多样化的询问意图，并考察了多个评估指标，包括准确性、可理解性、可靠性、同情心和幻觉的比例。通过对不同EyeGPT变体的评估，我们确定了最有效的一种，其表现出与人类眼科医生相似的可理解性、可靠性和同情心。我们的研究结果为未来研究提供了有价值的参考，旨在促进眼科领域中开发专门大型语言模型的研究和应用，提高眼科护理的患者体验和优化眼科医生的服务。

一、研究目标及实际问题

研究目标：本研究旨在通过引入专业化的大型语言模型（LLM）EyeGPT，专门解决眼科领域的临床咨询和交流问题，提高眼科医生的工作效率和患者满意度。

实际问题：传统的眼科咨询过程中存在患者眼科知识有限、初级医疗保健提供者经验不足等问题，导致患者就医效率低下，且往往需要通过多次面诊才能解决问题。随着人口老龄化趋势的加剧，眼科医生的数量增长无法跟上患者需求的增加，因此需要借助AI技术优化眼科诊疗流程。

重要意义：通过AI技术改善眼科诊疗流程，不仅可以提高患者就医体验，还能优化眼科医生的服务质量，进一步推动医疗信息化和智能化的发展。

二、新思路、方法或模型

EyeGPT模型：研究提出了一个基于Llama2基础模型优化的眼科专用LLM——EyeGPT。通过角色扮演、微调和检索增强生成（RAG）三种策略，将通用LLM转变为具有眼科专业知识的模型。

特点与优势：

角色扮演：使模型能够以眼科医生的身份与患者或医疗学生进行交流，增强回答的针对性和同理心。
微调：使用眼科领域数据集对模型进行训练，使其能够准确理解并回答眼科相关问题。
检索增强生成：结合外部眼科知识库，提升模型回答的准确性和权威性。

三、实验设计与验证

实验设计：通过构建一套包含120个眼科相关问题的评估数据集，对EyeGPT的不同变体进行评估，包括原始模型、仅角色扮演、不同迭代次数的微调模型以及结合RAG的模型。评估指标包括准确性、可理解性、可信度和同理心等。

关键数据：实验结果显示，经过微调和RAG优化的EyeGPT模型在各项指标上均显著优于原始模型。特别是Best-finetune+book模型，在总体评分上达到了最高分15.14，显示出与眼科医生相当的同理心水平（90.8%）。

四、研究成果与影响

产业影响：EyeGPT的研究为眼科AI助理的开发提供了新的思路和方法，有望在未来推动眼科诊疗的智能化和个性化。

应用场景：EyeGPT可应用于在线眼科咨询、远程医疗、患者教育等多个场景，为患者提供高效、便捷的眼科服务。

商业机会：随着眼科AI助理的普及和应用，将催生出一系列与眼科AI相关的产品和服务，如眼科AI训练平台、眼科知识库建设等，为技术提供商和医疗服务提供商带来新的商机。

五、未来探索与挑战

值得探索的问题：

如何进一步提高EyeGPT模型的准确性和泛化能力？
如何将EyeGPT模型应用于更多复杂的眼科场景中？
如何结合更多模态的信息（如图像、视频等）来提升眼科AI助理的性能？

面临的挑战：

数据集的规模和多样性是限制模型性能的重要因素之一。
眼科知识的专业性和复杂性给模型的训练和优化带来了挑战。
隐私和伦理问题是AI在医疗领域应用时需要考虑的重要方面。

六、论文不足与存疑

不足：尽管EyeGPT在眼科问题上表现出良好的性能，但在某些罕见或复杂疾病上的表现还有待提高。此外，实验数据主要来自公开数据集，可能与真实世界的场景存在一定差异。

存疑：模型在实际应用中的稳定性和可靠性需要进一步验证。此外，模型在处理隐私敏感信息时的安全性也是未来研究需要考虑的重要方面。

七、非技术背景读者的启示与背景知识补充

启示：作为非技术背景的读者，可以从这篇论文中了解到AI技术在医疗领域应用的潜力和挑战。通过深入了解EyeGPT模型的设计思路和实现方法，可以对AI在医疗信息化和智能化中的作用有更清晰的认识。

背景知识补充：

大型语言模型（LLM）：是一种基于深度学习技术的自然语言处理模型，能够理解和生成人类语言文本。
微调（Finetuning）：是一种常用的模型优化方法，通过在特定任务的数据集上重新训练模型参数，使其能够适应特定任务的需求。
检索增强生成（RAG）：是一种结合外部知识库和自然语言生成技术的方法，可以提高模型回答问题的准确性和权威性。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

SoftTiger：医疗工作流程的智能基础模型，推动医疗服务的自动化和智能化

我们开发了一个叫做SoftTiger的临床大型语言模型（CLaM）。这个模型主要是为医疗保健行业设计的。通常，医生的临床记录都是比较随性且没有固定格式的，这阻碍了医疗智能化的发展。为了解决这个问题，我们参考了国际标准，把这些凌乱的记录转化成了规范的临床数据。我们专注于三个核心任务：国际患者摘要、临床印象以及医疗就诊，并为此收集和标注了相关数据。利用这些数据和现有的先进技术，我们进一步优化了模型。经过这样的训练，SoftTiger不仅能处理基础的临床任务，如缩写扩展和时间信息提取，还能进行更复杂的临床分析。在医疗环境中，我们还解决了一些建模上的挑战，如处理超长文本的问题。经过与其他模型的对比测试，SoftTiger的表现优于许多知名开源模型和GPT-3.5，与Gemini-pro不相上下，只是稍逊于GPT-4。我们相信，这类大型语言模型将推动医疗的数字化和普及化。为此，我们公开了130亿和700亿两种参数规模的SoftTiger模型，还分享了我们的数据集和评估代码，希望为医疗行业做出实质性的贡献。

一、研究目标及实际意义

研究目标

SoftTiger论文的研究目标是开发一个临床大型语言模型（CLaM），旨在成为医疗工作流程的基础模型。它试图解决临床笔记的叙事性和非结构化特性对医疗智能化的主要障碍，即将临床笔记结构化为符合国际互操作性标准的临床数据。

实际意义

随着医疗数据量的激增，非结构化的临床笔记成为信息提取和智能化分析的主要瓶颈。SoftTiger通过结构化临床数据，为提升医疗质量、降低医疗错误、优化患者护理路径提供了重要支撑。同时，这一问题的解决对于推动医疗行业的数字化转型和民主化具有深远意义。

二、新的思路、方法或模型

提出的模型

SoftTiger模型是一个临床大型语言模型（CLaM），它基于先进的LLM（大型语言模型）进行微调，并特别针对医疗领域进行了优化。该模型不仅支持基本的临床任务，如缩写扩展和时间信息提取，还能执行更复杂的下游临床任务。

特点与优势

长上下文窗口处理：SoftTiger能够有效处理长达8k令牌的上下文窗口，解决了传统LLM在处理长文本时的局限性。
医疗特定术语理解：通过临床数据微调，SoftTiger能够更好地理解医疗特定术语和缩写，提高了信息提取的准确性。
可伸缩性：SoftTiger以不同参数规模（13亿和70亿参数）发布，为不同应用场景提供了灵活选择。

三、实验设计与结果

实验设计

盲对评估：通过盲对评估，比较SoftTiger与其他流行模型（包括GPT-3.5和Gemini-pro）在处理临床笔记结构化任务时的性能。
ChatBot Arena评估：使用一个类似“ChatBot竞技场”的环境，以Azure OpenAI GPT-4作为“法官”，评估SoftTiger在处理患者临床摘要任务时的表现。

实验数据与结果

盲对评估结果：SoftTiger在性能上优于其他开源模型，与Gemini-pro相近，与GPT-4的差距较小。
ChatBot Arena结果：SoftTiger在患者临床摘要任务中显示出较高的准确性和有用性，特别是在帮助医生减轻认知负担和提高工作效率方面。

四、业界影响与应用前景

潜在应用场景

电子病历自动化：通过SoftTiger自动化提取和结构化电子病历中的关键信息，提升医疗数据的质量和可用性。
临床决策支持：基于SoftTiger的结构化数据，开发临床决策支持系统，为医生提供准确的诊断建议和治疗方案。
患者关怀优化：通过患者信息的结构化分析，优化患者护理路径，提升患者满意度和医疗效果。

商业机会

随着SoftTiger等先进模型的推出，医疗信息化和智能化的需求将进一步增长，为相关技术和解决方案提供商带来巨大商机。

五、未来探索与挑战

值得探索的问题

模型优化：进一步提升SoftTiger在特定临床任务上的性能，如罕见疾病诊断、个性化治疗方案制定等。
多语言支持：扩展SoftTiger对多种语言的支持，以适应全球医疗市场的需求。

面临的挑战

数据隐私与安全：在处理医疗数据时，如何确保数据的隐私性和安全性是一个重要挑战。
模型可解释性：提高模型的可解释性，以获得医生和患者的信任，是医疗AI领域共同面临的问题。

六、批判性思考

不足与缺失

尽管SoftTiger在性能上取得了显著进步，但仍存在一些不足，如模型在某些复杂场景下的泛化能力有限，以及对某些特定医疗术语的理解仍不够深入。

需要验证与存疑

实际应用效果：需要进一步在实际临床环境中验证SoftTiger的效果和可行性。
长期影响评估：需要对SoftTiger等医疗AI技术的长期影响进行评估，以确保其对社会和医疗体系的积极影响。

七、对非技术背景读者的启示与建议

从论文中学到的知识

医疗信息化的重要性：通过结构化临床数据，可以提升医疗质量、降低医疗错误，为患者提供更好的护理。
AI技术在医疗领域的应用潜力：SoftTiger等先进模型为医疗AI的发展提供了重要支撑，未来将在医疗领域发挥更加重要的作用。

需要补充的背景知识

医疗信息化基础知识：了解电子病历、临床决策支持系统等基本概念。
大型语言模型（LLM）原理：了解LLM的工作原理、应用场景和局限性。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

AutoRD：罕见疾病知识图自动构建系统——基于大语言模型和本体论技术的端到端解决方案

目标：我们的目标是创建一个名为AutoRD的端到端系统，该系统自动从临床文本中提取罕见疾病信息。我们已经进行了各种测试来评估AutoRD的性能，并在本文中突出了其优势和局限性。

材料和方法：我们的系统AutoRD是一个软件管道，涉及数据预处理、实体提取、关系提取、实体校准和知识图构建。我们使用大语言模型和来自开源医疗本体论的医疗知识图来实现这一点。我们对实体提取、关系提取和知识图构建的性能进行了定量评估。

结果：AutoRD获得了总体F1分数为47.3%，比基本LLM提高了14.4%。具体来说，AutoRD获得了总体实体提取F1分数为56.1%（罕见疾病：83.5%，疾病：35.8%，症状和体征：46.1%，代词：67.5%），总体关系提取F1分数为38.6%（产生：34.7%，增加风险：12.4%，是：37.4%，是缩写：44.1%，是同义词：16.3%，代词：57.5%）。我们的定性实验也表明，知识图构建的性能是可嘉的。

讨论：AutoRD展示了大语言模型在罕见疾病检测中的潜力。这种改进归因于多种设计，包括本体论增强LLM的集成。

结论：AutoRD是一个自动的端到端系统，用于从文本中提取罕见疾病信息以构建知识图。它使用本体论增强LLM来建立一个可靠的医疗知识库。AutoRD的优越性能通过实验评估得到了验证，展示了大语言模型在医疗保健中的潜力。

一、研究目标与实际意义

研究目标

本论文的研究目标是开发一个名为AutoRD的自动端到端系统，旨在从临床文本中自动提取罕见疾病信息，并基于这些信息构建罕见疾病的知识图谱。

实际意义

罕见疾病由于发病率低，常常缺乏足够的医学知识和治疗手段。AutoRD系统能够自动提取和分析罕见疾病的相关文本信息，为医生提供更为全面的罕见疾病知识，加快诊断过程，并可能促进新治疗方法的发现。此外，构建罕见疾病知识图谱对于促进全球范围内的医疗知识共享具有重要意义。

二、新思路、方法与模型

提出的新思路

AutoRD系统整合了大型语言模型（LLMs）和医学知识图谱，利用本体（ontologies）增强的LLMs提升医学知识库的鲁棒性。通过数据预处理、实体提取、关系提取、实体校准和知识图谱构建等多个步骤，实现罕见疾病信息的自动提取和知识图谱的构建。

方法与模型的特点和优势

特点：

端到端自动化：系统能够自动处理文本数据，无需人工干预。
本体增强：通过整合医学本体，增强了LLMs的医学知识库，提高了信息提取的准确性。
关系提取：不仅提取实体，还分析实体之间的关系，为构建知识图谱提供基础。

优势：

高效性：自动化处理能够大大提高信息提取的效率。
准确性：本体增强的LLMs提高了医学实体和关系提取的准确性。
全面性：知识图谱的构建为罕见疾病知识提供了全面的视图。

三、实验设计与结果

实验设计

实验在RareDis2023数据集上进行，包括数据预处理、实体提取、关系提取和知识图谱构建等多个步骤。通过与BioClinicalBERT模型和基础GPT-4模型的对比，验证了AutoRD系统的性能。

实验数据与结果

关键数据：

AutoRD系统实现了47.3%的整体F1分数，比基础GPT-4模型提高了14.4%。
在实体提取方面，AutoRD系统在“rare_disease”类别上达到了**83.5%**的F1分数。
在关系提取方面，尽管整体性能略低于实体提取，但AutoRD系统仍在多个关系类型上展现了较高的F1分数。

四、业界影响与应用场景

业界影响

AutoRD系统的研究成果展示了LLMs在医疗健康领域的巨大潜力，尤其是在罕见疾病信息提取和知识图谱构建方面。该系统有望为罕见疾病研究、诊断和治疗提供有力支持。

应用场景与商业机会

应用场景：

临床辅助诊断：为医生提供罕见疾病相关信息，辅助诊断过程。
医学研究：为罕见疾病研究提供全面的知识图谱，促进新治疗方法的发现。

商业机会：

医疗信息化解决方案提供商：开发基于AutoRD系统的医疗信息化解决方案，为医疗机构提供罕见疾病信息管理服务。
数据服务提供商：利用AutoRD系统构建和维护罕见疾病知识图谱，为医药研发、临床诊断等领域提供数据支持。

五、未来探索与挑战

未来探索方向

增强LLMs的医疗理解能力：通过持续训练和优化，提升LLMs在医学领域的性能和准确性。
拓展应用领域：将AutoRD系统应用于更多医疗领域，如常见疾病诊断、患者健康管理等。

面临的挑战

数据稀缺性：罕见疾病相关文本数据相对较少，可能限制系统性能的提升。
知识图谱的维护与更新：随着医学知识的不断更新和发展，如何维护和更新罕见疾病知识图谱成为一个挑战。

六、论文不足与需要进一步验证的内容

论文不足

数据集局限性：实验仅在单一数据集上进行，可能无法全面反映系统的性能。
未考虑多种语言支持：当前系统主要针对英文文本进行处理，对于其他语言的支持有待加强。

需要进一步验证的内容

多数据集验证：在更多罕见疾病相关数据集上验证AutoRD系统的性能。
跨语言支持：扩展系统以支持多种语言，特别是医疗领域常用的语言。

七、非技术背景读者的启发与背景知识补充

启发

本文展示了AI技术在医疗健康领域的广泛应用前景。作为非技术背景的读者，可以认识到AI技术对于提高医疗效率、促进医疗知识共享等方面的重要作用。同时，也鼓励读者关注医疗健康领域与AI技术的交叉融合，发掘更多的商业机会和创新点。

背景知识补充

罕见疾病：指发病率极低的疾病，通常由于基因突变等原因引起。由于罕见性，这些疾病往往缺乏足够的医学知识和治疗手段。
知识图谱：一种以图形方式展示实体及其之间关系的知识库。在医疗健康领域，知识图谱可以为医生提供全面的疾病信息和诊断支持。
大型语言模型（LLMs）：一种基于深度学习的自然语言处理模型，能够理解和生成人类语言。近年来，LLMs在医疗健康领域的应用越来越广泛，为医疗知识的自动化提取和分析提供了新的解决方案。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.