SemioLLM：评估大型语言模型在癫痫研究中进行符号学分析的能力

大型语言模型已展现出编码一般医学知识的能力，在标准医学问答数据集中取得了可喜的成果。然而，要将其应用于临床实践，还需要在特定领域的任务中进行评估，而目前相关基准测试还很缺乏。本研究 (semioLLM) 旨在评估当前最先进的 LLMs（GPT-3.5、GPT-4、Mixtral8x7B 和 Qwen-72chat）利用自身知识和推理能力进行癫痫诊断的效果。具体而言，我们使用一个包含 1269 个条目的临床标注数据库，获得了将癫痫发作的非结构化文本描述与致痫脑区相关联的可能性估计。我们还将 LLMs 的性能、置信度、推理能力和引用能力与临床评估结果进行了比较。研究发现，在经过提示工程的优化后，模型的分类性能显著提升，部分模型甚至达到了接近临床医生的水平，显示出 LLMs 能够有效利用患者病史中的非结构化文本信息辅助诊断。然而，分析也揭示了一些问题，例如部分模型表现不佳却过于自信，以及出现引用错误和“幻觉”等现象。总之，本研究首次对当前最先进的 LLMs 在癫痫领域的应用进行了全面评估，并强调了其在利用患者病史信息辅助诊断方面的潜力。

1. 论文研究目标

论文《SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research》的主要研究目标是评估当前最先进的大型语言模型（LLMs）在癫痫研究中的符号学分析能力。具体来说，作者希望通过测试LLMs能否利用其内部知识和推理能力，从非结构化文本描述中推断出癫痫发作的起始区域（SOZ），从而提高癫痫诊断的准确性。

解决的实际问题

癫痫是一种影响全球约7000万人的慢性神经系统疾病，其中约三分之二的患者患有局灶性癫痫，其症状与大脑中特定的癫痫发作起始区域（SOZ）密切相关。对于药物难治性癫痫患者，手术切除SOZ是唯一可能治愈的疗法。因此，准确、自信地估计SOZ对于制定手术方案至关重要。然而，传统方法依赖医生的主观判断和经验，缺乏客观、标准化的评估手段。

是否是新问题

该问题并非全新，但使用大型语言模型进行癫痫诊断的符号学分析是一个相对较新的尝试。尽管LLMs在医学问答数据集上已表现出编码一般医学知识的能力，但在特定临床领域（如癫痫）的系统评估尚显不足。

对产业发展的重要意义

随着AI技术在医疗领域的广泛应用，利用LLMs提高诊断效率和准确性成为重要研究方向。该研究的成功实施不仅能为癫痫患者提供更精准的治疗方案，还能推动AI技术在其他复杂疾病诊断中的应用，促进医疗信息化和智能化的发展。

2. 论文思路与方法

论文提出了使用四种最先进的LLMs（GPT-3.5、GPT-4、Mixtral 8x7B、Qwen-72chat）对癫痫患者的非结构化症状描述进行分析，以预测可能的SOZ。关键步骤包括：

数据预处理：使用Semio2Brain数据库，该数据库包含4643名患者的癫痫发作描述，并将其映射到七个主要脑区。
任务定义：将LLMs的任务定义为给定一个症状描述，预测每个脑区作为SOZ的可能性。
提示策略：设计了五种提示策略（零样本、少样本、思维链、少样本思维链、自洽性），以探索不同提示方式对模型性能的影响。

解决方案的关键

解决方案的关键在于通过精细设计的提示策略引导LLMs利用其内部知识和推理能力进行准确的SOZ预测。同时，通过评估模型的正确性、置信度、推理能力和引文能力，全面评估其在癫痫诊断中的潜在应用价值。

特点与优势

与之前的方法相比，该研究的特点与优势在于：

系统性评估：首次对多种LLMs在癫痫领域的符号学分析能力进行了系统性评估。
精细提示策略：设计了多种提示策略，显著提高了模型性能，尤其是思维链和自洽性提示策略。
临床验证：不仅与临床医生的判断进行了对比，还使用了标注数据集作为真值进行验证，增强了结果的可信度。

3. 实验设计

论文通过以下实验验证所提出方法的有效性：

正确性评估：使用多类评估指标（精确率、召回率、F1分数）来评估模型预测的SOZ与实际SOZ的一致性。
置信度评估：使用香农熵来近似模型的置信度，分析模型在不同提示策略下的置信水平。
临床评估：邀请临床医生对模型生成的推理和引文进行正确性、完整性和准确性评估。

实验数据与结果

正确性评估结果：如表1所示，所有模型在零样本提示下性能较低，但通过更复杂的提示策略（如少样本思维链和自洽性），性能显著提升。GPT-4在自洽性提示下取得了最高的F1分数（53.78%），接近临床医生的评估结果（49.07%）。
置信度评估结果：如图3所示，随着提示策略的复杂化，模型的置信度逐渐增加。然而，一些模型（如GPT-3.5和Qwen-72B）表现出高置信度但低正确性的现象。
临床评估结果：GPT-4在引文准确性（83.33%）和推理正确性（55.17%）方面表现优异，而Mixtral 8x7B则表现出引文错误和推理不完整的倾向。