TCMD：一个用于评估大型语言模型的中医问答数据集

大型语言模型的最近突破性进步推动了医疗社区的发展，建立了先进的医疗领域模型。但是，医疗数据集的稀缺限制了该领域的评估。为了解决这个问题，我们推出了一个新的中医问答数据集 TCMD，包含大量手动指令以解决中医考试任务。我们的数据集涵盖了多个领域的巨量问题，并附带了注释的医疗主题，从而支持我们全面评估大型语言模型在中医领域的能力。我们对各种语言模型进行了广泛的评估，并分析了它们在解决中医问答任务中的鲁棒性。实验结果表明，当前语言模型在解决问答任务中仍然存在不足之处。我们期望我们的数据集能够促进中医领域语言模型的发展。

1. 研究目标及实际问题

研究目标：本文本文的研究目标是构建一个新的医疗问答数据集TCMD，用于评估大型语言模型（LLMs）在中医领域的能力。

实际问题：由于缺乏全面的医疗数据集，当前LLMs在医学领域的发展受到一定限制。特别是中医领域，缺乏针对LLMs能力评估的专用数据集。

问题的重要性：评估LLMs在中医领域的能力对于推进医疗信息化和人工智能技术具有重要意义，有助于发展更加智能的医疗助手系统，提升医疗服务的质量和效率。

2. 新思路、方法及模型

新思路：论文提出了使用来自中医国家医师资格考试的多项选择题构建QA数据集TCMD，以客观评估LLMs在中医领域的性能。

方法：收集并整理了中医领域的多项选择题及其解释，对问题进行了过滤和组织，以确保数据集覆盖了考试手册中提到的所有科目。

模型关键：关键在于数据集的构建过程，包括问题的收集、验证、去重、分组和专家检查等步骤，确保了数据集的专业性和质量。

特点与优势：与以往方法相比，TCMD数据集更加全面和系统，涵盖了中医领域的多个方面，为LLMs在中医领域的能力评估提供了更加客观和全面的标准。

3. 实验设计与结果

实验设计：实验选择了多种LLMs模型，包括通用模型、医学领域模型和中医领域模型，在TCMD数据集上进行了测试。采用了In-Context Learning和Chain-of-Thought两种提示方法，并通过准确性作为评价指标。

实验数据：实验结果显示，通用LLMs在整体性能上优于医学和中医领域模型。Moonshot-v1-8k使用Chain-of-Thought方法取得了最高分数。

结果支持：实验结果很好地支持了论文的科学假设，即使用TCMD数据集可以有效地评估LLMs在中医领域的能力。

4. 论文贡献及影响

论文贡献：

构建了一个全面评估LLMs在中医领域能力的新数据集TCMD。
通过实验分析了不同类型LLMs在TCMD数据集上的性能表现。
提出了评估LLMs鲁棒性的新方法，即通过检查模型在面对选项随机打乱的问题时的一致性。

影响：TCMD数据集的构建将为中医领域LLMs的开发和评估提供重要支持，推动医疗信息化和人工智能技术在中医领域的应用和发展。潜在应用场景包括智能中医助手、中医知识问答系统等。

工程师关注点：作为工程师，应关注数据集构建的技术细节、LLMs模型的选择和优化、实验设计和评价方法等方面。

5. 未来探索与挑战

未来探索：未来研究可进一步探索如何提升LLMs在中医领域的性能，包括改进模型架构、优化训练数据、开发更有效的提示方法等。

挑战：面临的挑战包括数据集的持续更新和维护、LLMs对中医专业知识的理解和应用能力提升、模型鲁棒性和一致性的增强等。

新技术与投资机会：随着LLMs在中医领域的应用不断深入，预计将催生出更多与智能医疗相关的技术和投资机会，如基于LLMs的智能中医诊疗系统、中医知识图谱构建等。

6. 不足与存疑

不足：论文中未深入讨论TCMD数据集在实际应用场景中的具体表现，以及对LLMs模型训练和改进的直接影响。

存疑：虽然Chain-of-Thought方法在某些模型上取得了较好效果，但其在中医领域的适用性和有效性仍有待进一步验证。

7. 启发与背景知识

启发：作为非技术背景的读者，可以从本文中了解到LLMs在医疗领域应用的潜力和挑战，以及数据集构建在模型评估中的重要性。

背景知识：建议补充了解中医基础知识、医疗信息化和人工智能技术的基本概念和应用场景等方面的知识，以便更好地理解论文内容和相关领域的发展趋势。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.