探索 ChatGPT 对传统中医知识的理解和掌握能力

背景：大语言模型（LLMs）已经展示了在医疗领域等多个领域中理解和生成自然语言的令人印象深刻能力。然而，之前没有研究探索 LLMs 在传统中医领域中的性能。为了弥合这个差距，我们创建了一个名为 TCM-QA 的 TCM 问题数据集，旨在检查 LLM 在 TCM 领域中的知识回忆和综合推理能力。

方法：我们评估了 LLM 的两个设置：零样本设置和少样本设置，并讨论英语和中文提示之间的差异。

结果：我们的结果表明，ChatGPT 在真假题中表现最好，而在多选题中获得最低的精度。此外，我们发现中文提示优于英语提示。此外，我们还评估了 ChatGPT 生成的解释的质量及其对 TCM 知识理解的潜在贡献。

结论：我们的研究为 LLMs 在专业领域中的应用提供了有价值的见解，并为未来研究在利用这些强大的模型来推进 TCM 的发展铺平了道路。

一、研究目标及实际问题

研究目标：论文旨在探索大型语言模型（LLMs）特别是ChatGPT在理解传统中医（TCM）知识方面的性能，并评估其在中医药知识问答垂直领域的表现。

实际问题：当前缺乏针对TCM领域的LLMs性能研究，TCM作为独特的医学分支，拥有丰富的历史和知识体系，亟需现代技术助力其知识的传承与普及。

产业意义：该研究不仅为LLMs在专业医学领域的应用提供见解，也为TCM知识的现代化和国际化发展奠定基础，具有重要的产业价值和学术意义。

新思路：论文提出了一个名为TCM-QA的TCM问题数据集，涵盖了单选题、多选题和判断题三种类型，旨在评估LLMs在TCM领域的知识召回和综合推理能力。

方法：研究评估了ChatGPT在零次学习和少次学习两种设置下的性能，并比较了中英文提示下的差异。

模型特点：通过针对性设计的TCM问题数据集和多种提示策略，论文能够准确评估LLMs在特定医学领域的知识理解能力，为未来的模型优化和应用提供了方向。

实验设计：通过自动和手动评价相结合的方式，对ChatGPT在TCM-QA数据集上的表现进行了全面评估。自动评价以精确度和响应性为指标，手动评价则聚焦于生成解释的可读性、可靠性和完整性。

关键数据：

结果分析：实验结果表明，ChatGPT在TCM领域展现了一定的知识理解能力，但仍有提升空间。中文提示的效果优于英文提示，可能与TCM知识的语言文化背景相关。

产业影响：

商业机会：

值得探索的问题：

挑战：

不足：

进一步验证：

启发：

建议：

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.