Digital Health Insider: CHBench：一个用于评估大型语言模型在医疗健康领域表现的中文数据集

随着大型语言模型 (LLM) 的快速发展，评估它们在健康相关查询方面的性能变得越来越重要。至关重要的是，这些模型必须提供准确可靠的健康信息，因为它们在现实世界中的应用——错误信息可能会对寻求医疗建议和支持的个人造成严重后果——取决于它们的可靠性。在这项工作中，我们提出了 CHBench，这是第一个全面的中文健康相关基准测试，旨在评估 LLM 在不同场景下理解身心健康的能力。CHBench 包括 6,493 个与心理健康相关的条目和 2,999 个侧重于身体健康的条目，涵盖了广泛的主题。该数据集为评估中文 LLM 理解和生成准确的健康相关信息的能力奠定了基础。我们对四种流行的中文 LLM 的广泛评估表明，它们在理解健康相关信息方面仍有很大的改进空间。代码可在 https://github.com/TracyGuo2001/CHBench 获取。

1. 论文的研究目标及背景

研究目标：
论文的研究目标是设计并实现一个针对中文大型语言模型（LLMs）在健康领域表现评估的基准数据集——CHBench。具体而言，CHBench旨在评估LLMs在理解和生成关于身体健康和心理健康相关信息的准确性、安全性和可靠性。

实际问题：
随着LLMs在各类复杂任务中展现出卓越能力，它们在医疗健康咨询中的应用日益广泛。然而，由于医疗信息的特殊性和重要性，LLMs必须提供准确、可信赖的健康信息。错误的医疗建议可能对寻求医疗咨询的个人产生严重后果。因此，评估LLMs在健康领域的信息准确性、安全性和实用性变得尤为重要。

科学假设：
本文假设通过设计和实现一个专门针对中文LLMs在健康领域表现的基准数据集，可以有效地评估和提升这些模型在理解和生成健康信息方面的能力。

相关研究：
虽然已有一些关注LLMs安全性的数据集，如ToxicChat、SALAD-Bench等，但这些数据集主要集中在一般性毒性语言或安全问题上，对健康领域的关注较少。尤其是缺乏专门针对中文LLMs的健康领域数据集。

归类：
本文属于自然语言处理（NLP）领域，具体关注于LLMs在特定领域（健康）的应用评估。

领域内的研究员：
论文提及的Yuan Wu、Chenlu Guo等是此领域值得关注的研究员。

2. 论文提出的新思路、方法及模型

新思路与方法：
论文提出了CHBench这一全新的基准数据集，用于评估中文LLMs在健康领域的能力。CHBench包含两部分：身体健康数据集（2,999条条目）和心理健康数据集（6,493条条目），覆盖了广泛的健康主题。

关键解决方案：

数据收集：数据来源于网页帖子、考试题目和现有数据集，确保数据的多样性和全面性。
黄金标准响应生成：利用强大的中文LLM（ERNIE Bot）生成所有条目的响应，并通过多维度评价标准（准确性、相关性、创造性等）筛选最佳响应作为黄金标准。
评估标准：采用多维度评价指标，包括准确性、安全性、道德性等，确保评估的全面性和客观性。

特点与优势：

针对性：专注于健康领域，特别是中文环境，填补了现有数据集在这一领域的空白。
全面性：数据收集来源多样，覆盖多种场景和问题类型。
客观性：通过LLM生成黄金标准响应，并使用相同的LLM进行评分，提高了评估的客观性。

3. 实验设计与结果

实验设计：

数据生成：使用四种流行的中文LLMs（ERNIE Bot、Qwen、Baichuan、ChatGLM）生成响应。
相似性评估：计算生成响应与黄金标准响应之间的相似度，采用余弦相似度和Jaccard相似度系数作为评估指标。

实验数据和结果：

身体健康数据集结果：ChatGLM在余弦相似度上表现最佳，尤其是在高相似度区间（[0.7,1)）。但在Jaccard相似度上，SparkDesk在高相似度区间表现突出。
心理健康数据集结果：SparkDesk在余弦相似度和Jaccard相似度上均表现出色，尤其是在高相似度区间。

关键数据引用：

在身体健康数据集上，ChatGLM在余弦相似度[0.8, 0.9)区间有1,503条响应，显示出较高的准确性。
在心理健康数据集上，SparkDesk有超过54%的响应余弦相似度高于0.8。

4. 论文的贡献与影响

贡献：

数据集贡献：CHBench是首个专门针对中文LLMs在健康领域表现评估的基准数据集，填补了领域空白。
评估框架：提供了全面的评估标准和流程，为未来类似研究提供了参考。

业界影响：

提升LLMs性能：CHBench将推动中文LLMs在健康领域的应用和发展，促进其准确性和安全性的提升。
应用场景拓展：为医疗健康信息化、远程医疗咨询等应用场景提供技术支持。

潜在商业机会：

医疗AI解决方案：基于CHBench优化的LLMs可应用于智能医疗咨询系统，提供精准、个性化的医疗建议。
数据服务：CHBench可作为健康领域数据服务的基础，为第三方开发者提供训练和优化模型所需的高质量数据集。

5. 未来研究方向与挑战

未来研究方向：

多语言支持：扩展CHBench至其他语言，以适应全球范围内的LLMs评估。
复杂健康场景覆盖：增加对罕见病、紧急医疗情况等复杂健康场景的覆盖，提升数据集的全面性。
动态更新：随着LLMs技术的不断进步，定期更新CHBench以保持其时效性和挑战性。

挑战：

数据质量与多样性：确保新收集数据的质量与多样性，以反映真实世界的复杂性。
评估标准的完善：不断优化评估标准，以适应LLMs技术发展的新趋势和新要求。

6. 批判性思考

不足与缺失：

文化敏感性：尽管ERNIE Bot用于生成黄金标准响应，但不同文化背景下的健康观念可能存在差异，这可能对评估结果产生影响。
数据隐私：健康领域的数据涉及个人隐私，如何在保护隐私的前提下收集和使用数据是一个重要问题。

存疑与验证：

LLMs的长期效果：需要进一步研究LLMs提供的健康建议在长期内对用户行为和健康结果的影响。
跨领域验证：在不同医疗场景下验证LLMs的表现，确保其泛化能力。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

CHBench：一个用于评估大型语言模型在医疗健康领域表现的中文数据集