1. 论文的研究目标、问题、假设与相关研究
这篇论文的核心研究目标是为了弥补心理健康领域缺乏标准问答(QA)基准数据集的空白,并提出一个新的、多选题形式的心理健康问答数据集 MHQA (Mental Health Question Answering),用于评估和 benchmark 语言模型(LMs)在理解和回答心理健康相关问题方面的能力。
Abstract: However, there is a lack of standard bench-marking datasets for question answering (QA) in mental health. Our work presents a novel multiple choice dataset, MHQA (Mental Health Question Answering), for bench-marking Language models (LMs).
想要解决的实际问题:
缺乏心理健康领域的 QA 基准数据集: 虽然通用医学问答领域已经存在一些数据集(如 MedMCQA, PubMedQA),但专门针对心理健康领域的、能够有效评估语言模型知识和推理能力的 QA 数据集仍然不足。 之前的心理健康数据集主要集中于文本分类任务,例如识别 Reddit 帖子中的心理健康问题,或者进行咨询对话 QA,但缺乏知识驱动型的、需要深入领域知识和推理的问答数据集。
Introduction: However, limited question types restrict the ability to comprehensively evaluate a language model. While previous mental health datasets have focused largely on counseling based QA and classification of posts from Reddit and other social platforms [...], such datasets do not address knowledge-driven question answering.
现有心理健康数据集的局限性: 已有的数据集可能存在以下问题:
- 缺乏临床或科学依据: 例如,基于社交媒体帖子的数据集可能反映的是大众的观点,而非临床或科学共识。
- 规模有限: 数据集规模较小,难以充分训练和评估大型语言模型。
- 问题类型单一: 限制了对语言模型能力的多维度评估。
这是否是一个新的问题?
在心理健康问答领域构建高质量、大规模、多样化、知识驱动的基准数据集, 可以被认为是一个新的重要问题。 尽管已经有一些心理健康相关的数据集,但 MHQA 旨在解决现有数据集的局限性,并提供更全面、更具挑战性的评估基准。
这篇文章要验证一个什么科学假设?
这篇文章主要不是验证科学假设,而是构建和评估一个新的资源。 其隐含的假设是:构建一个高质量的、多样化的心理健康问答数据集 MHQA,可以有效地 benchmark 和推动语言模型在心理健康领域的应用和发展。 通过在 MHQA 数据集上评估各种语言模型,作者旨在展示该数据集的价值和挑战性,并促进未来在该领域的研究。
有哪些相关研究?如何归类?
论文在 "Related Works" 部分详细回顾了相关的研究,主要可以归为以下几类:
心理健康文本分类数据集: 例如 CLPsych, ANGST, Dreaddit, Depression Reddit, SAD, CAMS, DATD, IMHI。 这些数据集主要用于将文本(例如,社交媒体帖子)分类到特定的心理健康类别或问题。
Related Works: Social media platforms like Reddit and their posts have been extensively used for building mental health corpus for classification. These include CLPsyc [...] for classifying into disorder or causes and ANGST [...] for comorbid anxiety and depression classification.
心理健康对话系统数据集: 例如 ConvCounsel, MentalQA, SMILECHAT, ESConv, AugESC。 这些数据集支持构建和评估心理健康对话系统,例如用于学生咨询或情感支持的聊天机器人。
Related Works: Several datasets and methods also support the development of mental health dialogue systems. ConvCounsel [...] focuses on active listening in student counseling, while MentalQA [...] provides Arabic mental health QA data. SMILECHAT [...] creates multi-turn dialogues from single-turn QA using ChatGPT.
通用医学问答数据集: 例如 TREC QA, BioASQ, PubMedQA, MedMCQA。 虽然这些数据集包含一些心理健康相关的问题,但并非专门针对心理健康领域,且问题类型和难度可能与 MHQA 不同。
Related Works: General medical QA datasets like TREC QA [...], BioASQ 2019 [...], PubMedQA [...] also include questions on mental health, even though not explicitly classified. MedMCQA [...] has a separate category for psychiatry with ~4.1k QA pairs.
如何归类?
这篇论文属于自然语言处理(NLP) 领域下的数据集构建和基准评估方向,更具体地说是生物医学文本挖掘和心理健康信息处理交叉领域的数据集研究。
谁是这一课题在领域内值得关注的研究员?
论文的作者团队来自 印度理工学院孟买分校 (Indian Institute of Technology Bombay)。 他们是构建 MHQA 数据集的核心贡献者。 此外,论文中引用的其他数据集的作者,例如 MedMCQA, PubMedQA, BioASQ, CLPsych 等数据集的作者,以及 Mental-BERT, Mental-RoBERTa, Mental-Llama 等心理健康领域模型的作者,都是值得关注的研究员。 Asma Ben Abacha 和 Dina Demner-Fushman (MedQuaD 数据集作者), Ankit Pal 和 Malaikannan Sankarasubbu (MedMCQA 数据集作者), Jenny Chim (CLPsych Shared Task 组织者), Erik Cambria 和 Shaoxiong Ji (Mental-BERT 系列模型作者) 等等,都是心理健康和生物医学 NLP 领域的活跃研究者。
2. 论文提出的新思路、方法或模型
这篇论文的核心贡献是提出了一个新的心理健康问答数据集 MHQA, 论文重点在于数据集的构建过程、特点以及在基准评估中的应用,而非提出新的模型或方法。
论文中提到的解决方案之关键是什么?
论文的“解决方案” 实际上就是 MHQA 数据集本身。 构建 MHQA 数据集 的关键步骤和创新点在于:
数据来源: PubMed 摘要。 选择 PubMed 摘要作为数据来源,确保了问题的知识性和科学性,区别于以往基于社交媒体的、可能缺乏专业知识的数据集。PubMed 摘要是经过同行评审的医学研究文献的摘要,包含了丰富的医学知识和研究成果。
Introduction: MHQA consists of questions based on abstracts of PubMed research articles on mental health. Unlike unverified content, PubMed articles are peer-reviewed and validated through proper referencing.
问题领域和类型: 四个心理健康领域 (焦虑、抑郁、创伤、强迫症) 和四种问题类型 (事实型、诊断型、预后型、预防型)。 这样的设计保证了数据集的多样性,可以更全面地评估语言模型在不同心理健康领域和不同类型问题上的能力。
Introduction: (3) The QA spans targeted domains with questions based on four aspects of mental health, namely, (i) Anxiety, (ii) Depression, (iii) Trauma, (iv) Obsessive and Compulsive issues. [...] (4) The questions span a diverse set of tasks, where each question is categorized into factoid, diagnostic, prognostic, and preventive.
自动化生成和人工验证的流程: 论文开发了一套严谨的流程来生成 QA 对,包括:
基于关键词收集 PubMed 摘要: 针对四个心理健康领域,使用专家 curated 的关键词列表从 PubMed 中收集摘要。
使用 GPT-4o-mini 生成问题和选项: 利用 LLM (GPT-4o-mini) 从摘要中提取信息,生成问题、正确答案以及三个迷惑选项。
后验过滤和验证: 使用 LLM (GPT-4o-mini) 作为 judge 来过滤不一致或无法回答的问题。
专家人工标注和验证 (MHQA-Gold): 聘请三位专业心理学家对一部分数据 (MHQA-Gold) 进行人工标注和验证,确保高质量的 gold standard 数据。
Methods: We develop a robust pipeline to convert general knowledge evidence from the given abstracts using the GPT-40-mini model into QA pairs through various criteria and post-hoc verification methodology. [...] MHQA-Gold: We employed three trained professional psychologists for data annotation and verification of the MHQA-Gold subset...
跟之前的方法相比有什么特点和优势?
知识密集型和科学严谨性: MHQA 基于 PubMed 摘要构建,问题和答案都来源于经过同行评审的医学文献,保证了数据集的知识深度和科学可靠性。 这与以往一些基于社交媒体或网络信息的心理健康数据集有显著区别。
Introduction: MHQA consists of questions based on abstracts of PubMed research articles on mental health. Unlike unverified content, PubMed articles are peer-reviewed and validated through proper referencing.
问题类型多样化: MHQA 涵盖了事实型、诊断型、预后型和预防型四种问题类型,可以更全面地评估语言模型在不同类型的心理健康问答任务中的表现。 这种多样性使得 MHQA 能够更有效地 benchmark 语言模型的推理和知识运用能力。
Introduction: (4) The questions span a diverse set of tasks, where each question is categorized into factoid, diagnostic, prognostic, and preventive. This approach enhances the dataset by including diverse tasks for reasoning and factual evaluation.
大规模数据集: MHQA 数据集包含 ~58.6k 个 QA 对 (MHQA-B) 和 2,475 个专家验证的 gold standard 数据 (MHQA-Gold), 规模较大,足以支持训练和评估各种规模的语言模型。
Introduction: MHQA dataset has the following unique features: (1) ~58.6k QA pairs, each with four options and a correct answer. (2) A subset of 2,475 QA pairs, manually annotated and verified by three human expert.
高质量的人工标注子集 (MHQA-Gold): MHQA-Gold 经过专业心理学家的人工验证,保证了 gold standard 数据的准确性和可靠性, 可以作为高质量的 benchmark 数据集来评估模型的性能。
Methods: MHQA-Gold: We employed three trained professional psychologists for data annotation and verification of the MHQA-Gold subset...
请尽可能参考论文中的细节进行分析。
论文强调 MHQA 的 rich knowledge (知识丰富性) 和 diversity (多样性)。 Rich knowledge 体现在数据集基于 PubMed 摘要,问题需要模型具备医学知识才能回答。 Diversity 体现在问题领域和问题类型的多样性。
论文详细描述了 dataset generation (数据集生成) 的流程 (Figure 2), 包括 domain decision (领域判断), question formation (问题形成), post-hoc validation (后验验证), 以及 human annotation (人工标注) 等环节。 Figure 1 给出了 MHQA 数据集的实例,展示了不同领域和类型的多选题示例。 Table 1 提供了数据集的统计信息,包括 MHQA-Gold 和 MHQA-B 在不同领域和问题类型上的分布。
3. 论文的实验验证
论文主要通过在 MHQA-Gold 数据集上 benchmark 各种语言模型来验证数据集的有效性和挑战性。
实验是如何设计的?
基线模型选择: 论文选择了多种具有代表性的语言模型作为基线模型,包括:
- Instruct 模型 (Instruction-tuned Models): Llama-3-8b, Llama-3.1-8b, GPT-3.5-Turbo, GPT-4o。 这些模型是经过 instruction tuning 的大型语言模型,擅长理解和执行指令。
- Discriminative 模型 (Discriminative Models): BERT-base, RoBERTa, BioBERT, Mental-BERT, Mental-RoBERTa。 这些模型是判别式模型,擅长分类和判别任务。 其中 Mental-BERT 和 Mental-RoBERTa 是在心理健康数据上预训练的模型。
实验设置: 论文采用了以下几种实验设置来评估模型性能:
- Zero-shot (零样本): 直接使用 prompt 让模型回答问题,不进行任何微调。
- Few-shot CoT (少样本链式思考): 使用少量示例 (3 个) 的 Chain of Thought (CoT) 提示,引导模型进行推理和回答。
- Supervised Fine-tuning (SFT) (监督微调): 使用 MHQA-B 数据集对 Discriminative 模型进行 supervised fine-tuning。
评估指标: 使用 Accuracy (准确率) 和 F1 score (F1 分数) 作为评估指标, 评估模型在多选题 QA 任务上的性能。 Table 2 和 Table 3 详细展示了不同模型在不同实验设置和不同问题类型上的 Accuracy 和 F1 score。
实验数据和结果如何?
论文给出了详细的实验结果,以下是一些关键数据和观察:
LLMs (Instruct 模型) 性能:
GPT-4o 在 zero-shot 设置下取得了最佳的整体性能 (Overall F1 score: 79.8%), 表明 GPT-4o 在 MHQA 数据集上表现出强大的知识和推理能力。
Llama-3 系列模型性能相对较弱, 表明在处理 MHQA 这种知识密集型任务时,较小的开源模型可能存在不足。 值得注意的是,Llama-3 8B 在 zero-shot 设置下性能优于 Llama-3.1 8B, 作者推测可能与模型训练方式有关。
Few-shot CoT prompting 对 GPT-4o 性能提升不明显,甚至略有下降, 而对 Llama-3.1 8B 有一定提升, 但整体提升有限。 作者分析可能是 GPT-4o 自身能力已经很强, few-shot CoT 难以进一步提升, 而对于较小的 Llama-3 8B 模型, advanced CoT 可能难以有效执行。
Results and Discussions: We observe that among various LLMS, GPT-40 shows the overall highest performance with a F1 score of 79.8% in a zero-shot setting. [...] We observe that both GPT-3.5 and GPT-40 perform better than the smaller parameter models (Llama 3/3.1 8B).
Discriminative 模型性能:
经过 SFT 微调的 BioBERT 模型取得了最佳的整体性能 (Overall F1 score: 81.0%), 甚至超过了 zero-shot GPT-4o 的性能。 表明 Discriminative 模型在经过针对 MHQA-B 数据集的微调后,能够有效地学习和利用心理健康领域的知识。
Mental-BERT 和 Mental-RoBERTa 等在心理健康数据上预训练的模型,性能并没有显著优于通用的 BERT 和 RoBERTa 模型, 作者推测可能是因为这些模型虽然在 Reddit 等数据上预训练, 但可能缺乏 MHQA 所需的 clinical knowledge。
所有 Discriminative 模型在 SFT 微调后性能都得到了显著提升 (F1 score 提升至少 40%), 表明 SFT 微调能够有效地提升模型在 MHQA 任务上的性能。
Results and Discussions: Similarly, among discriminative models, BioBERT finetuned on MHQA-B dataset ranked highest with a F1 and accuracy score of 81.0%. [...] BioBERT based SFT model was able to answer QAs more accurately compared to other discriminative models...
问题类型难度分析:
Factoid (事实型) 问题是所有问题类型中最具挑战性的, 即使是最佳模型 (ROBERTa SFT) 的 F1 score 也只有 71.5%。 表明 MHQA 数据集中 Factoid 问题需要模型具备扎实的事实性知识。
Prognostic (预后型) 和 Preventive (预防型) 问题相对容易, 模型性能较高。 作者认为这两种类型的问题都涉及对 medical outcomes 和 suggestions 的预测, LLMs 可能更擅长这类任务。
Diagnostic (诊断型) 问题性能居中, 作者认为 LLMs 在 mental health outcome prediction 和 suggestion 上表现更好, 但在 complex reasoning-based diagnostic tasks 上仍有不足。
Results and Discussions: Interestingly, factoid task has the least scores among the four. [...] Through this, we understand that factoid type poses as the most challenging variation of MHQA. [...] Among the four, prognostic type showed maximum performance followed by preventive type. [...] While diagnosis tasks showed lower performance than both, we comment that LLMs have a better grip on mental health outcome prediction and suggestions, while they still lack optimal performance for diagnostic tasks which involves complex reasoning to find correct disorder or related issues.
论文中的实验及结果有没有很好地支持需要验证的科学假设?
实验结果有力地支持了 MHQA 数据集作为心理健康 QA benchmark 的价值和意义。
- MHQA 数据集能够有效区分不同模型的性能, 例如 GPT-4o 明显优于 Llama-3 系列模型, SFT 微调显著提升 Discriminative 模型性能, 表明 MHQA 可以作为评估语言模型能力差异化的有效工具。
- 实验结果揭示了现有语言模型在心理健康 QA 任务上的优势和不足, 例如 GPT-4o 在 zero-shot 设置下表现出色, 但 Discriminative 模型 SFT 微调后可以超越 GPT-4o, Factoid 问题最具挑战性, 这些发现可以为未来模型改进和研究方向提供 valuable insights。
- MHQA 数据集具有一定的难度和挑战性, 即使是最佳模型 BioBERT SFT 的整体 F1 score 也只有 81.0%, 仍有提升空间, 表明 MHQA 可以作为未来研究的长期挑战和目标。
请引用关键数据加以说明。
Table 2 清晰地展示了不同模型和方法在 MHQA-Gold 数据集上的性能对比, 特别是 GPT-4o 在 Zero-shot 设置下的高性能 和 BioBERT SFT 的最佳性能。 Table 3 细化了不同问题类型下的模型性能, 突出了 Factoid 问题的挑战性 和 Prognostic/Preventive 问题的相对容易性。 这些表格数据直接支持了 MHQA 数据集作为 benchmark 的有效性。
4. 这篇论文的贡献与影响
这篇论文到底有什么贡献?
提出了一个新的高质量心理健康问答数据集 MHQA: MHQA 是一个大规模、多样化、知识密集型的多选题数据集, 专门用于评估语言模型在心理健康领域的问答能力。 这是论文最核心的贡献。
Conclusion: Our work proposes a novel multiple choice questions format-based mental health question answering dataset, called MHQA...
对 MHQA 数据集进行了全面的 benchmark 评估: 论文在 MHQA-Gold 数据集上评估了多种 state-of-the-art 的语言模型 (LLMs 和 Discriminative 模型), 并分析了不同模型在不同实验设置和问题类型下的性能, 为未来研究提供了重要的基线结果和分析。
Conclusion: Our benchmarking results highlight the superior performance of GPT-40 as an LLM. However, other models still significantly underperform...
深入分析了 MHQA 数据集的特点和挑战: 论文分析了 MHQA 数据集的 knowledge intensity, diversity, question type difficulty 等特点, 揭示了心理健康 QA 任务的复杂性和挑战性, 为未来数据集改进和模型发展提供了方向。
Conclusion: It was also observed that Factoid QA is particularly challenging compared to other reasoning and predictive tasks.
论文的研究成果将给业界带来什么影响?
- 推动心理健康 NLP 领域的发展: MHQA 数据集的发布 填补了心理健康 QA 基准数据集的空白, 为研究人员提供了一个高质量的 benchmark, 可以 促进心理健康 NLP 领域, 特别是心理健康问答系统和模型的快速发展。
- 促进心理健康领域语言模型的评估和比较: MHQA 数据集可以作为 标准化的评估基准, 帮助研究人员更客观地评估和比较不同语言模型在心理健康问答任务上的性能, 推动模型的迭代和改进。
- 加速心理健康 AI 应用的落地: 通过提供高质量的 benchmark 和评估方法, MHQA 数据集可以 促进开发更有效、更可靠的心理健康 AI 应用, 例如心理健康信息检索、智能咨询、辅助诊断等。
有哪些潜在的应用场景和商业机会?
- 心理健康领域的模型 benchmark 和评估工具: MHQA 数据集本身可以作为一种 资源 提供给研究机构和企业, 用于评估和 benchmark 他们开发的心理健康语言模型。 可以构建 在线评估平台或工具包,方便用户使用 MHQA 进行模型评估。
- 高质量心理健康 QA 数据集的商业化: MHQA-Gold 这种经过专家验证的高质量数据集,具有一定的 商业价值, 可以授权给需要高质量训练数据或评估数据的机构和企业。
- 基于 MHQA 数据集优化的心理健康 AI 产品和解决方案: 企业可以基于 MHQA 数据集 训练和优化 专门用于心理健康问答的 AI 模型, 并将其应用于各种 心理健康服务和产品 中, 例如:
- 心理健康知识库和问答系统: 帮助用户快速准确地获取心理健康知识和信息。
- AI 心理健康助手: 为用户提供初步的心理健康咨询和支持。
- 临床决策支持系统: 辅助医生进行心理健康诊断和治疗方案制定。
- 心理健康教育和科普产品: 利用 QA 形式进行心理健康知识的传播和教育。
作为工程师的我应该关注哪些方面?
- 数据集的使用和分析: 深入理解 MHQA 数据集的特点、分布和挑战性, 探索如何 有效利用 MHQA 数据集进行模型训练、评估和改进。
- 模型优化和性能提升: 关注如何在 MHQA 数据集上 进一步提升语言模型在心理健康 QA 任务上的性能, 特别是在 Factoid 和 Diagnostic 等更具挑战性的问题类型上。 可以尝试各种模型优化方法, 例如更有效的 fine-tuning 策略、知识增强技术、更先进的模型架构等。
- Few-shot CoT prompting 的应用: 论文中 Few-shot CoT 在 GPT-4o 上效果不明显, 但在 Llama-3.1 8B 上有一定提升, 可以进一步研究 如何更有效地利用 Few-shot CoT 等 prompting 技术来提升模型在知识密集型 QA 任务上的推理能力。
- 模型的可解释性和可靠性: 在心理健康领域, 模型的 可解释性和可靠性 尤为重要。 需要关注如何提高模型预测结果的可解释性, 避免模型产生误导或有害的输出。
- 伦理和安全问题: 心理健康数据涉及敏感的个人信息, 需要 高度重视数据安全和用户隐私保护, 并 关注模型可能存在的偏见和伦理风险, 确保 AI 应用的 responsible 和 ethical。
5. 未来研究方向和挑战
未来在该研究方向上还有哪些值得进一步探索的问题和挑战?
- 扩大数据集规模和多样性: 虽然 MHQA 数据集规模较大, 但仍有 扩展规模 的空间, 例如收集更多 PubMed 摘要、 引入更多心理健康领域和问题类型, 提升数据集的覆盖度和代表性。 同时, 可以考虑 加入其他数据来源, 例如 clinical guidelines, textbooks 等, 进一步增强数据集的知识深度。
- 改进 pseudo-labeling 和人工验证流程: 论文的 pseudo-labeling 过程只验证了 similarity score 较高的 QA 对, 可以探索更完善的 pseudo-labeling 验证方法, 提高 MHQA-B 数据集的质量。 加强人工验证 的力度, 扩大 MHQA-Gold 的规模, 可以进一步提升 benchmark 的可靠性。
- 探索更多问题类型和任务: MHQA 目前主要关注多选题 QA, 可以扩展到其他问题类型, 例如开放式问答、多轮对话、生成式摘要等, 更全面地评估语言模型在心理健康领域的各种能力。 可以考虑引入更复杂的任务, 例如心理健康状态评估、风险预测、个性化干预方案推荐等。
- 研究更有效的模型和方法: MHQA benchmark 结果显示, 现有模型在心理健康 QA 任务上仍有提升空间, 可以探索更先进的模型架构、训练方法和知识增强技术, 例如:
- 结合外部知识库 (Knowledge Graphs) 或 RAG (Retrieval-Augmented Generation) 技术, 增强模型的知识获取和推理能力。
- 研究更有效的 few-shot 和 fine-tuning 策略, 提升模型在 MHQA 数据集上的性能。
- 探索 domain-specific 的模型架构和预训练方法, 针对心理健康领域的特点进行模型优化。
这可能催生出什么新的技术和投资机会?
- 更强大的心理健康 QA 模型和系统: 基于 MHQA 数据集训练和优化的模型, 可以应用于各种心理健康服务和产品中, 提升心理健康 AI 应用的智能化水平和服务质量。
- 心理健康领域的数据标注和评估工具: MHQA 数据集的构建过程和评估方法, 可以 衍生出更多的数据标注和评估工具, 服务于心理健康 NLP 领域的数据和模型开发。
- 面向特定人群或场景的心理健康 AI 解决方案: 可以基于 MHQA 数据集 开发面向特定人群 (例如青少年、老年人) 或场景 (例如企业员工心理关怀、社区心理健康服务) 的定制化心理健康 AI 解决方案。
- 心理健康风险预测和早期干预技术: MHQA 数据集中的 prognostic 和 preventive 问题类型, 可以 推动心理健康风险预测和早期干预技术的发展, 例如基于 AI 的 suicide risk assessment, mental health screening tools 等。
- 个性化心理健康服务平台: 结合心理健康 QA 模型和其他 AI 技术, 可以 构建更智能、更个性化的心理健康服务平台, 为用户提供全面的心理健康支持和管理服务。
6. 论文的不足与缺失
从 critical thinking 的视角看,这篇论文还存在哪些不足及缺失?
pseudo-labeling 过程的局限性: MHQA-B 数据集是基于 pseudo-labeling 生成的, 虽然使用了 LLM 进行验证, 但 pseudo-labeling 的质量可能不如人工标注, 可能会引入一定的噪音和误差。 论文也提到 pseudo-labeling 过程只验证了 similarity score 较高的 QA 对, 可能存在遗漏或错误。
数据集的英文语种限制: MHQA 数据集 目前仅为英文, 缺乏多语言支持, 限制了其在非英语国家和地区的应用和推广。 心理健康问题具有文化和社会背景差异, 多语言数据集对于构建更普适的心理健康 AI 系统至关重要。
PubMed 摘要的数据来源限制: 虽然 PubMed 摘要保证了知识性和科学性, 但 摘要本身是对研究的精简概括, 可能 丢失了部分细节信息。 此外, PubMed 摘要 主要侧重于 biomedical research, 可能 缺乏对心理健康服务、实践和经验性知识的充分覆盖。
Cohen's kappa 值偏低 (0.44): 论文中 MHQA-Gold 的 inter-annotator agreement ( Cohen's kappa 值) 为 0.44, 属于 moderate agreement range, 表明心理健康 QA 任务本身存在一定的主观性和歧义性。 虽然论文使用了专业心理学家进行标注, 但仍存在标注一致性提升的空间。
Methods: Annotator 1 and annotator 2 show 97.0% and 97.9% agreement with the initial MHQA-gold dataset, respectively. We get Cohen's kappa score of 0.44, which falls within the moderate inter-annotator agreement range.
又有哪些需要进一步验证和存疑的?
- pseudo-labeling 数据集的质量: 虽然论文进行了 LLM 验证, 但 MHQA-B 数据集的质量仍需进一步评估, 例如可以通过 人工抽样检查 的方式, 更细致地评估 pseudo-labeling 数据的准确性和可靠性。
- 数据集的领域和问题类型覆盖度: MHQA 数据集目前主要覆盖焦虑、抑郁、创伤、强迫症四个领域和四种问题类型, 是否能够充分代表心理健康领域的全部问题和挑战? 是否需要扩展到更多领域和问题类型? 例如, 可以考虑加入 substance use disorder, eating disorder, personality disorder 等领域, 以及 treatment effectiveness, medication management 等更细粒度的问题类型。
- benchmark 评估的充分性: 论文主要使用了 Accuracy 和 F1 score 作为评估指标, 是否足以全面评估模型在心理健康 QA 任务上的能力? 是否需要引入更多 nuanced 的评估指标, 例如评估模型的 reasoning path, explanation quality, answer relevance, safety 等方面? 此外, benchmark 实验主要集中在 zero-shot 和 SFT 设置下, 是否需要探索更多实验设置, 例如 few-shot learning, reinforcement learning 等?
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment