UnibucLLM: 利用大型语言模型自动预测多项选择题的难度和答题时间


本文探讨了一种基于大型语言模型(LLM)的新型数据增强方法,用于预测已退休的美国医学许可考试(USMLE)多项选择题(MCQs)的难度和答题时间,这是 BEA 2024 共享任务的一部分。我们的方法基于使用零次拍 LLMs(Falcon、Meditron、Mistral)的答案扩充数据集,并基于六种不同的特征组合使用了基于转换器的模型。结果表明,预测问题的难度更为困难。值得注意的是,我们表现最佳的方法一致包含了问题文本,并受益于 LLM 答案的多样性,这突显了 LLM 在改进医学执照考试中的自动评估方面的潜力。我们在 https://github.com/ana-rogoz/BEA-2024 上提供了我们的代码。

一、研究背景与动机

本研究聚焦于高风险的医学执照考试,如美国医学执照考试(USMLE),其中准确地评估考生的知识和技能至关重要。传统上,确定题目的难度和响应时间(平均答题时间)依赖于预测试,即在实际考试中嵌入新题目与已评分题目一同进行测试。然而,这种方法因资源限制而被认为是不切实际的。为了解决这一问题,2024年构建教育应用的自然语言处理创新使用研讨会(BEA 2024)提出了一个共享任务,即自动预测USMLE考试题目的难度和响应时间。Ana-Cristina Rogoz和Radu Tudor Ionescu的研究正是基于这一背景,探索了一种基于大型语言模型(LLMs)的新型数据增强方法,以自动预测多选题(MCQs)的难度和响应时间。

二、研究方法

  1. 数据增强:研究者采用零次学习LLMs(如Falcon, Meditron, Mistral)来生成答案,从而增强数据集。这种方法通过LLMs的多样性答案来模拟不同考生对题目的回答,从而增加数据的丰富性和复杂性。

  2. 模型构建:基于Transformer的模型被用来进行预测,研究者尝试了六种不同的特征组合。这些特征包括题目文本、LLM生成的答案等,以探索不同特征对预测性能的影响。

三、研究结果

研究发现,预测题目的难度相对更具挑战性。然而,他们的顶级方法始终包含题目文本,并从LLM答案的多样性中受益。这表明LLMs在改进医学执照考试的自动评估方面具有潜力。

四、贡献与意义

  1. 数据增强新策略:通过利用LLMs生成答案来增强数据集,本研究为自动评估领域提供了新的数据增强策略。

  2. 特征探索:通过比较不同特征组合的模型性能,本研究为构建自动评估模型提供了有价值的特征选择指导。

  3. 医学执照考试评估的改进:该研究展示了LLMs在医学执照考试自动评估中的潜力,为未来的研究和实践提供了新方向。

  4. 资源共享:研究者公开了他们的代码(位于https://github.com/ana-rogoz/BEA-2024),为其他研究人员提供了宝贵的资源,促进了知识的共享和复用。

五、未来展望

随着LLMs技术的不断进步和医疗教育评估需求的日益增长,本研究领域具有广阔的发展前景。未来的研究可以进一步探索LLMs在医学教育领域的更多应用场景,如自动生成题目、评估考试质量等。此外,结合更多的医学领域知识和数据,可以进一步提升模型的预测性能和泛化能力。



–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: