中文内容
已翻译medical literature metadata英文原文2026-06-05
背景:AI 生成内容正被应用于教育领域的各个层面,并有助于创建复杂的多项选择题,例如医学教育中使用的题目。然而,评估 AI 生成内容具有挑战性,现有的测试和评估方法仍显不足。本研究使用随机化方法,比较医学生在 AI 生成题目与专家生成题目上的表现及主观评价。我们假设,学生在 AI 生成题目与专家生成题目上的表现或主观评价不存在差异。
方法:我们设计了一项单中心随机研究,参与研究的医学生在四周内每天收到一道 AI 生成或专家生成的题目。
结果:我们的研究显示,参与者对 AI 生成题目与专家生成题目的感知相似(p = 0.18),正确回答比例的分布之间无显著差异。28 天内累计答对题目的比例在两组题目之间保持一致。然而,参与者将 53% 的 AI 生成题目评为非常容易或容易,而专家生成题目的这一比例仅为 31%。
讨论:随机化对于显示 AI 生成题目与专家生成题目几乎难以区分至关重要,这表明需要额外的评估方法来比较 AI 生成与专家生成的医学教育内容。
