元鉴 Yuanjian

中文内容

已翻译medical literature metadata英文原文2026-06-05

背景：AI 生成内容正被应用于教育领域的各个层面，并有助于创建复杂的多项选择题，例如医学教育中使用的题目。然而，评估 AI 生成内容具有挑战性，现有的测试和评估方法仍显不足。本研究使用随机化方法，比较医学生在 AI 生成题目与专家生成题目上的表现及主观评价。我们假设，学生在 AI 生成题目与专家生成题目上的表现或主观评价不存在差异。

方法：我们设计了一项单中心随机研究，参与研究的医学生在四周内每天收到一道 AI 生成或专家生成的题目。

结果：我们的研究显示，参与者对 AI 生成题目与专家生成题目的感知相似（p = 0.18），正确回答比例的分布之间无显著差异。28 天内累计答对题目的比例在两组题目之间保持一致。然而，参与者将 53% 的 AI 生成题目评为非常容易或容易，而专家生成题目的这一比例仅为 31%。

讨论：随机化对于显示 AI 生成题目与专家生成题目几乎难以区分至关重要，这表明需要额外的评估方法来比较 AI 生成与专家生成的医学教育内容。

使用随机化方法比较医学教育中 AI 生成与专家生成的形成性评估题目

中文内容

原文标题