元鉴
返回中文阅读流

Hugging Face Blog

将 Benchmaxxer Repellant 添加到 Open ASR Leaderboard

来自 Hugging Face Blog 的最新公开更新。

中文内容

已翻译official company source英文原文2026-05-06

将 Benchmaxxer Repellant 添加到 Open ASR Leaderboard

发布于 2026 年 5 月 6 日
Update on GitHub

新的高质量私有数据集 我如何在这些数据上评估我的模型?在数据提供方的数据上训练的模型是否具有优势?接下来是什么?“当一个衡量指标成为目标时,它就不再是一个好的衡量指标。”(古德哈特定律)

TLDR:Appen Inc. 和 DataoceanAI 提供了高质量的英语 ASR 数据集,涵盖多种口音下的照读语音和对话语音。为防止可能出现的 benchmaxxing 或测试集污染风险,我们将保留这些数据集的私有性,以便在多项任务上提供高质量的性能衡量。

我们目前不会更新平均 WER:默认情况下,排行榜的平均 WER 仍仅基于公开数据集计算。你可以选择使用切换开关纳入私有数据集,以查看它们的影响 👀

自 2023 年 9 月推出以来,Open ASR Leaderboard 的访问量已超过 71 万次。社区对持续推动语音识别发展的兴趣和动力令我们深感震撼 🗣️

thumbnail

有两个词概括了维护像 Open ASR Leaderboard 这样的基准测试的目标(同时也是挑战):

  1. 标准化:模型在使用方式和输出方面可能有不同约定,例如是否带有标点和大小写。数据集也面临同样的挑战,并且可能以不同方式组织。为此,所有测试集都已汇总到 Hub 上的单个数据集中,以便轻松访问和预览。此外,为了标准化模型输出和数据集转录文本,我们使用了一个规范化器,它(除其他功能外)会移除标点和大小写,并映射为美式拼写。它基于 Whisper 的规范化器。
  2. 开放性:UI 代码和评估脚本均已开源。这不仅有助于纳入新模型,也通过社区反馈和贡献提升了评估流程的质量。

标准化和开放性对于有意义的基准测试至关重要,但它们也使基准更容易受到针对基准的优化(“benchmaxxing”)影响,即模型在排行榜上的表现有所提升,却没有相应提高其在真实世界中的鲁棒性。随着模型和用例不断演进,Open ASR Leaderboard 将继续纳入高质量数据集和新的评估设置,以更好地反映真实世界表现,并提高对针对基准优化的鲁棒性。

正如我们在报告中所讨论的,并不存在单一的“万能”ASR 模型:有些模型在美式英语上表现更好,有些模型在多样化口音和多语言场景中表现更好,还有一些则针对速度或对话音频进行了优化。不同应用也会优先考虑不同能力,因此,一个模型在某一维度上表现较差,并不一定意味着它总体上是更差的模型。Open ASR Leaderboard 的目标是捕捉这些细微差异,并提供对 ASR 性能更全面的视角。

新的高质量私有数据集

为此,我们与 Appen Inc. 和 DataoceanAI 合作,策划了用于 ASR 基准测试的高质量数据集。以下是有关各个划分的一些信息。

数据集 口音 时长 [小时] 男性 (%) / 女性 (%) 风格 转写 Appen Scripted AU 澳大利亚 1.42 49 / 51 朗读 带标点、区分大小写。Appen Scripted CA 加拿大 1.53 52 / 48 朗读 带标点、区分大小写。Appen Scripted IN 印度 1.02 49 / 51 朗读 带标点、区分大小写。Appen Scripted US 美国 1.45 49 / 51 朗读 带标点、区分大小写。Appen Conversational IN 印度 1.37 51 / 49 对话式、自发 带标点、含不流利现象。Appen Conversational US003 美国 1.64 49 / 51 对话式、自发 带标点、区分大小写、含不流利现象。Appen Conversational US004 美国 1.65 49 / 51 对话式、自发 带标点、含不流利现象。DataoceanAI Scripted US 美国 2.43 54 / 46 朗读 带标点、区分大小写(专有名词)、含不流利现象。DataoceanAI Scripted GB 英国 2.43 47 / 53 朗读 带标点、含不流利现象。DataoceanAI Conversational US 美国 8.82 NA 对话式、自发 带标点、d

以下是示例音频,展示了内容的多样性(脚本化、对话式、首字母缩略词、不流利现象、专有名词)。

虽然私有数据集听起来可能有悖于开放精神,但我们认为,纳入此类数据集将提高 Open ASR Leaderboard 的可信度,因为它们不太可能被用于 benchmaxxing,无论是被明确使用公开测试集的模型开发者利用,还是被那些试图寻找与特定数据集高度相似的训练数据、以提高其宏平均分数的开发者利用。

借助这些数据集,我们还可以提供有针对性的指标,以突出受控且往往已趋于饱和的场景(脚本化、美式口音)与更细微复杂的条件(对话式和非美式口音)之间的差距和偏差。下面是新的“Private data”标签页的截图。

thumbnail

下面说明每一列是如何计算的。

  • “Average WER”计算的是数据提供方平均值的宏平均,因此它们具有相同的权重。
  • “Avg Scripted” 对所有脚本化数据集进行宏平均。
  • “Avg Conversational” 对所有对话式数据集进行宏平均。
  • “Avg US” 对所有带有美国口音的数据集进行宏平均。
  • “Avg non-US” 对所有带有非美国口音的数据集进行宏平均。

我们有意不提供每个划分上的分数,以避免模型开发者通过针对特定数据提供方或口音进行优化来提高分数。

我如何在这些数据上评估我的模型?

将你的模型提交到 Open ASR Leaderboard,我们会运行评估!和以前一样,将模型添加到排行榜的流程在 Open ASR Leaderboard GitHub 上进行:

  1. 提交一个拉取请求,随后会出现一个模型检查清单。和以前一样,你应该报告你在公开数据集上的结果。
  2. 我们将在公开数据集上验证结果,并在私有数据集上计算指标。
  3. 确认我们已经获得的结果。

在等待你的模型被添加到 Open ASR Leaderboard 时,你可以通过向你的模型卡添加如下 YAML 文件,在公开数据集上自行报告你的指标。随后,你的模型将出现在数据集页面上的一个(未经验证的)排行榜中(见下方截图)。关于这种去中心化评估方法的更多信息可在此处阅读。

thumbnail

基于这些数据提供方训练的模型是否具有优势?

有可能。我们已要求 Appen 和 DataoceanAI 不要向其客户提供这些数据。但即使他们不提供这些确切数据,来自相似分布的数据仍可能帮助模型在相应评测集上取得更好表现(类似于通过针对公开集合中的高难度任务进行优化来进行 benchmaxxing)。为此,拥有多个数据提供方可以平衡模型因使用其中某个提供方的数据而可能获得的优势。我们也欢迎更多数据提供方和评测集加入“Private data”标签页!

此外,为确保私有集合不影响模型排名,我们已默认将 Average WER 设置为在其宏平均中不包含 Private 集合。

在下面的截图中,你可以看到“Private data”已关闭。这意味着跨数据集的宏平均不包含它。

thumbnail

只需打开“Private data”划分,即可将它们纳入宏平均。

thumbnail

“Rank Δ”列显示了相对于默认宏平均配置,排序发生了怎样的变化。纳入或排除公开数据集也会改变宏平均结果,使用户能够根据与其应用最相关的使用场景和数据分布来定制评估。

接下来是什么?

我们很期待听到社区对于新赛道和数据集切换功能如何帮助用户识别最适合其应用的模型的反馈。我们也在研究能够更好反映真实世界噪声条件的评估,你们可以期待这方面的一些消息 😉

在准备私有评估集时,我们格外注意确保各数据集之间的音频和转录质量保持一致,包括开发工具来识别低信噪比条件或转录不匹配等具有挑战性的情况,因为这些因素可能会显著影响 WER。更多内容将在未来的文章中介绍!

原文标题

Adding Benchmaxxer Repellant to the Open ASR Leaderboard