元鉴 Yuanjian

中文内容

已翻译official company source英文原文2025-10-25

在快速发展的 large language models（LLMs）领域，聚光灯很大程度上集中在仅解码器架构上。尽管这些模型在广泛的生成任务中展现出令人印象深刻的能力，但经典的编码器-解码器架构，例如 T5（The Text-to-Text Transfer Transformer），仍然是许多现实应用中的热门选择。编码器-解码器模型通常在摘要、翻译、问答等任务中表现出色，这得益于其较高的推理效率、设计灵活性，以及用于理解输入的更丰富编码器表示。尽管如此，强大的编码器-解码器架构相对而言受到的关注很少。

今天，我们重新审视这一架构，并介绍 T5Gemma：一组新的编码器-解码器 LLM，通过一种称为适配（adaptation）的技术，将预训练的仅解码器模型转换为编码器-解码器架构而开发。T5Gemma 基于 Gemma 2 框架，包括适配后的 Gemma 2 2B 和 9B 模型，以及一组新训练的 T5 尺寸模型（Small、Base、Large 和 XL）。我们很高兴向社区发布预训练和指令调优的 T5Gemma 模型，以开启新的研究与开发机会。

从仅解码器到编码器-解码器

在 T5Gemma 中，我们提出以下问题：能否基于预训练的仅解码器模型构建顶级编码器-解码器模型？我们通过探索一种称为模型适配（model adaptation）的技术来回答这一问题。其核心思想是使用已经预训练的仅解码器模型的权重来初始化编码器-解码器模型的参数，然后通过基于 UL2 或 PrefixLM 的预训练进一步适配它们。

我们方法的概览，展示如何使用预训练的仅解码器模型参数来初始化一个新的编码器-解码器模型。

这种适配方法高度灵活，允许创造性地组合不同模型尺寸。例如，我们可以将大型编码器与小型解码器配对（如 9B 编码器与 2B 解码器），以创建一个“不平衡”模型。这使我们能够针对特定任务微调质量与效率之间的权衡，例如摘要任务，在这类任务中，对输入的深度理解比生成输出的复杂性更为关键。

迈向更好的质量-效率权衡

T5Gemma 表现如何？

在我们的实验中，T5Gemma 模型达到了与其仅解码器 Gemma 对应模型相当或更好的性能，在多个基准测试中几乎主导了质量-推理效率的帕累托前沿，例如衡量学习表示质量的 SuperGLUE。

在给定推理计算量的水平下，编码器-解码器模型始终提供更好的性能，在一系列基准测试中引领质量-效率前沿。

这种性能优势不仅停留在理论层面，也转化为现实中的质量和速度。在测量 GSM8K（数学推理）的实际延迟时，T5Gemma 显示出明显优势。例如，T5Gemma 9B-9B 的准确率高于 Gemma 2 9B，但延迟相近。更令人印象深刻的是，T5Gemma 9B-2B 相比 2B-2B 模型带来了显著的准确率提升，但其延迟几乎与小得多的 Gemma 2 2B 模型相同。最终，这些实验表明，编码器-解码器适配提供了一种灵活而强大的方式，可在质量与推理速度之间取得平衡。

释放基础能力与微调能力

编码器-解码器 LLM 能否具备与仅解码器模型相似的能力？

可以，T5Gemma 在指令调优前后都展现出有前景的能力。

预训练后，T5Gemma 在需要推理的复杂任务上取得了令人印象深刻的提升。例如，与原始 Gemma 2 9B 模型相比，T5Gemma 9B-9B 在 GSM8K（数学推理）上高出 9 分以上，在 DROP（阅读理解）上高出 4 分。这一模式表明，通过适配进行初始化的编码器-解码器架构，有潜力创建能力更强、性能更好的基础模型。

预训练模型的详细结果，展示适配模型相比仅解码器 Gemma 2 在若干推理密集型基准测试上取得显著提升。

预训练带来的这些基础改进，为指令调优后的更显著提升奠定了基础。例如，对比 Gemma 2 IT 与 T5Gemma IT，性能差距在各方面都显著扩大。T5Gemma 2B-2B IT 的 MMLU 分数相比 Gemma 2 2B 提高了近 12 分，GSM8K 分数从 58.0% 提升至 70.7%。适配后的架构不仅可能提供更好的起点，也能更有效地响应指令调优，最终形成一个能力和帮助性都大幅增强的最终模型。

微调 + RLHF 模型的详细结果，展示后训练能够显著放大编码器-解码器架构的性能优势。

探索我们的模型：发布 T5Gemma 检查点

我们非常高兴展示这种构建强大通用编码器-解码器模型的新方法，即从 Gemma 2 等预训练仅解码器 LLM 进行适配。为帮助加速进一步研究，并让社区在这项工作基础上继续构建，我们很高兴发布一套 T5Gemma 检查点。此次发布包括：

多种尺寸：T5 尺寸模型（Small、Base、Large 和 XL）的检查点、基于 Gemma 2 的模型（2B 和 9B），以及一个介于 T5 Large 与 T5 XL 之间的额外模型。

多种变体：预训练模型和指令调优模型。

灵活配置：一个强大且高效的不平衡 9B-2B 检查点，用于探索编码器和解码器尺寸之间的权衡。

不同训练目标：使用 PrefixLM 或 UL2 目标训练的模型，用于提供最先进的生成性能或表示质量。

我们希望这些检查点能为研究模型架构、效率和性能提供有价值的资源。

开始使用 T5Gemma

我们迫不及待想看到你用 T5Gemma 构建的成果。请参阅以下链接了解更多信息：

通过阅读论文了解该项目背后的研究。

下载模型：在 Hugging Face 和 Kaggle 上查找模型权重。

使用 Colab notebook 探索模型能力，或针对你自己的用例进行微调。

在 Vertex AI 上使用这些模型运行推理。

发布于：

正文：Gemma
正文：AI
公告
探索
正文：LLMs
大型语言模型
预训练模型
正文：Prefix LM
模型适配
开发者工具
正文：Kaggle
正文：Hugging Face

T5Gemma：一组新的编码器-解码器 Gemma 模型