元鉴
返回中文阅读流

Kubernetes Blog

宣布成立 Checkpoint/Restore 工作组

Kubernetes 社区包含多个特别兴趣小组(SIGs)和工作组(WGs),促进感兴趣的贡献者之间就重要主题进行讨论。今天我们要宣布新的 Kubernetes Checkpoint/Restore 工作组(WG),专注于将 Checkpoint/Restore 功能集成到 Kubernetes 中。动机与用例:工作组讨论了以下几个高层场景:优化交互式工作负载的资源利用率,例如 Jupyter notebooks 和 AI 聊天机器人;加速具有长初始化时间的应用程序启动。

中文内容

已翻译official company source英文原文2026-01-21

宣布成立检查点/恢复工作组

Kubernetes 社区包含多个特别兴趣小组(SIG)和工作组(WG),旨在促进相关贡献者之间就重要议题展开讨论。今天,我们宣布成立全新的 Kubernetes 检查点/恢复工作组,该工作组专注于将检查点/恢复功能集成到 Kubernetes 中。

动机与应用场景

工作组探讨了以下几种高层级应用场景:

  • 优化交互式工作负载(如 Jupyter Notebook 和 AI 聊天机器人)的资源利用率
  • 加速初始化时间较长的应用程序(包括 Java 应用程序和 LLM 推理服务)的启动速度
  • 通过周期性创建检查点,为长时间运行的工作负载(如分布式模型训练)提供容错能力
  • 提供具备透明检查点/恢复功能的中断感知调度,允许抢占低优先级 Pod,同时保留应用程序的运行时状态
  • 便于 Pod 跨节点迁移以实现负载均衡和维护,且不会中断工作负载。
  • 启用取证式检查点功能,用于调查和分析网络攻击、数据泄露及未授权访问等安全事件。

在这些场景中,目标是促进 Kubernetes 社区与不断壮大的用户空间检查点/恢复(Checkpoint/Restore in Userspace, CRIU)生态系统之间的技术交流。CRIU 社区包含多个支持此类用例的项目,包括:

  • CRIU - 用于对运行中的应用程序和容器创建检查点并执行恢复的工具
  • checkpointctl - 用于深入分析容器检查点的工具
  • criu-coordinator - 基于 CRIU 协调分布式应用程序检查点/恢复的工具
  • checkpoint-restore-operator - 用于管理检查点的 Kubernetes Operator

有关与 Kubernetes 集成的检查点/恢复功能的更多信息,也可在此处查阅。

继我们在 KubeCon EU 2025 上关于透明检查点的演讲之后,我们非常高兴欢迎您参加我们在 KubeCon + CloudNativeCon Europe 2026 上的小组讨论及 AI + ML 专场。

联系我们

如果您有兴趣为 Kubernetes 或 CRIU 做出贡献,可通过以下几种方式参与:

  • 请通过会议纪要中的 Zoom 链接,于每两周的周四 17:00 UTC 加入我们的会议;往期会议录像可在此处查看。
  • 在 Kubernetes Slack 上与我们交流:#wg-checkpoint-restore
  • 通过 wg-checkpoint-restore 邮件列表给我们发送电子邮件
  • ← 上一篇
  • 下一篇 →
Last modified January 18, 2026 at 1:46 PM PST: Reorganize 2026 blog content (b81b14ba1b)

原文标题

Announcing the Checkpoint/Restore Working Group