中文内容
已翻译official company source英文原文2026-01-21
宣布成立检查点/恢复工作组
Kubernetes 社区包含多个特别兴趣小组(SIG)和工作组(WG),旨在促进相关贡献者之间就重要议题展开讨论。今天,我们宣布成立全新的 Kubernetes 检查点/恢复工作组,该工作组专注于将检查点/恢复功能集成到 Kubernetes 中。
动机与应用场景
工作组探讨了以下几种高层级应用场景:
- 优化交互式工作负载(如 Jupyter Notebook 和 AI 聊天机器人)的资源利用率
- 加速初始化时间较长的应用程序(包括 Java 应用程序和 LLM 推理服务)的启动速度
- 通过周期性创建检查点,为长时间运行的工作负载(如分布式模型训练)提供容错能力
- 提供具备透明检查点/恢复功能的中断感知调度,允许抢占低优先级 Pod,同时保留应用程序的运行时状态
- 便于 Pod 跨节点迁移以实现负载均衡和维护,且不会中断工作负载。
- 启用取证式检查点功能,用于调查和分析网络攻击、数据泄露及未授权访问等安全事件。
在这些场景中,目标是促进 Kubernetes 社区与不断壮大的用户空间检查点/恢复(Checkpoint/Restore in Userspace, CRIU)生态系统之间的技术交流。CRIU 社区包含多个支持此类用例的项目,包括:
- CRIU - 用于对运行中的应用程序和容器创建检查点并执行恢复的工具
- checkpointctl - 用于深入分析容器检查点的工具
- criu-coordinator - 基于 CRIU 协调分布式应用程序检查点/恢复的工具
- checkpoint-restore-operator - 用于管理检查点的 Kubernetes Operator
有关与 Kubernetes 集成的检查点/恢复功能的更多信息,也可在此处查阅。
继我们在 KubeCon EU 2025 上关于透明检查点的演讲之后,我们非常高兴欢迎您参加我们在 KubeCon + CloudNativeCon Europe 2026 上的小组讨论及 AI + ML 专场。
联系我们
如果您有兴趣为 Kubernetes 或 CRIU 做出贡献,可通过以下几种方式参与:
- 请通过会议纪要中的 Zoom 链接,于每两周的周四 17:00 UTC 加入我们的会议;往期会议录像可在此处查看。
- 在 Kubernetes Slack 上与我们交流:#wg-checkpoint-restore
- 通过 wg-checkpoint-restore 邮件列表给我们发送电子邮件
- ← 上一篇
- 下一篇 →
Last modified January 18, 2026 at 1:46 PM PST: Reorganize 2026 blog content (b81b14ba1b)