中文内容
AWS 新闻博客
推出新一代 AWS Resilience Hub,支持基于生成式 AI 的 SRE 韧性之旅
by Channy Yun (윤석찬) 2026 年 5 月 28 日 in 正文:AWS Resilience Hub(ARH), 生成式 AI, 发布, 管理与治理, 新闻 Permalink Comments Share今天,我们宣布推出新一代 AWS Resilience Hub,带来显著扩展的体验,整合了新的应用模型、依赖发现评估、由生成式 AI 驱动的故障模式分析、模块化韧性策略以及组织范围的报告。
运行数百个应用程序的组织面临一个共同挑战:可用性是首要关注点,但在整个应用组合中,并没有一致的方法来设定韧性目标、衡量进展或证明合规性。各团队设定不同标准、使用不同工具,并且难以交流应用程序是否真正达到预期的信息。
新一代 AWS Resilience Hub 通过为站点可靠性工程师(SRE)和开发团队提供一种结构化方式来改变这一状况,使他们能够就韧性策略预期达成一致,帮助应用团队实现这些预期,并通过测试证明合规性。通过与 AWS Organizations 集成,团队现在可以大规模评估韧性、识别故障模式、发现隐藏依赖,并在整个企业范围内报告进展。
新一代 Resilience Hub 将引导你完成韧性之旅,并内置了以下概念来提供帮助。
- 韧性策略:你可以通过模块化、可组合的要求来定义你的韧性预期。你不必选择单一僵化的策略类型,而是通过选择与你的应用程序相关的要求来构建策略,例如服务级别目标(SLO)、多可用区和多区域灾难恢复,以及数据恢复要求。
- 业务层面的理解:你可以通过关键终端用户路径使用新的应用建模,这些路径可直接映射到业务结果。系统代表一个业务应用,用户旅程描述关键业务路径,服务则是由 AWS 资源、代码和可观测性组成的可部署单元。Resilience Hub 会自动发现它们并将其映射到拓扑中,显示资源之间的连接方式。
- AI 故障模式评估:你可以运行由生成式 AI 驱动的评估,根据你定义的韧性策略、AWS Well-Architected 最佳实践以及 AWS Resilience Analysis Framework 来分析你的服务。这些评估会识别潜在故障模式,并提供可执行的建议。
- 依赖发现评估:你可以自动发现你的服务所依赖的 AWS 服务、内部端点和第三方端点。该依赖评估使用 DNS 查询日志分析来识别你可能不了解的依赖,包括意外的跨区域调用或关键第三方依赖。
新一代 AWS Resilience Hub 实际操作:要开始使用,你需要配置韧性策略,设置第一个系统和服务,运行故障模式评估,查看结果,并实施相关发现。
开始之前,你应设置调用者 IAM 角色,该角色向 Resilience Hub 授予对你的 AWS 资源的只读访问权限、跨账户角色(如果未使用 AWS Organizations),或通过 AWS Organizations 使用服务相关角色(SLR)。Resilience Hub 还与 AWS Organizations 集成,可通过单个委派管理员账户实现组织范围的韧性管理。这无需登录各个账户即可评估整个企业的韧性状况。要了解更多信息,请访问 AWS Resilience Hub 用户指南中的先决条件详情。
要配置韧性策略,请通过 AWS Resilience Hub 控制台在 Policies 菜单中选择 Create policy。输入策略名称、描述,并选择韧性要求。例如,你可以为金融应用中使用的多区域灾难恢复创建可复用策略,包括 99.95% 可用性 SLO、多区域灾难恢复的 15 分钟 RTO、5 分钟 RPO,以及与你的 RTO 和 RPO 要求一致的灾难恢复方法。
如果选择数据恢复要求,你可以为与此策略关联的每项服务定义从备份恢复的数据恢复时间目标。

要创建代表你的业务应用的第一个系统,请在 Systems 菜单中选择 Create a system。你也可以选择为该系统启用 AWS Organizations 账户访问。

现在,你可以创建一个代表可部署单元的服务,例如你的一个微服务,将其与你的系统关联,并告诉 Resilience Hub 在哪里查找你的资源。输入服务名称,例如 stock-exchange-service,选择你的韧性策略和调用者 AWS IAM 角色名称。你可以选择服务区域、服务资源,例如资源标签、AWS CloudFormation 堆栈、Terraform 状态文件位置,或 Amazon EKS 集群和命名空间。
当你为此服务启用依赖发现时,AWS 会检查与你服务中的资源关联的 VPC 的 VPC 查询日志。你可以随时在服务详情页的依赖发现设置中禁用此功能。

现在,在完成服务创建并应用策略后,你可以运行第一次评估。在服务页面中选择 Run failure mode assessment,并等待评估完成。

在评估期间,Resilience Hub 会代入你的调用者角色,从你配置的输入源读取资源,识别父子关系,查询应用拓扑服务以映射资源之间的连接,并构建显示数据流、包含关系和权限的拓扑。
通过选择 Service topology,你可以以图形、表格或 JSON 格式查看按服务功能分组的服务资源。

通过选择 Failure mode guidance,你可以添加断言,用于在执行故障模式评估时指导代理。断言可由代理生成,也可由用户添加。你可以更新它们以提高评估准确性。

评估完成后,你可以在服务页面的 Assessment 选项卡中查看发现和建议。每项发现都会说明故障模式是什么、它为何对你的架构重要、如何修复,以及它与哪项策略要求相关。

你可以选择 Mark as resolved 来实施建议,或者在该发现不适用于你的用例时选择 Mark as irrelevant。
如果你是现有 Resilience Hub 客户,Resilience Hub 提供迁移 API,以简化此前应用程序的过渡。这些 API 会将你此前的评估策略转换为新的韧性策略,并将你此前的应用映射到新模型,例如将多个相关应用映射为一个包含多个服务的系统。
有关新功能的更多信息,请访问 AWS Resilience Hub 用户指南。
现已可用:新一代 AWS Resilience Hub 现已在提供 Resilience Hub 的 AWS 商业区域全面可用。有关区域可用性和未来路线图,请访问 AWS Capabilities by Region。
Resilience Hub 采用新的基于服务的定价模式。定价包括每月针对服务的两次故障模式评估,并可选择自动化依赖评估。你可以免费试用 AWS Resilience Hub。有关定价详情,请访问 AWS Resilience Hub 定价页面。
请在 Resilience Hub 控制台试用新的 AWS Resilience Hub,并通过 AWS re:Post for Resilience Hub 或你常用的 AWS Support 联系方式发送反馈。
正文:— Channy
正文:Channy Yun(윤석찬)
Channy 是 AWS News Blog 的首席博主,也是 AWS Cloud 的首席开发者倡导者。作为开放网络爱好者和内心热爱写作的博主,他热爱由社区驱动的学习和技术分享。

