中文内容
由于代码与产品之间存在固有脱节,代码审查一直是手动且低效的。开发者可以审查代码是否能够编译并运行,但无法判断它是否满足所有功能和设计需求。过去,QA 团队要花数小时手动点击预览环境,以确保功能按预期运行,还要花更多时间使实现与设计意图保持一致。这种手动验证拖慢了交付速度,带来了不一致性,并增加了回归问题的可能性。随着开发团队速度提升,Baz 希望自动化这一缺失的验证层,将意图、行为和实现纳入同一个审查工作流。
本文介绍 Baz 如何使用 Amazon Bedrock 和 Amazon Bedrock AgentCore 构建其 Spec Review agent。我们将涵盖架构决策、实现细节,以及他们通过利用这些 AWS 服务来自动化代码审查流程所取得的业务成果。
Baz 试图解决的关键问题
Baz 旨在超越传统的、仅基于差异的审查,转向验证某项功能是否满足其预期产品需求。早期,Baz 发现团队在审查中往往关注语法而非行为,导致“它是否能工作”“是否符合规格”“是否按预期运行”等关键问题只能在流程后期由人工回答。代码与产品意图之间的这一缺口拖慢了团队速度,造成设计不一致,并使团队严重依赖未文档化的 QA 内部知识。Baz 着手通过构建 agent 来弥合这一缺口,使其不仅能够评估代码,还能评估实际交付的体验。
解决方案概述
Baz Spec Review agent 编排了一套复杂的多阶段验证流水线:触发后(通过 webhook 或手动调用),它会并行通过 MCP 查询 Figma,并通过 REST API 查询 Jira,以聚合覆盖技术、产品和设计规格的完整需求工件。随后,系统会生成隔离的子 agent worker(每个需求一个),负责验证对应需求。该子 agent 将通过源代码仓库进行代码检查,并使用 Amazon Bedrock AgentCore Browser Tool 进行动态运行时验证。子 agent 会与临时环境交互,执行 DOM 检查、事件模拟和视觉测试,以确保已部署实现同时符合 Figma 设计规格和行为需求,并通过 AWS 在从规格到实现的整个生命周期中提供端到端验证。

下图展示了 Spec Reviewer 架构,这是 Baz 与 AWS 的联合解决方案,可在代码审查工作流中实现自动化设计与产品验证。整个 agentic 流程由通过 Amazon Bedrock 提供服务的大语言模型驱动,在整个流水线中提供可扩展且安全的 AI 推理。当新的 pull request 触发 GitHub webhook 时,流程开始,流量经由 Application Load Balancer(ALB)和 Network Load Balancer(NLB)进入 Amazon EKS 集群。Baz Platform 作为中央编排层,协调多 agent 审查流程。
在 Amazon EKS 集群内,Baz 的 Spec Review Agent 将验证工作流分解为专门的子 agent。由 Amazon Bedrock 驱动的 Specification Subagent 会摄取来自 Figma 的视觉规格和来自 Jira 的功能规格,然后将其分解为离散需求——视觉需求(如间距、颜色和组件层级)以及功能需求(如验收标准和用户故事意图)。
Implementation Subagents 是该架构的核心。这些由 Amazon Bedrock 驱动的 agent 会根据提取出的规格进行深度代码分析,但其独特之处在于与 Amazon Bedrock AgentCore Browser Use 能力集成。Implementation Subagents 不仅依赖静态代码分析,还可以在实时 Preview Environment 中渲染实际实现,并通过视觉方式验证 UI 是否匹配预期的 Figma 设计,以及功能行为是否符合 Jira 中的规定。这种代码理解与基于浏览器的验证相结合,使 Baz 能够发现传统代码审查工具完全会遗漏的差异。
Report Generator 会将所有子 agent 的发现整合为连贯的审查摘要。审查完成后,发现结果会分发到相应渠道:评论会直接发布到 GitHub PR,通知会发送到 Slack 以提高团队可见性,识别出的问题可自动关联回 Jira,以便跟踪和解决。

Baz 如何实施 Amazon Bedrock AgentCore 来应对这些挑战
Amazon Bedrock AgentCore 成为构建 AI 代码审查器的基础,使其能够验证真实的产品行为。其安全、隔离、无服务器的浏览器会话允许 Spec Reviewer agent 打开预览环境、浏览功能,并像用户一样检查 UI 行为。通过结合 Amazon Bedrock AgentCore runtime 来运行与工单系统集成的 MCP 服务器、Amazon Bedrock AgentCore Browser tool 以及轻量级自动化和上下文模块,Baz Reviewer 可以将实时行为和代码与工单及设计规格进行比较,而无需任何浏览器基础设施或自定义编排。Amazon Bedrock AgentCore 的隔离、沙盒化和可观测性帮助 Baz 扩展多个 MCP 服务器,并使 agent 能够安全、可靠且大规模地执行全栈验证。
使用 Amazon Bedrock 实现智能代码审查
Amazon Bedrock 为 Spec Reviewer agent 背后的推理和决策层提供支持,使其能够解释需求、理解设计意图,并评估在浏览器中观察到的行为是否相关。通过使用 Amazon Bedrock 托管的基础模型,该 agent 可以综合规格上下文、分析 UI 状态,并就某项功能是否符合预期给出精确、可执行的结论。Amazon Bedrock 提供了生产级 agentic 工作流所需的可靠性、安全性和规模,使 Baz 能够将复杂的解释和验证逻辑卸载到高性能 LLM,同时将浏览器执行隔离在 AgentCore 内。这种组合使审查器能够弥合预期内容与实际构建内容之间的差距。
结论
Baz Spec Review agent 展示了 Amazon Bedrock 和 Amazon Bedrock AgentCore 如何帮助组织自动化过去需要大量人工投入的产品验证工作流。通过利用 Amazon Bedrock 基础模型进行需求解释和决策,并结合 AgentCore 安全浏览器自动化能力,Baz 创建了一种解决方案,可在整个开发生命周期中根据规格验证实现,使报告的 bug 最多减少 50%,合并时间缩短 30–70%。
采用 Spec Reviewer 的客户显著减少了手动产品验证工作,功能验证被提前转移到开发周期更早阶段,并在 pull request 上自动进行。团队报告称,审查速度更快,回归问题更少,并且在合并前更有信心确认变更符合需求。
作者简介



