元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-13

Three white line icons—a transmission tower, a lightning bolt, and a stopwatch—displayed on a teal-to-green gradient background with a subtle textured pattern.

Microsoft 发布了一款轻量级基础模型，能够在毫秒级预测交流最优潮流，从而提升电网分析效率并释放成本节约潜力。

概览

Microsoft 推出 GridSFM，这是一款小型基础模型，可在毫秒级近似求解交流最优潮流，助力做出可直接影响每年高达 200 亿美元拥塞损失和 3.4 TWh 可再生能源限发量的决策。
除了估算发电机调度和成本外，GridSFM 还能生成完整的交流系统状态，使运营商能够直接了解拥塞、稳定性以及整体系统健康状况。
它为社区构建先进的电网仿真器和规划工具提供了基础，而无需从头重新创建数据或模型。

Microsoft 推出了 GridSFM，这是一种用于解决输电电网中交流最优潮流（AC-OPF）问题的小型基础模型。此前，我们发布了一个基于美国的开放输电拓扑数据集，为 GridSFM 提供支撑。

电网正面临日益加剧的压力，原因包括需求激增、整合可再生能源的需要、交通电气化以及极端天气事件。在所有这些挑战中，核心问题都是相同的：在每一种新条件下，哪些最优运行点能够使电网保持正常运行？

回答这个问题需要求解交流最优潮流（AC optimal power flow，AC‑OPF），这是一个复杂的非凸优化问题，用于计算成本最低的发电机调度方案（即每台发电机的出力），在满足负荷需求的同时遵守潮流物理规律、电压限制、热约束和稳定性要求，并支撑电力系统的核心运行，包括可靠性、实时调度、市场出清和事故分析。这些决策直接影响每年高达 200 亿美元的拥塞成本（在新标签页中打开）以及数太瓦时规模的可再生能源限发（在新标签页中打开）（因拥塞而损失的可再生能源电量）等结果，使经济效率和电网可靠性都高度取决于这些运行点的求解质量。然而，AC‑OPF 的计算成本很高：公用事业级规模电网的求解可能需要长达数小时，迫使人们做出权衡

为了解决这一局限性，我们推出了 GridSFM，这是一个单一神经网络，能够在毫秒级时间内近似求解从 500 到 80,000 个母线规模的电网 AC-OPF。它接收标准 AC-OPF 输入（电网拓扑、发电机和负荷规格、输电线路约束），并生成一个运行点和可行性判定（即系统是否满足所有物理和运行约束）。通过消除计算瓶颈，GridSFM 使实时评估数量级更多的场景成为可能，从而支持更充分的信息决策，并推动电网运行从被动响应转向主动优化。

在此次初始发布中，我们提供两个层级：

GridSFM-Open，面向最高 4,000 个母线的研究规模电网。
GridSFM-Premier，面向最高 80,000 个母线的生产规模系统。

该模型构建为块结构离散神经算子（图 1），将每个电网表示为有向图，其中母线（电网中的连接点）和发电机作为顶点，输电线路和交流线路作为边。它同时使用求解器监督和基于物理的约束进行训练，其中参考解由 AC-OPF 求解器（PowerModels.jl（在新标签页中打开）中的 IPOPT）生成，基于物理的约束则对违反基尔霍夫电压定律和电流定律等基本物理定律以及热极限等运行约束的情况进行惩罚。这使模型能够从可行和不可行的工况中学习。大多数基于学习的 AC-OPF 替代模型会针对单个电网在狭窄分布上训练一个模型（在新标签页中打开）。GridSFM 则采取相反的方法：在本次发布中，一个单一模型在 150 多个基础电网拓扑（网络结构）以及大约

diagram — 图 1. GridSFM 架构。母线、发电机和支路特征被嵌入到共享潜在空间中，然后由一组直接在电网拓扑上运行的注意力块进行细化。输出头将潜在状态解码为：(i) 完整的 AC-OPF 运行点、母线电压和相角、发电机调度、支路潮流；以及 (ii) 每个场景的可行性评分。

它能实现什么

电网运行与规划中的一个常见模式是：必须在使用完整 AC-OPF 准确求解一小组人工挑选的场景，和通过一种舍弃部分物理特性的更快近似方法运行数千个场景之间做出选择。例如，一个常用工具是 DC-OPF 近似，这是一种线性化版本，假设电压幅值平坦、相角差很小，并忽略无功功率和损耗。DC 近似能在数秒内求解完整 AC 需要数分钟到数小时才能完成的问题，这也是当今大多数事故筛选、市场出清预处理阶段和规划扫描都采用 DC 近似的原因。其代价是真实存在的：DC 近似完全忽略电压和无功约束，在受压场景下，其调度成本可能相较 AC 最优值偏离超过 10%（在我们的测试基准中，最坏情况电网的偏离超过 20%）。

GridSFM 被设计为在这一快速近似位置上替代 DC 近似的即插即用方案；不同于大多数现有的 AC-OPF 神经网络代理模型需要针对每一种新拓扑重新训练，GridSFM 可在其支持的规模范围内跨电网泛化，无需按拓扑重新训练，因此能够像 DC 近似一样通用地嵌入使用。尤其是与 DC-OPF 相比，GridSFM 具有三项具体优势：

在独立调度成本方面，与 DC 近似处于同一准确度等级。GridSFM 和 DC 落在相同的逐场景成本差距分布内（§2 / Figure 6），但具有互补的失效模式：DC 会在其无损耗/无无功线性化在结构上错误的电网中失效；GridSFM 会在超出其训练分布的电网中失效。这两种局限沿正交方向收敛。DC 的上限由线性化固定，而 GridSFM 的尾部误差会随着更多训练数据而收敛。
在推理步骤中，比完整 AC 求解器快 1,000 倍，比 DC 近似快约 100 倍，速度足以在单个普通 GPU 上于数分钟内扫描数千个故障情形（例如线路或发电机停运）。
真实的 AC 运行点，而非线性近似。GridSFM 会生成电压和无功功率，因此同一预测可以作为 AC 热启动交给传统数值求解器，从而开启一种 DC 近似无法实现的工作流程。

1. 可行性筛查：压力评分分诊

当不存在任何调度方案能够同时满足所有约束时，该场景即为不可行：所请求的负荷无法在电压边界、热稳定限值或发电机容量范围内得到供给。在运行层面，不可行性是最具后果性的故障信号：所请求的运行工况根本无法得到满足，相应的响应是进行干预（切负荷、重新调度、放宽热稳定限值）。这也是筛查成本最高的一类场景，因为求解器只有在迭代至不收敛之后才会得知某一场景不可行：每个不可行案例都需要一次完整的求解器运行，耗时往往比可行案例更长。因此，扫描数千个故障情形或压力测试案例以识别其中不可行的案例，是任何规划工作流中预算需求最高的情形之一。

GridSFM 通过与调度头联合训练的逐场景压力评分来解决这一问题。我们在每个电网上的三类场景中评估该评分：real-feas 是 AC-OPF 求解器成功收敛的场景（即真正可行的运行点），real-infeas 是求解器未能收敛的场景（真正不可行的运行点），synth-infeas 是我们有意扰动以违反特定约束（电压挤压、热瓶颈、相角收紧或 DC-热拥塞）的可行基准点。在 54 个电网测试场景中，压力评分的逐电网二分类准确率在各类别之间总体较为一致：real-feas（绿色）平均为 94.5%，real-infeas（红色）平均为 96.1%，synth-infeas（橙色）平均为 90.4%。大多数电网聚集在均值附近的几个百分点范围内；低于 80% 的离群值与下文成本差距分析中出现的那些困难电网相同

chart, line chart — 图 2。GridSM 在 54 个电网测试场景中的逐电网可行性预测准确率，按类别（real-feas、real-infeas、synth_infesible）分列。填充 KDE + 逐电网散点，并以浅色虚线标出均值（–）和中位数（:）。三个分布高度重叠，模型质量在各类别之间总体较为一致，但存在一小段由结构上困难的电网组成的失效尾部。

深入一个案例研究。让我们放大到一个具有代表性的单一电网，即 Texas2k 夏季峰值电网（在新标签页中打开），以展示所学习到的表示如何将可行性和 ROC 区分开来用于预测。

表示。图 3 可视化了模型对每个 Texas2k 场景所学习到的表示。我们将每个图的表示（128 维）投影到两个轴（LD1、LD2）上，这两个轴的选择旨在最大程度地区分场景类别：真实可行、真实不可行和合成不可行。将 128 维压缩到 2 维不可避免地会丢失信息，因此该视图会夸大表观上的重叠：在这里看起来混杂的类别，在模型所使用的完整 128 维空间中仍可能被清晰地区分开。阴影云团显示每个类别的图集中分布的位置，每个云团中心的十字标记表示类别质心，即该类别所有图的平均位置。相距很远的质心意味着模型将这些类别视为明显可区分。当两个阴影云团重叠时，说明模型正在为具有不同标签的图生成相似的嵌入。

运行与 ROC。该评分本身是连续的，并经过排序校准。图 4 显示了其测试混合集上的 ROC：AUC = 0.986。在自然运行点，同一评分作为二元分类器进行阈值化时，可达到 95.5% 的准确率。在该阈值下，逐模式检测在三种扰动模式上的表现为 99–100%，这些扰动模式会将某个约束明确推过其限制。

分流截断值。对于将场景路由到不同处理桶的情况，图5展示了每个人群的压力评分分布。操作人员选择与其工作流相匹配的截断值：置信度很高的可行场景直接进入指示性调度；置信度很高的受压场景被标记以供工程审查；处于边界的中间区间被发送给求解器进行验证。该截断值决定了求解器预算与筛查漏检率之间的平衡。

chart, histogram — 图5。在相同 Texas2k 测试场景上，按人群划分的模型可行性 logit 分布：真实可行（绿色）、真实不可行（红色）和合成不可行（橙色）。虚线垂直线是 logit=0 的决策边界。右侧样本被预测为可行。在该操作阈值下，真实可行样本的通过率为99.5%，真实不可行样本被正确标记的比例为90.4%，合成扰动被捕获的比例为88–100%。

2. GridSFM 作为快速近似

GridSFM 的预测可以通过两种方式使用，而无需从零开始生成精确的 AC-OPF 解：作为独立的调度和成本估计，或作为精确数值求解器的初始猜测（warm-start）。我们始终将二者与相同的两个参考点进行比较：完整 AC-OPF（真实最优解）和 DC 近似（既有的快速基线）。以下所有数值均来自同一测试集，该测试集包含 GridSFM-Open 的 54 个电网场景，求解器 solve_time 在单核 CPU 绑定条件下按场景测量。

独立成本估计

当不需要精确求解器的往返计算时，可以直接对 GridSFM 预测的调度进行成本核算。在我们的测试集中，GridSFM-Open 和 DC 近似属于同一精度类别：均值相当（DC 2.80%，GridSFM 3.41%），中位数相当（DC 1.81% 对 GridSFM 2.23%），并且在跨越两个数量级成本差距的各场景分布上相互重叠（图 6）。它们具有互补的失效模式，而不是一方压倒另一方。

chart — 图 6. 在包含 54 个电网的 GridSFM-Open 基准上，相对于 AC-OPF 真实值的逐场景成本差距分布：DC 近似（蓝色）和 GridSFM（绿色）。填充 KDE 及其下方的逐场景散点；浅色虚线标示均值（–）和中位数（:）。DC：均值 2.8%，中位数 1.81%，90% 的场景差距 <5%。GridSFM：均值 3.41%，中位数 2.23%，90% 的场景差距 <5%。两个分布在主体部分高度重叠——这些方法处于同一准确性类别，并具有互补的失效模式。参考虚线位于 5%。

两种分布在形状上看起来相同：在 2–3% 的差距区间有一个单峰，大多数场景低于 5%，并有一小段离群值尾部延伸到 >25% 的范围。离群值尾部来自不同来源：DC 在一些电网上失效，因为其无无功线性化在结构上是错误的（case1803_snem 以及少数网状输电网）；GridSFM 的离群值集中在我们少数几个开源电网上，这些电网的 AC-OPF 参考本身需要额外的约束松弛才能变得可行（在新标签页中打开），因此这些电网上的真实目标噪声更大，差距在一定程度上反映了参考侧的不稳定性。这两种局限沿正交方向收敛：DC 的上限由线性化决定，不会随着更多数据或计算而改善；GridSFM 的尾部会随着这些电网族上更干净的参考标签和更多训练数据而收敛。

因此，GridSFM 的差异化价值不在于单独的成本数值，而在于 GridSFM 会生成包含电压和无功功率的完整 AC 运行点。这使运营人员能够直接评估电网状态。这一点很重要，因为系统的可行性和安全性通常由电压和无功功率限制决定，但 DC-OPF 并未考虑二者。同时，该运行点还支持热启动工作流，正如我们接下来所述。

热启动交接

AC-OPF 求解器的工作方式是不断迭代改进运行点的初始猜测，直到满足最优性条件；其所需的改进迭代次数直接取决于初始猜测与真实最优解的接近程度：较差的起点可能需要数千次迭代，而接近最优的起点只需几次。冷启动（也称为平坦启动）将每个母线的电压幅值设为 1.0 标幺值、相角设为零，因此求解器需要完成全部工作量。热启动则用更接近的估计值替代该通用值，使求解器更快收敛。DC 近似热启动会先求解该问题的线性化 DC-OPF 版本，并用该解初始化 AC 求解器。相比之下，GridSFM 热启动通过模型执行一次前向传播，并用其预测的电压相角和有功调度来初始化求解器。绝对

我们的性能剖析显示，GridSFM 热启动比冷启动快 1.66×，比 DC 近似热启动快 1.59×（均为 54 个电网测试场景的几何平均值），并且在 54 个电网中的 41 个上快于两个基线。在网状输电网（Texas2k summer-peak、case2742_goc）上，单个电网相对于冷启动的最大加速比超过 7×。相比之下，DC 近似热启动在这一更广泛的电网组合中平均来看基本持平（相对于冷启动的几何平均为 1.04×）；DC 在某些电网上节省了 AC 迭代次数，但在其他电网上又把这些迭代花在重建电压/无功上。

图 7 中 GridSFM 分布与 GT 上限分布（几何平均 2.72×）之间的差距，可以通过改进 GridSFM 的残余无功功率和电压预测误差来缩小，这两者都是下一版本的目标。

泛化

我们测试了 GridSFM-Open 是否像真正的基础模型一样发挥作用，方法是在一个它从未见过的电网上运行它：来自 OPFData（在新标签页中打开）的 6,470 节点 case6470_rte，规模约为训练中任何电网的 1.4 倍。

在零样本设置下，性能如预期下降。成本误差从样本内的 3.35% 增加到新电网上约 14%。电压预测仅捕捉到真实变化的约 27%，并且看起来几乎是平坦的。可行性分类器将每个场景都标记为不可行。即便如此，模型仍然保留了各场景之间成本的正确排序。

经过轻量微调后，性能迅速恢复。在 1,000 个场景上训练 10 个 epoch 后，成本误差降至 1.12%，电压变化达到真实信号的 91%，可行性检测变得近乎完美。在微调期间完全保留未使用的一个 N-1 故障拆分，在所有指标上与完整拓扑结果的差距均在 0.2 个百分点以内，表明这种适应能够跨故障迁移。

即使数据非常有限，模型也能适应。仅使用 10 个场景时，成本误差为 1.76%，可行性检测超过 90%，并且在成本和有功功率调度方面已经取得了强劲结果。电压幅值恢复较慢，需要接近 1,000 个场景（见表 1）。

该测试表明，GridSFM-Open 在预训练期间已经捕捉到了 AC-OPF 物理特性。适配到新的电网主要是校准问题，而不是重新学习。因此，已发布的检查点可以作为一个实用起点，供用户在自己的拓扑和任务上进行微调。

Fine-tune scenariosCost errorFeasibility Detection0 (0-shot)14%0 (Collapsed)101.76%92%1000.88%97%10001.12%99%

表 1：GridSFM-Open 在 case6470_rte 上的少样本微调（留出测试集划分，每行 10 个 epoch）：即使约 10 个场景也已经能够给出有用的成本和可行性预测。

展望未来

下一版本的活跃方向：

泛化能力。在训练组合之外的电网和运行条件下实现更高精度。当前的分布外分析见白皮书。
在所有预测通道上持续提升准确性，缩小 Figure 7 中 GridSFM 分布与黄金标准 GT-ceiling 之间的残余差距。
多快照扩展。机组组合（跨时间的离散发电机开/关决策）、基于天气条件的情景生成、动态稳定性替代模型。

我们此前发布了 GridSFM_US _Powergrid_dataset（在新标签页中打开）。本次发布新增了首个支持多种电网拓扑的开放 AC-OPF 模型，完善了一个用于 ML 驱动电网仿真与规划的开放拓扑数据、开放代码和开放权重技术栈。我们将其视为社区构建更丰富的仿真器、规划工作流和决策支持工具的起点，而无需从头重新创建数据或模型。我们预计，最能从中受益的应用是那些历史上因单次求解成本高而被迫进行选择性筛选的场景：事故筛选、输电扩展规划、需求选址分析，以及极端天气下的韧性研究。

GridSFM-Open 层级中的所有内容现已发布，可用于研究用途：

关于 GridSFM-Premier 的说明。更大的生产规模层级不属于此次开放发布的一部分。如果你有兴趣评估它、与我们合作，或以其他方式获取访问权限，请通过 gridFM@microsoft.com 联系我们。

在新标签页中打开

GridSFM：面向电网的新型小型基础模型