元鉴
返回中文阅读流

Microsoft Research Blog

构建大规模逼真电力传输电网数据集:源自开放数据集的流水线

微软研究院发布基于公开数据的美国电网近似传输拓扑开放数据集。研究输电级电网行为对现代电力系统至关重要,拥堵、扩展、需求增长及系统弹性分析均依赖真实网络模型。本文介绍从开放数据集构建大规模逼真电力传输电网数据集的流水线。

中文内容

已翻译official company source英文原文2026-05-08
Three minimalist white line icons on a blue-to-green gradient background: a connected globe with signal waves (left), a map location pin (center), and a lightbulb with rays (right), representing connectivity, location, and ideas.

概览

  • 我们完全基于公开可用数据构建具有地理依据且电气一致的电网模型,并发布一个覆盖美国48个州及多州互联电网的数据集。
  • 这些模型支持交流最优潮流(AC‑OPF)分析,使得无需受限数据即可基于物理规律研究拥塞、容量和需求选址。
  • 我们展示了相关应用,包括输电扩容潜力、有针对性的线路升级,以及大型数据中心负荷的选址。

Microsoft Research 很高兴发布一个开放数据集,该数据集基于公开可用数据推导出美国电网的近似输电拓扑。

研究输电层级电网行为的能力对于现代电力系统研究至关重要。对拥塞、输电扩建、需求增长和系统韧性的分析,都依赖于具有现实拓扑、电气参数和地理定位的网络模型。

在包括美国在内的世界大多数地区,现实的输电层级电网数据被归类为关键基础设施信息,并受到严格的访问控制。这些限制有其充分理由,但由此导致的现实电网模型缺乏,正日益加剧电力系统面临的挑战。关于新负荷可以在哪里接入,以及如何部署额外输电资产来支持这些负荷的决策,往往受制于冗长且不透明的流程,可能需要数年时间。对于开发新工具和算法的研究人员而言,获取访问权限通常需要漫长的审批周期、严格的禁止再分发协议,或昂贵的商业许可证。

因此,许多人只能在仅有几十个母线的小型“玩具”网络与不对应真实基础设施的合成模型之间做选择。这种缺乏现实、可共享模型的情况,尤其限制了数据驱动和基于 AI 的方法,因为这些方法需要大量在物理上合理的电网数据,用于训练以及电网分析和规划方法的评估。

在这一背景下,一个自然的问题出现了:

我们能否仅使用开放数据,有意义地理解美国电网如何应对现代压力,并促进为该系统开发可操作的解决方案?

在这项工作中,我们提出了一条由开放数据衍生的流程,用于构建大规模、输电级电网模型,这些模型能够在不依赖专有或受限数据集的情况下,真实地近似现有网络。我们提供了一个由该过程衍生的开放数据集,其中包含覆盖美国 48 个州的输电级模型以及互联系统尺度的网络,规模从少至 11 个母线的小型系统,到连接 21,697 个母线的完整东部互联系统电网不等。该流程已在美国本土范围内得到验证;在这些地区,有充足的开放地理、能源和人口统计数据可用,并且该流程被设计为可推广到拥有类似公共数据源的其他地区。

该流程仅使用公开可访问的数据集,在州、多州和互联电网尺度上生成具有地理基础且电气一致的输电模型。这些模型保留了从开放数据推断出的输电走廊、变电站和发电机的地理结构,同时在缺乏详细运行参数的情况下,通过透明的可行性报告明确考虑不确定性。

重要的是,这些并非玩具网络或抽象基准。生成的模型支持在广泛尺度上进行交流最优潮流(AC-OPF)分析,从而能够基于物理规律研究诸如输电容量在何处受到物理约束、何处可以吸收新增需求,以及基础设施变化如何在真实网络布局中传播等问题——且仅使用开放数据。

在本文中,我们将从高层次介绍该方法,并重点说明它能够支持的系统层面问题。

该流程如何运作

该流程将公开可用的地理和能源数据转化为输电级电网模型,这些模型具有地理基础,并可用于潮流分析。

起点是 OpenStreetMap(在新标签页中打开),它对输电走廊、变电站和发电厂的物理布局进行编码。随后,这一地理骨架会通过描述发电容量、燃料结构、需求和运行边界的开放数据集进行增强(包括美国 EIA 能源统计数据和美国人口普查数据),使模型能够超越拓扑结构,表示电力如何生产和消费。

关键测试是可求解性。在电力系统分析中,求解最优潮流(OPF)问题是检验网络描述在电气上是否连贯且具有实际相关性的一种实用方法。OPF 确定如何调度发电以满足需求,同时遵守输电线路容量、电压限值和发电机能力等物理约束。许多推断或合成的网络无法通过这一测试:拓扑结构可能看起来大致正确,但其他重要的工程参数并不正确。

关键在于,这种方法超越了小型基准网络或“玩具”网络。具体而言,我们在整个 Eastern Interconnection 范围内求解 AC-OPF,覆盖 36 个州和 20,000 多个母线,且完全源自公开数据源。这表明,基于开放数据构建的模型能够在大陆尺度上生成收敛的 AC-OPF 解。

需要明确的是,这些模型并不是运行中电网的精确复制品,也不旨在供电力平衡机构用于市场预测或实时运行决策。电气参数是根据标准工程参考资料估算的;并联线路采用近似方式处理,而非穷尽枚举;负荷则使用源自开放数据的公共代理变量进行分配。

其目标是利用仅有的开放数据,生成在结构和电气特性上真实可信的模型,并保留从单个州到大型多区域系统的地理结构和规模。完整的方法细节、验证结果和局限性在配套研究论文中有所描述。

为什么这对当今的能源挑战很重要

随着能源系统在大规模数据中心、AI 工作负载、可再生能源发电和极端天气事件的推动下不断演变,获取可求解且具备地理基础的电网模型,使一些日益紧迫的问题得以被研究。我们通过基于我们流程生成的模型开展的具体分析来展示这些能力。

新的输电线路在物理空间上可以布设在哪里?

在询问电网需要多少新增容量之前,规划人员首先必须询问哪里甚至有可能铺设更多线路。输电走廊能够承载的回路数量存在物理上限:每个回路需要三根导线,而大多数杆塔结构可容纳一到三个回路(三到九根导线)。超过这一范围后,增加容量通常需要获取全新的通行权——这既昂贵、法律上复杂,在城市地区也往往在政治上不可行。

由于我们的模型保留了来自 OpenStreetMap 的真实输电走廊的地理结构,我们可以统计每条路径上的并行回路数量,并可视化显示电网在物理上已经饱和的位置。

Transmission corridor density across the contiguous United States, showing most corridors carry a single circuit with denser multi-circuit regions near major cities.
Zoomed view of California showing dense multi-circuit corridors near urban areas and lower-density radial lines in rural regions.
图 1. 在美国本土连续地区(上图),模型识别出 31,488 条不同的输电通道。绝大多数(27,506 条)仅承载一回线路(绿色),因此更容易增设并行线路。以橙色至红色显示的约 4,000 条通道已经承载两回或更多并行线路,其中最密集的情况是在同一路径上布设十回线路(30 根导线)。放大到加利福尼亚州(下图)后,这一模式更加清晰可辨。萨克拉门托以北的红色通道,以及湾区和洛杉矶盆地周边的橙色集群,显示出电网在物理上已经较为密集的区域;而横跨莫哈韦沙漠并延伸至内华达州的长距离绿色辐射状线路,仍有增长空间。

识别电网在物理上受限的位置,而不考虑发电或需求,并不是一个优化问题。这是一个空间可行性问题,基于地理信息的模型在回答此类问题上具有独特优势。

如果我们在最需要的地方增加容量,会怎样?

在人口密集的城市地区,新增传统输电线路往往并不现实。密集的建筑、道路以及复杂的地下基础设施交织在一起,几乎没有空间为高压线路建立通行权。因此,有时会探索替代性的电力传输解决方案,以支持城市电网扩展。例如,高温超导(HTS)电缆系统在给定截面下可提供高出一个数量级的载流量,从而能够以较低电压传输大量电力,并简化许可审批要求。

短距离点对点超导电力链路已经在美国多个城市得到示范:俄亥俄州哥伦布、纽约州奥尔巴尼、纽约州长岛(已退役)以及芝加哥(运行中)。

为探究此类连接可能实现的效果,我们在马萨诸塞州电网中建模了两条假设的 HTS 链路,每条都将波士顿西北部的一座变电站与更靠近该市的负荷中心连接起来。随后,我们重新求解 AC-OPF,并将结果与未修改的基线进行比较。

Baseline transmission line loading in Massachusetts showing one line exceeding its thermal limit and others operating near capacity.
Transmission line loading after adding two superconducting links, with no overloads.
图 2。在基线情形(上图)中,一条输电线路超过其热稳定额定值(≥100%,深红色),另有两条线路的负载率超过 90%。在增加两条 HTS 链路后(下图,虚线),网络中的每条线路负载率都降至 90% 以下。由于此前受限走廊后方被瓶颈限制的发电变得可输送,电价下降了 42%,从 22.7 美元/MWh 降至 13.1 美元/MWh。

这正是公开可用的价格数据无法提供的洞见。批发电价反映的是是否存在拥塞,但不能反映系统距离拥塞有多近,也不能反映新增资产后潮流如何变化。一条以其热极限 95% 运行的线路和一条以 50% 运行的线路在市场数据中看起来完全相同——直到其中一条达到容量上限。基于物理的模型直接揭示了这一裕度,使得在干预措施建成之前对其进行评估成为可能。

新的需求应该布局在哪里?

电力需求的快速增长提出了一个现有市场信号难以回答的问题:在电网的哪些位置可以吸纳新的用电负荷而不触发拥塞?

批发电价反映边际发电成本、输电网当前的拥塞模式以及输电损耗,而输电损耗通常较小——但它们并不体现系统距离其极限有多近。因此,仅基于价格的选址决策会忽略决定新增需求能否在无需基础设施升级的情况下得到服务的物理裕度。

为说明这一点,我们将同一个假设的 500 MW 数据中心分别放置在马里兰电网的两个地点,并针对每个地点重新求解 AC-OPF(地点为任意选择,并不反映 Microsoft 的数据中心组合或扩张计划)。从市场角度看,这两个站点都是合理的备选方案,人口密度相近、电价相当,并且靠近主要负荷中心:

  • 站点 A(巴尔的摩地区):位于巴尔的摩都会区的一座变电站,靠近现有发电综合设施和密集的输电基础设施
  • 站点 B(Washington, DC 郊区):位于蒙哥马利县的一座变电站,服务于 Washington–Baltimore 走廊内一个同样密集的郊区地区

尽管存在这些相似之处,实际物理结果却不同。在站点 A 增加数据中心会使附近一条输电线路进入热过载状态,而在站点 B 接入相同负荷则可被现有电网吸收,不会违反线路限值。两个站点相距不到 50 英里,但其中一个需要加强输电设施,另一个则不需要。

Datacenter placement near Baltimore causing a transmission line to exceed its thermal limit.
Datacenter placement near Washington DC that is absorbed without violating transmission line limits.
图 3. 将数据中心部署在 Baltimore 附近(上图)会使一条输电线路进入过载状态(≥100%),并将电价从 24.6 美元/MWh(基线)提高到 28.6 美元/MWh(+16.1%)。将相同负荷部署在 DC 郊区附近(下图)则使所有线路负载率保持在 95% 以下,并将电价提高到 26.4 美元/MWh(+7.4%)。Baltimore 站点的电价高出 2.1 美元/MWh——这一差异按 500 MW 负荷计算,约相当于每小时 9,100 美元,或每年约 8,000 万美元。

这种差异在价格数据中基本不可见,却直接来自更直接的第一性原理输电层级潮流分析。它凸显了为什么在承压电网中进行需求选址决策时,需要基于地理位置、以物理为基础的模型。

展望未来

这项工作表明,即使无法访问受限的基础设施数据,也可以在现实规模上研究输电层面的电网行为。通过将模型建立在真实地理基础上并明确不确定性,由开放数据衍生的电网可支持那些使用小型基准或纯合成网络难以或不可能开展的分析。

尽管本文示例聚焦于美国,但该方法可推广到其他拥有可比开放数据的地区。更广泛地说,我们将这种能力视为一个赋能层:一种改进对拥塞、可行性和系统压力研究的方式——无论是用于规划研究、情景分析,还是用于需要真实电网结构的数据驱动方法。

我们正在发布一个开放数据集,其中包含覆盖美国 48 个州和六个跨州互联系统的电网模型,范围从包含数十个母线的小型系统到大陆尺度网络。所有模型都可在 AC-OPF 下求解,并在必要时应用受控松弛,以考虑开放数据输入中的不确定性。这些模型在峰值和非峰值需求条件下均已求解,从而能够在一系列运行情景中进行一致分析。

本文是两篇系列文章中的第一篇。在第二篇文章中,我们将介绍 GridSFM,这是一种基于学习的 AC-OPF 代理模型,在这些电网模型上进行训练。我们展示了它如何在毫秒级预测完整的交流运行点、对可行性进行分类以便在规划尺度上快速筛选,并作为热启动种子加速下游数值求解器。

在新标签页中打开

原文标题

Building realistic electric transmission grid dataset at scale: a pipeline from open dataset