中文内容

已翻译professional source英文原文2026-06-06

计算机科学 > 计算机科学与博弈论

[提交于 2026 年 6 月 4 日]

标题：DNQ：用于部分可观测 n 玩家博弈的深度纳什 Q 网络

作者：Qintong Xie, Edward Koh, Xavier Cadet, Peter Chin

摘要：许多现实世界的竞争系统要求多个决策者在共享约束、有限信息和重复交互下同时行动，例如拍卖、资源分配和安全竞争。我们将多轮同步竞价作为这类问题的受控测试平台，并提出 DNQ，这是一种用于训练竞价智能体的求解器嵌入式均衡监督框架。DNQ 在轨迹收集、基于评论器的收益估计、均衡计算和策略模仿之间交替进行。在每个访问到的状态下，一个共享评论器预测成对收益矩阵或精确的 N 玩家收益张量，外部求解器计算均衡策略，并通过最小化智能体的掩码策略与求解器导出的均衡目标之间的 KL 散度来训练智能体。我们重点关注一种可扩展的成对形式，该形式显著

Subjects: 计算机科学与博弈论（cs.GT）; Machine Learning (cs.LG) Cite as: arXiv:2606.06480 [cs.GT] (or arXiv:2606.06480v1 [cs.GT] for this version) https://doi.org/10.48550/arXiv.2606.06480

聚焦以了解更多

arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Qintong Xie [view email]
[v1] Thu, 4 Jun 2026 17:58:01 UTC (999 KB)

全文链接：

访问论文：

view license

当前浏览上下文：

正文：cs.GT

< prev | next >

new | recent | 2026-06

Change to browse by:

cs
cs.LG

参考文献与引用

正文：NASA ADS
正文：Google Scholar
正文：Semantic Scholar

export BibTeX citation 加载中……

BibTeX 格式引用

加载中……

数据提供方：

书签

Bibliographic Tools

书目与引用工具

书目浏览器切换

书目浏览器 (What is the Explorer?)

Connected Papers 切换

正文：Connected Papers (What is Connected Papers?)

Litmaps 切换

正文：Litmaps (What is Litmaps?)

scite.ai 切换

scite 智能引用 (What are Smart Citations?)

Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 切换

正文：alphaXiv (What is alphaXiv?)

代码链接切换

CatalyzeX 论文代码查找器 (What is CatalyzeX?)

DagsHub 切换

正文：DagsHub (What is DagsHub?)

GotitPub 切换

正文：Gotit.pub (What is GotitPub?)

Huggingface 切换

正文：Hugging Face (What is Huggingface?)

ScienceCast 切换

正文：ScienceCast (What is ScienceCast?)

Demos

演示

Replicate 切换

正文：Replicate (What is Replicate?)

Spaces 切换

正文：Hugging Face Spaces (What is Spaces?)

Spaces 切换

正文：TXYZ.AI (What is TXYZ.AI?)

arXivLabs：与社区合作者开展的实验性项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织均认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。

有能为 arXiv 社区增加价值的项目想法吗？了解更多关于 arXivLabs 的信息。

DNQ：用于部分可观测 n 玩家博弈的深度纳什 Q 网络