摘要
LLM 越来越多用于生成和评判科学想法。本文研究研究问题(RQ)的新颖性评估,并提出基于近期 arXiv 论文的 RQ-Bench。
计算机科学 > 数字图书馆
[提交于 2026 年 6 月 10 日]
标题:论将 LLM 作为评审用于科学新颖性评估的局限
View PDF摘要:LLM 越来越多地被用于生成和评判科学想法。这使得新颖性评估成为一个核心问题。完整的想法评估很困难,因为它通常需要评判一种方法、其可行性以及其实证前景。因此,我们研究一个更清晰的上游对象:研究问题(RQ)。RQ 生成是科学构思的前提,并且 RQ 可以与真实论文中探究的问题进行比较。我们提出 RQ-Bench,这是一个由近期 arXiv 论文构建的基准。对于每篇论文,我们根据其引用的背景、空白和贡献,重建以作者为锚点的 RQ。这些 RQ 并不是同一背景下唯一有效的问题。它们是用于测试新颖性判断的、以作者为锚点的参考点。我们使用独立的 LLM 评判、比较式 LLM 评判和人类专家评估来评价模型生成的 RQ。LLM 评审始终给出
Subjects:
数字图书馆(cs.DL); Artificial Intelligence (cs.AI)
Cite as:
arXiv:2606.12071 [cs.DL]
(or
arXiv:2606.12071v1 [cs.DL] for this version)
https://doi.org/10.48550/arXiv.2606.12071
聚焦以了解更多
arXiv-issued DOI via DataCite (pending registration)
参考文献与引用
- 正文:NASA ADS
- 正文:Google Scholar
- 正文:Semantic Scholar
export BibTeX citation
加载中...
Bibliographic Tools
Code, Data, Media
Demos
Related Papers
About arXivLabs





书目与引用工具
书目浏览器切换
书目浏览器 (What is the Explorer?)
Connected Papers 切换
正文:Connected Papers (What is Connected Papers?)
Litmaps 切换
正文:Litmaps (What is Litmaps?)
scite.ai 切换
scite 智能引用 (What are Smart Citations?)
与本文相关的代码、数据和媒体
alphaXiv 切换
正文:alphaXiv (What is alphaXiv?)
代码链接切换
CatalyzeX 论文代码查找器 (What is CatalyzeX?)
DagsHub 切换
正文:DagsHub (What is DagsHub?)
GotitPub 切换
正文:Gotit.pub (What is GotitPub?)
Huggingface 切换
正文:Hugging Face (What is Huggingface?)
ScienceCast 切换
正文:ScienceCast (What is ScienceCast?)
演示
Replicate 切换
正文:Replicate (What is Replicate?)
Spaces 切换
正文:Hugging Face Spaces (What is Spaces?)
Spaces 切换
正文:TXYZ.AI (What is TXYZ.AI?)
推荐与搜索工具
链接到 Influence Flower
正文:Influence Flower (What are Influence Flowers?)
CORE 推荐器 (What is CORE?)
- 作者
- 发表场所
- 机构
- 主题
arXivLabs:与社区合作者开展的实验性项目
arXivLabs 是一个框架,允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织都已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个能为 arXiv 社区增加价值的项目想法吗?了解更多关于 arXivLabs 的信息。

