摘要

LLM 越来越多用于生成和评判科学想法。本文研究研究问题（RQ）的新颖性评估，并提出基于近期 arXiv 论文的 RQ-Bench。

计算机科学 > 数字图书馆

[提交于 2026 年 6 月 10 日]

标题：论将 LLM 作为评审用于科学新颖性评估的局限

作者：Soumitra Sinhahajari, Navonil Majumder, Soujanya Poria

View PDF

摘要：LLM 越来越多地被用于生成和评判科学想法。这使得新颖性评估成为一个核心问题。完整的想法评估很困难，因为它通常需要评判一种方法、其可行性以及其实证前景。因此，我们研究一个更清晰的上游对象：研究问题（RQ）。RQ 生成是科学构思的前提，并且 RQ 可以与真实论文中探究的问题进行比较。我们提出 RQ-Bench，这是一个由近期 arXiv 论文构建的基准。对于每篇论文，我们根据其引用的背景、空白和贡献，重建以作者为锚点的 RQ。这些 RQ 并不是同一背景下唯一有效的问题。它们是用于测试新颖性判断的、以作者为锚点的参考点。我们使用独立的 LLM 评判、比较式 LLM 评判和人类专家评估来评价模型生成的 RQ。LLM 评审始终给出

Subjects: 数字图书馆（cs.DL）; Artificial Intelligence (cs.AI) Cite as: arXiv:2606.12071 [cs.DL] (or arXiv:2606.12071v1 [cs.DL] for this version) https://doi.org/10.48550/arXiv.2606.12071

聚焦以了解更多

arXiv-issued DOI via DataCite (pending registration)

提交历史

From: Soujanya Poria [view email]
[v1] Wed, 10 Jun 2026 13:34:38 UTC (565 KB)

全文链接：

访问论文：

查看许可证

当前浏览上下文：

正文：cs.DL

< prev | next >

new | recent | 2026-06

Change to browse by:

cs
cs.AI

参考文献与引用

正文：NASA ADS
正文：Google Scholar
正文：Semantic Scholar

export BibTeX citation 加载中...

BibTeX 格式引用

加载中...

数据提供方：

书签

Bibliographic Tools

书目与引用工具

书目浏览器切换

书目浏览器 (What is the Explorer?)

Connected Papers 切换

正文：Connected Papers (What is Connected Papers?)

Litmaps 切换

正文：Litmaps (What is Litmaps?)

scite.ai 切换

scite 智能引用 (What are Smart Citations?)

Code, Data, Media

与本文相关的代码、数据和媒体

alphaXiv 切换

正文：alphaXiv (What is alphaXiv?)

代码链接切换

CatalyzeX 论文代码查找器 (What is CatalyzeX?)

DagsHub 切换

正文：DagsHub (What is DagsHub?)

GotitPub 切换

正文：Gotit.pub (What is GotitPub?)

Huggingface 切换

正文：Hugging Face (What is Huggingface?)

ScienceCast 切换

正文：ScienceCast (What is ScienceCast?)

Demos

演示

Replicate 切换

正文：Replicate (What is Replicate?)

Spaces 切换

正文：Hugging Face Spaces (What is Spaces?)

Spaces 切换

正文：TXYZ.AI (What is TXYZ.AI?)

arXivLabs：与社区合作者开展的实验性项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发并分享新的 arXiv 功能。

与 arXivLabs 合作的个人和组织都已认同并接受我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。

有一个能为 arXiv 社区增加价值的项目想法吗？了解更多关于 arXivLabs 的信息。