本文题为 "大型语言模型能否为研究论文提供有用的反馈?A Large-Scale Empirical Analysis"(一项大规模实证分析),是由来自不同学术背景和机构的研究人员组成的研究团队共同努力的成果。这项研究发表于 2024 年 7 月 17 日的《NEJM AI》第 1 卷第 8 期。文章探讨了大型语言模型(LLM)在为研究论文提供有用反馈方面的潜力,并针对这一问题进行了大规模的实证分析。这项开创性的研究探讨了大型语言模型(LLM),特别是 GPT-4 在为研究论文提供有用反馈方面的潜力。研究人员利用 GPT-4 开发了一个自动管道,用于生成对科学论文的结构化反馈,并开展了两项大规模研究来评估其有效性。
主要发现:
1.回顾性分析: 比较了 GPT-4 与人类同行评审员对《自然》系列期刊 3096 篇论文和 ICLR 会议 1709 篇论文的反馈意见。GPT-4 与人类审稿人反馈的重合度(自然期刊为 30.85%,ICLR 为 39.23%)与两位人类审稿人反馈的重合度(自然期刊为 28.58%,ICLR 为 35.25%)相当、被拒的 ICLR 论文)。
57.4% 的用户认为 GPT-4 生成的反馈有帮助或非常有帮助
82.4% 的用户认为它比至少部分人类审稿人的反馈更有帮助
GPT-4 反馈的特点:
GPT-4 更有可能发现多个人类审稿人提出的问题。
该模型往往比人类审稿人更关注反馈的某些方面(如研究意义)。
GPT-4 生成非通用的、针对特定论文的反馈。
局限性: - GPT-4 有时难以对方法设计提供深入的评论。
意义:这项研究表明,虽然人工专家审稿仍应是科学流程的基础,但 LLM 生成的反馈也能为研究人员带来益处,尤其是在没有及时的专家反馈或稿件准备的早期阶段。研究结果表明,LLM 和人工反馈可以相互补充,从而有可能提高科学评审和反馈的整体质量。
Comments