在文本标注任务中，ChatGPT 的表现优于人群工作者

2024年6月24日讀畢需時 1 分鐘

已更新：2024年10月9日

Fabrizio Gilardi https://orcid.org/0000-0002-0635-3048 gilardi@ipz.uzh.ch, Meysam Alizadeh https://orcid.org/0000-0001-6696-6471, and Maël Kubli https://orcid.org/0000-0002-5592-9648

Authors Info & Affiliations

Edited by Mary Waters, Harvard University, Cambridge, MA; received March 27, 2023; accepted June 2, 2023

July 18, 2023

120 (30) e2305016120

https://doi.org/10.1073/pnas.2305016120

摘要

许多 NLP 应用都需要人工文本注释来完成各种任务，特别是训练分类器或评估无监督模型的性能。根据任务的规模和复杂程度，这些任务可以由 MTurk 等平台上的群众工作者以及经过培训的注释者（如研究助理）来完成。我们使用了四个推文和新闻文章样本（n = 6,183），结果表明 ChatGPT 在相关性、立场、主题和框架检测等几项注释任务中的表现优于人群工作者。在四个数据集上，ChatGPT 的零点准确率平均比人群工作者高出约 25 个百分点，而在所有任务中，ChatGPT 的代码间一致性都超过了人群工作者和训练有素的注释者。此外，ChatGPT 的每次注释成本不到 0.003 美元，比 MTurk 便宜约 30 倍。这些结果证明了大型语言模型在大幅提高文本分类效率方面的潜力。

Full paper

生成式AI助力科研计划

在文本标注任务中，ChatGPT 的表现优于人群工作者

最新文章

Comentarios