top of page

在文本标注任务中,ChatGPT 的表现优于人群工作者


Edited by Mary Waters, Harvard University, Cambridge, MA; received March 27, 2023; accepted June 2, 2023

July 18, 2023

120 (30) e2305016120





摘要

许多 NLP 应用都需要人工文本注释来完成各种任务,特别是训练分类器或评估无监督模型的性能。根据任务的规模和复杂程度,这些任务可以由 MTurk 等平台上的群众工作者以及经过培训的注释者(如研究助理)来完成。我们使用了四个推文和新闻文章样本(n = 6,183),结果表明 ChatGPT 在相关性、立场、主题和框架检测等几项注释任务中的表现优于人群工作者。在四个数据集上,ChatGPT 的零点准确率平均比人群工作者高出约 25 个百分点,而在所有任务中,ChatGPT 的代码间一致性都超过了人群工作者和训练有素的注释者。此外,ChatGPT 的每次注释成本不到 0.003 美元,比 MTurk 便宜约 30 倍。这些结果证明了大型语言模型在大幅提高文本分类效率方面的潜力。




Comments


bottom of page