美国国家科学院院刊发表的一项新研究发现,人工智能聊天机器人 GPT 是分析多语言文本中心理结构的有效工具。
来自斯坦福大学、普林斯顿大学和纽约大学的研究人员测试了 GPT 检测 12 种不同语言文本中的情感、情绪、冒犯性和道德基础的能力。他们发现,GPT 的性能明显优于传统的基于词典的方法,几乎与需要大量训练的顶级机器学习模型相当。
"GPT在跨语言检测心理结构方面取得了很高的准确率,而无需任何额外的训练数据,"领衔作者、斯坦福大学的 Steve Rathje 说。"这使它成为研究人员分析多语言文本数据的强大而易用的工具"。这项研究在 47,000 多条人工注释的社交媒体帖子和新闻标题上测试了 GPT 的三个版本(3.5、4 和 4 Turbo)。GPT 的表现远远超过了字典方法,在某些情况下甚至超过了经过微调的机器学习模型。值得注意的是,GPT 甚至在斯瓦希里语和基尼亚卢旺达语等较少使用的非洲语言上也表现出色。每推出一个新版本,它的准确率都会大幅提高,尤其是对这些不太常见的语言。研究人员认为,GPT 和类似的人工智能模型有助于让世界各地的社会科学家更容易获得高级文本分析,从而有可能促进更多跨文化研究。不过,他们提醒说,应该考虑到 GPT 的训练数据中可能存在的偏差。"合著者之一、纽约大学的 Jay Van Bavel 说:"虽然 GPT 并不完美,但它似乎是一个很有前途的工具,可以使复杂的文本分析能力平民化。"但研究人员在使用时应注意其局限性和潜在偏差。该研究提供了使用 GPT 进行心理文本分析的示例代码和教程。研究人员希望这能让更多科学家在工作中利用人工智能语言模型,同时鼓励进一步研究这些快速发展的工具的优势和局限性。
Steve Rathje https://orcid.org/0000-0001-6727-571X srathje@alumni.stanford.edu, Dan-Mircea Mirea https://orcid.org/0000-0002-4349-7059 dmirea@princeton.edu, Ilia Sucholutsky https://orcid.org/0000-0003-4121-7479, +2, and Jay J. Van Bavel https://orcid.org/0000-0002-2520-0442
摘要
社会和行为科学领域越来越多地使用自动文本分析来测量文本中的心理结构。我们探讨了人工智能聊天机器人 ChatGPT 所使用的大型语言模型(LLM)--GPT--是否可用作多种语言的自动心理文本分析工具。在 15 个数据集(n = 47,925 条人工标注的推文和新闻标题)中,我们测试了不同版本的 GPT(3.5 Turbo、4 Turbo 和 4 Turbo)是否能在 12 种语言中准确检测心理结构(情感、离散情绪、冒犯性和道德基础)。我们发现,GPT(r = 0.59 至 0.77)在检测人工注释者判断的心理结构方面的表现远远优于英语词典分析(r = 0.20 至 0.30)。GPT 的表现几乎与几个表现最佳的微调机器学习模型一样好,有时甚至更好。此外,GPT 的性能在不同版本的模型中都有所提高,尤其是对于较少使用的语言,而且成本也更低。总的来说,GPT 可能优于许多现有的自动文本分析方法,因为它在许多语言中都能达到相对较高的准确性,不需要训练数据,只需简单的提示(如 "这段文字是否定的吗?")和少量的编码经验即可轻松使用。我们提供了使用 GPT 应用程序接口分析文本的示例代码和视频教程。我们认为,GPT 和其他 LLM 通过使高级自然语言处理功能更易于使用,有助于实现自动文本分析的民主化,并可能有助于促进对未被充分研究的语言进行更多跨语言研究。
Comments