Denne artikkelen har tittelen "Can Large Language Models Provide Useful Feedback on Research Papers? A Large-Scale Empirical Analysis", er et samarbeid mellom et bredt sammensatt team av forskere med ulik akademisk bakgrunn og fra ulike institusjoner. Studien ble publisert 17. juli 2024 i NEJM AI, volum 1, utgave 8. Artikkelen utforsker potensialet store språkmodeller (LLM-er) har når det gjelder å gi nyttige tilbakemeldinger på forskningsartikler, og presenterer en storstilt empirisk analyse for å belyse dette spørsmålet. Denne banebrytende studien undersøker potensialet store språkmodeller (LLM-er), nærmere bestemt GPT-4, har for å gi nyttige tilbakemeldinger på forskningsartikler. Forskerne utviklet en automatisert pipeline ved hjelp av GPT-4 for å generere strukturerte tilbakemeldinger på vitenskapelige artikler, og gjennomførte to storskala studier for å evaluere effektiviteten.
Viktige funn:
Retrospektiv analyse:
Sammenlignet GPT-4s tilbakemeldinger med tilbakemeldinger fra menneskelige fagfellevurderere på 3096 artikler fra Nature-tidsskrifter og 1709 artikler fra ICLR-konferansen.
Overlappingen mellom GPT-4 og tilbakemeldinger fra menneskelige fagfeller (30,85 % for Nature-tidsskrifter, 39,23 % for ICLR) var sammenlignbar med overlappingen mellom to menneskelige fagfeller (28,58 % for Nature-tidsskrifter, 35,25 % for ICLR).
GPT-4s tilbakemeldinger viste høyere overlapping med menneskelige bedømmere for svakere artikler (f.eks. avviste ICLR-artikler).
Prospektiv brukerstudie:
Undersøkelse blant 308 forskere fra 110 amerikanske institusjoner innen kunstig intelligens og beregningsbiologi.
57,4 % av brukerne mente at GPT-4-genererte tilbakemeldinger var nyttige eller svært nyttige.
82,4 % mente at den var mer nyttig enn tilbakemeldinger fra i det minste noen menneskelige korrekturlesere.
Kjennetegn ved GPT-4-tilbakemeldinger:
GPT-4 var mer tilbøyelig til å identifisere problemer som ble tatt opp av flere menneskelige korrekturlesere.
Modellen hadde en tendens til å fokusere mer på visse aspekter av tilbakemeldingene enn mennesker (f.eks. forskningsimplikasjoner).
GPT-4 genererte ikke-generiske, papirspesifikke tilbakemeldinger.
Begrensninger:
GPT-4 hadde noen ganger problemer med å gi inngående kritikk av metodedesign.
Modellen hadde en tendens til å fokusere mer på visse aspekter ved vitenskapelig tilbakemelding enn andre.
Konsekvenser: Studien tyder på at selv om menneskelig ekspertvurdering fortsatt bør være fundamentet i den vitenskapelige prosessen, kan LLM-genererte tilbakemeldinger være til nytte for forskere, særlig når det ikke er mulig å få eksperttilbakemeldinger i tide eller i de tidlige stadiene av manuskriptutarbeidelsen. Funnene tyder på at LLM og menneskelige tilbakemeldinger kan utfylle hverandre, noe som potensielt kan forbedre den generelle kvaliteten på vitenskapelige vurderinger og tilbakemeldinger.
Comments