top of page
Forfatterens bildeLille My

AI's Peer Review: GPT-4 Matches Human Experts in Scientific Feedback



Denne artikkelen har tittelen "Can Large Language Models Provide Useful Feedback on Research Papers? A Large-Scale Empirical Analysis", er et samarbeid mellom et bredt sammensatt team av forskere med ulik akademisk bakgrunn og fra ulike institusjoner. Studien ble publisert 17. juli 2024 i NEJM AI, volum 1, utgave 8. Artikkelen utforsker potensialet store språkmodeller (LLM-er) har når det gjelder å gi nyttige tilbakemeldinger på forskningsartikler, og presenterer en storstilt empirisk analyse for å belyse dette spørsmålet. Denne banebrytende studien undersøker potensialet store språkmodeller (LLM-er), nærmere bestemt GPT-4, har for å gi nyttige tilbakemeldinger på forskningsartikler. Forskerne utviklet en automatisert pipeline ved hjelp av GPT-4 for å generere strukturerte tilbakemeldinger på vitenskapelige artikler, og gjennomførte to storskala studier for å evaluere effektiviteten.


Viktige funn:

  1. Retrospektiv analyse:

    • Sammenlignet GPT-4s tilbakemeldinger med tilbakemeldinger fra menneskelige fagfellevurderere på 3096 artikler fra Nature-tidsskrifter og 1709 artikler fra ICLR-konferansen.

    • Overlappingen mellom GPT-4 og tilbakemeldinger fra menneskelige fagfeller (30,85 % for Nature-tidsskrifter, 39,23 % for ICLR) var sammenlignbar med overlappingen mellom to menneskelige fagfeller (28,58 % for Nature-tidsskrifter, 35,25 % for ICLR).

    • GPT-4s tilbakemeldinger viste høyere overlapping med menneskelige bedømmere for svakere artikler (f.eks. avviste ICLR-artikler).

  2. Prospektiv brukerstudie:

    • Undersøkelse blant 308 forskere fra 110 amerikanske institusjoner innen kunstig intelligens og beregningsbiologi.

    • 57,4 % av brukerne mente at GPT-4-genererte tilbakemeldinger var nyttige eller svært nyttige.

    • 82,4 % mente at den var mer nyttig enn tilbakemeldinger fra i det minste noen menneskelige korrekturlesere.

  3. Kjennetegn ved GPT-4-tilbakemeldinger:

    • GPT-4 var mer tilbøyelig til å identifisere problemer som ble tatt opp av flere menneskelige korrekturlesere.

    • Modellen hadde en tendens til å fokusere mer på visse aspekter av tilbakemeldingene enn mennesker (f.eks. forskningsimplikasjoner).

    • GPT-4 genererte ikke-generiske, papirspesifikke tilbakemeldinger.

Begrensninger:

  • GPT-4 hadde noen ganger problemer med å gi inngående kritikk av metodedesign.

  • Modellen hadde en tendens til å fokusere mer på visse aspekter ved vitenskapelig tilbakemelding enn andre.


Konsekvenser: Studien tyder på at selv om menneskelig ekspertvurdering fortsatt bør være fundamentet i den vitenskapelige prosessen, kan LLM-genererte tilbakemeldinger være til nytte for forskere, særlig når det ikke er mulig å få eksperttilbakemeldinger i tide eller i de tidlige stadiene av manuskriptutarbeidelsen. Funnene tyder på at LLM og menneskelige tilbakemeldinger kan utfylle hverandre, noe som potensielt kan forbedre den generelle kvaliteten på vitenskapelige vurderinger og tilbakemeldinger.




Comentarios


bottom of page