Scienza: il 13,5% degli articoli biomedici potrebbe essere scritto da ChatGPT e altre IA nel 2024

Per misurare l'impatto dei modelli linguistici di grandi dimensioni sulla lingua scritta, i ricercatori hanno confrontato la frequenza effettiva delle parole nel 2024 con i valori previsti. La previsione si basava sui dati del 2021-2022, il periodo precedente all'implementazione su larga scala dell'LLM. Gli esperti hanno escluso i dati del 2023 dall'analisi, poiché potrebbero già riflettere l'effetto dell'uso dei chatbot basati sull'intelligenza artificiale. Tra tutte le 26.657 parole, gli scienziati hanno individuato molti termini con un forte abusamento nel 2024.
Tra i marcatori LLM, sono state identificate varie forme delle parole "delves" (scavare) con un coefficiente di frequenza in eccesso (r) = 28, "underscores" (enfatizzare) con r = 13,8, e "showcasing" (dimostrazione) con r = 10,7. Il gruppo includeva anche "potential" (potenziale), "findings" (risultati) e "critical" (critico). L'uso di tali parole marcatrici è aumentato notevolmente nel 2023-2024. A titolo di confronto, il coefficiente di frequenza in eccesso della parola "ebola" nel 2015 era 9,9 e "zika" nel 2017 era 40,4.
Rapporto di frequenza e gap di frequenza delle parole "ridondanti" nel 2022-2024
I ricercatori hanno anche selezionato manualmente 900 parole "ridondanti" uniche che si discostavano dal vocabolario standard degli articoli scientifici. Durante la pandemia di COVID-19, il loro corpus era costituito quasi interamente da parole di contenuto (come "respiratorio", "remdesivir", ecc.), mentre il vocabolario ridondante nel 2024 era costituito quasi interamente da parole di stile. Le parole di "contenuto" che si discostano dal vocabolario di base sono prevalentemente sostantivi (79,2%), e quindi la maggior parte delle parole "ridondanti" prima del 2024 erano anch'esse sostantivi. Al contrario, di tutte le 379 parole di stile nel 2024, il 66% erano verbi e il 14% erano aggettivi.
Riassumendo lo studio, gli esperti hanno concordato sul fatto che i loro colleghi utilizzino spesso gli LLM nel loro lavoro per migliorare la grammatica, la retorica e la leggibilità complessiva dei testi, nonché per facilitare la traduzione delle pubblicazioni in inglese e la creazione rapida di riassunti. Tuttavia, gli autori dello studio hanno sottolineato che i modelli linguistici spesso "inventano" citazioni false, traggono conclusioni inaccurate e formulano false affermazioni che suonano autorevoli e persuasive. Sebbene gli esperti possano individuare e correggere errori fattuali nei propri scritti, ciò diventa più difficile quando si lavora con revisioni della letteratura professionali (e in altri casi).
Inoltre, gli LLM possono riprodurre bias e altre carenze nei loro dati di training, oltre a generare plagio. Ciò rende i testi generati dall'IA meno diversificati e originali di quelli scritti da esseri umani. Tale unificazione può ridurre la qualità delle pubblicazioni scientifiche: ad esempio, tutte le conclusioni generate dall'IA su un determinato argomento possono suonare identiche, contenere le stesse idee e riferimenti, il che limita l'emergere di nuovi concetti e aggrava il problema delle citazioni non etiche. Gli autori dello studio temono inoltre che partecipanti senza scrupoli al processo scientifico, come le "cartiere", possano utilizzare modelli linguistici per produrre in serie pubblicazioni false.
Gli autori dello studio sottolineano che il loro metodo per individuare le parole "ridondanti" potrebbe contribuire a monitorare il futuro utilizzo degli LLM in pubblicazioni accademiche, richieste di sovvenzioni e altri testi. I ricercatori sperano inoltre che la loro analisi possa alimentare i necessari dibattiti sulle politiche degli LLM, fornendo un metodo per misurare l'uso di modelli linguistici più ampi.
Esistono altri rischi associati all'utilizzo dell'IA in ambito sanitario. Ad esempio, i ricercatori della Flinders University in Australia hanno scoperto che chatbot di IA popolari come GPT-4o di OpenAI, Gemini 1.5 Pro di Google, Claude 3.5 Sonnet di Anthropic e Grok Beta di X possono essere facilmente riutilizzati per fornire regolarmente risposte false a quesiti medici. Gli autori dello studio sono riusciti ad addestrare LLM a fornire citazioni false da riviste mediche reali e a creare un'apparenza di autorevolezza. Senza adeguate misure di sicurezza, gli aggressori potrebbero utilizzare queste capacità per produrre in massa disinformazione medica e diffonderla su Internet e sui social media, avvertono gli esperti.
vademec