Quando i grandi modelli linguistici non sono all’altezza, le conseguenze possono essere gravi. Perché è così difficile riconoscerlo?
Il lancio al pubblico di Language Model molto grandi come ChatGPT (una chatbot che risponde alle domande) e Galactica (uno strumento per la scrittura scientifica) hanno riportato a galla una vecchia discussione su ciò che questi modelli possono fare. Le capacità di questi strumenti sono state presentate come straordinarie, incredibili, autonome; gli evangelist più appassionati hanno affermato che questi modelli che contengono lo scibile dell’umanità, si avvicinano al concetto di intelligenza artificiale generale (AGI) e assomigliano persino ad individui coscienti. Tuttavia, questo hype non è altro che una distrazione dal vero pericolo portato da questo tipo di sistemi. Le persone sono frustrate dai casi pratici nei quali questi modelli (apparentemente perfetti) falliscono, ma questi fallimenti sono il risultato delle scelte e delle decisioni dei loro creatori – scelte per le quali dobbiamo ritenerli responsabili del funzionamento corretto nei vari casi.
Tra le implementazioni AI più celebri c’è quella di BERT, uno dei primi grandi Language Model sviluppati da Google per migliorare i risultati del motore di ricerca dell’azienda. Tuttavia, quando un utente cercava come gestire una crisi epilettica, riceveva risposte inappropriate che mettevano al primo posto cose che non avrebbe dovuto fare, come “tenere la persona ferma a terra” e “mettergli qualcosa in bocca”. Chiunque avesse seguito le direttive fornite da Google sarebbe stato quindi istruito a fare esattamente l’opposto di ciò che un medico avrebbe raccomandato, rischiando di causare la morte.
L’errore di Google sulla gestione delle crisi epilettica ha perfettamente senso, dato che una delle vulnerabilità note degli LLM è la loro incapacità di gestire la negazione, come ha dimostrato anni fa Allyson Ettinger con un semplice studio. Quando gli veniva chiesto di completare una breve frase, il modello rispondeva al 100% in modo corretto per le affermazioni affermative (“un pettirosso è…”) e al 100% in modo errato per le affermazioni negative (“un pettirosso non è…”). In realtà, è emerso che i modelli non erano in grado di distinguere tra i due scenari e fornivano le stesse identiche risposte (usando sostantivi come “uccello”) in entrambi i casi. La negazione rimane un problema ancora oggi ed è una delle rare abilità linguistiche che non migliora con l’aumentare delle dimensioni e della complessità dei modelli. Questi errori riflettono preoccupazioni più ampie che i linguisti hanno sollevato sul fatto che questi modelli linguistici artificiali operino effettivamente tramite un gioco di specchi: l’apprendimento della forma della lingua inglese senza possedere le capacità linguistiche che effettivamente dimostrerebbero una reale comprensione .
Inoltre, i creators di tali modelli confessano la difficoltà di affrontare risposte inappropriate che “non riflettono accuratamente i contenuti provenienti da fonti esterne autorevoli”. Galactica e ChatGPT hanno generato, ad esempio, un “articolo scientifico” sui benefici del consumo di vetro frantumato (Galactica) e un testo su” come la porcellana frantumata aggiunta al latte materno può supportare il sistema digestivo del bambino appena nato” (ChatGPT). In effetti, Stack Overflow ha dovuto vietare temporaneamente l’uso delle risposte generate da ChatGPT poiché è diventato evidente che LLM genera risposte convincenti, ma sbagliate rispetto a domande su come scrivere del codice sorgente.
Molti dei danni potenziali e reali di questi modelli sono stati studiati in modo esaustivo. Ad esempio, è noto che questi modelli presentano seri problemi di robustezza. La sensibilità dei modelli a semplici errori di battitura e ortografia nelle richieste e le differenze nelle risposte causate anche da una semplice riformulazione con parole diverse della stessa domanda li rendono inaffidabili per un uso “in casi reali”, come la traduzione in ambito medico o la moderazione dei contenuti, soprattutto per chi è emarginata (differenze di dialetto o minori capacità di linguaggio). Ciò si aggiunge a una serie di ostacoli ormai ben documentati per un’implementazione sicura ed efficace, come il modo in cui i modelli memorizzano le informazioni personali sensibili dai training data o dagli stereotipi sociali che interpretano. Esiste una causa che è stata archiviata, che rivendica danni causati da attività di addestramento dei modelli su dati proprietari o concessi in licenza. È scoraggiante notare che molti di questi problemi segnalati “di recente” sono in realtà fallimenti noti, già documentati in passato: i pericolosi pregiudizi che i modelli diffondono oggi sono stati riscontrati già nel 2016, quando è stato rilasciato il chatbot Tay, e di nuovo nel 2019 con il GTP-2. Man mano che i modelli si ingrandiscono nel tempo, diventa sempre più difficile documentare i dettagli dei dati coinvolti e giustificare a quale prezzo sono stati ottenuti.
E il comportamento asimmetrico blame-praise persistono. I creatori di modelli e gli evangelist attribuiscono risultati impressionanti e apparentemente impeccabili a un modello incredibilmente autonomo, una sorta di meraviglia tecnologica. Il processo decisionale umano coinvolto nello sviluppo del modello viene cancellato e i risultati delle interrogazioni al modello vengono osservate in modo indipendente dalle scelte di progettazione dei suoi ingegneri. Ma senza fare riferimento a tali scelte è quasi impossibile identificare le relative responsabilità in caso di risultato errato. Di conseguenza, sia gli errori funzionali che gli output significativi di questi modelli vengono inquadrati come non collegati alle scelte ingegneristiche, imputati alla società in generale o a set di dati presumibilmente “presenti in natura”, fattori sui quali le aziende che sviluppano questi modelli affermano di avere scarso controllo. Ma il fatto è che il controllo lo hanno e nessuno dei modelli che stiamo vedendo ora è da accettare senza riserve. Sarebbe stato del tutto realizzabile fare scelte diverse che possano portare al rilascio di modelli completamente diversi.
Quando nessuno è colpevole, è facile liquidare le critiche come infondate e denigrarle come “negativismo”, “anti-progresso” e “anti-innovazione”. Dopo la chiusura di Galactica il 17 novembre, Yann LeCun, capo scienziato AI di Meta, ha risposto: “La demo di Galactica è offline per ora. Non è più possibile divertirsi facendone un uso improprio. Dispiaciuti?” In un altro thread, ha insinuato di essere d’accordo con l’affermazione che ” questo è il motivo per cui non possiamo avere cose apprezzabili”. Ma il sano scetticismo, la critica e la prudenza non sono attacchi, “uso improprio” o “abuso” di modelli, ma piuttosto sono atteggiamenti necessari per il processo di miglioramento delle prestazioni. La critica nasce dal desiderio di responsabilizzare attori potenti, che ignorano ripetutamente le proprie responsabilità, ed è profondamente radicata nella speranza di un futuro in cui tali tecnologie possano esistere senza danneggiare le comunità più a rischio.
Nel complesso, questo schema ricorrente di approcci poco attenti al rilascio dei modelli – e le risposte sempre sulla difensiva ai feedback critici – è preoccupante. Aprire i modelli alle richieste di un gruppo eterogeneo di utenti e sondarli con la più ampia gamma di query possibile è fondamentale per identificare le vulnerabilità e i limiti di tali modelli. È anche un prerequisito per migliorare questi modelli per applicazioni mainstream più significative.
Sebbene le scelte di coloro che godono di privilegi abbiano creato questi sistemi, per qualche motivo sembra essere compito degli emarginati “aggiustarli”. In risposta all’output razzista e misogino di ChatGPT, il CEO di OpenAI Sam Altman ha fatto appello alla comunità di utenti affinché contribuissero a migliorare il modello. Questi controlli in crowdsourcing, soprattutto se sollecitati, non sono nuovi scenari di responsabilità: impegnarsi in questo tipo di feedback costituisce un lavoro, anche se non retribuito. Le persone ai margini della società che sono colpite in modo sproporzionato da questi sistemi, sono esperte nel verificarli, grazie alla loro esperienza diretta. Non a caso, i contributi cruciali che dimostrano il fallimento di questi grandi modelli di linguaggio e le proposte per mitigare i problemi sono spesso forniti da studiosi di colore – molti dei quali donne – e da giovani studiosi che sono sottofinanziati e lavorano in condizioni relativamente precarie. È su di loro che ricade il peso non solo di fornire questo feedback, ma anche di svolgere i compiti che gli stessi creatori del modello dovrebbero gestire prima del rilascio, come la documentazione, l’analisi e la cura dei dati.
Per noi la critica è un servizio. Critichiamo perché ci interessa molto il tema. E se queste potenti aziende non sono in grado di rilasciare sistemi che soddisfino le aspettative di coloro che hanno maggiori probabilità di essere danneggiati da essi, allora i loro prodotti non sono pronti per servire queste comunità e non meritano di essere diffusi.
Vi aspettiamo al prossimo workshop gratuito per parlarne dal vivo insieme a Andrea Guzzo!
Clicca qui per registrarti!
Non perderti, ogni mese, gli approfondimenti sulle ultime novità in campo digital! Se vuoi sapere di più, visita la sezione “Blog“ sulla nostra pagina!