Google Books sta facendo un pasticcio con l’intelligenza artificiale?

Il desiderio di disciplinare l’utilizzo dell’intelligenza artificiale per la creazione e la diffusione di contenuti online sembra stia sfuggendo di mano ad alcuni servizi e, secondo quanto afferma un recente approfondimento di 404Media, lo avrebbe fatto anche in casa Google.

In particolare, sembra che Google Books, che indicizza materiale pubblicato ed è diventato essenziale per gli accademici e non solo, ha iniziato a indicizzare libri di bassa qualità, cosa che potrebbe avere un impatto significativo sul modo in cui informa il suo strumento di tracciamento linguistico, Ngram.

Più nel dettaglio, 404Media ha affermato che Google Books ha iniziato a includere diversi libri che anche l’intelligenza artificiale avrebbe potuto scrivere e che, anzi, potrebbero essere stati scritti proprio da un algoritmo. Il dossier del team di analisi ha effettuato infatti una ricerca su Google Libri utilizzando delle espressioni che sono tipicamente utilizzate dai chatbot come ChatGPT, sfruttando la funzione di ricerca che permette – appunto – di cercare su Google Books frasi o termini specifici, con richiami a quelle opere che le contengono.

Così facendo l’azienda ha potuto scoprire che una fortissimo numero di libri che compaiono nelle prime pagine della ricerca erano in realtà opere di tecnologia che sembravano essere state scritte da un bot.

404Media ha quindi dichiarato che una parte dei libri così individuati conterrebbe informazioni tipicamente scritte dagli algoritmi sull’intelligenza artificiale e che a riprova di ciò quegli stessi libri avrebbero condiviso dati e informazioni non aggiornate agli ultimi mesi, ulteriore testimonianza del fatto che sono stati realizzati sfruttando alcuni modelli di intelligenza artificiale che, come noto, non usano dati di addestramento molto recenti.

Il problema di tutto ciò non è irrilevante. Google Books costituisce infatti la maggior parte dei dati che supportano il suo programma Ngram, uno strumento di ricerca che traccia come il linguaggio è cambiato nel tempo. Ngram prende informazioni dalle opere scritte per mostrare come si evolve l’uso della lingua e pertanto deve la sua efficacia al database che sfrutta per questo scopo.

Ricordiamo che Google Books ha scansionato e indicizzato opere scritte risalenti al 1500 e Ngram ha aggiornato i dati citati per l’ultima volta nel 2019. Un database molto ampio che, sebbene non certo perfetto, è oggi correntemente utilizzato da linguisti e accademici per la raccolta di ricerche.

Google ha dichiarato a 404Media che le opere recenti presenti su Google Books non compaiono nei risultati di Ngram, ma è possibile che vengano inserite nei futuri aggiornamenti dei dati.