Da Apollo 11 a computer music, il più grande archivio mondiale software

Migliorare la compressione dei dati e le c apacità di ricerca per rendere più fruibile il Software Heritage Archive , il più grande archivio al mondo dedicato ai codici sorgente dei software pubblicamente disponibili , da quello che guidò l'Apollo 11 sulla Luna a quelli che hanno dato vita alla computer music: è l'obiettivo del progetto biennale coordinato da Paolo Ferragina, professore di informatica della Scuola Superiore Sant’Anna e dell’Università di Pisa, che è stato finanziato dalla Alfred P.Sloan Foundation, ente filantropico statunitense tra i più importanti sostenitori della ricerca in ambito scientifico, tecnologico, ingegneristico, matematico ed economico.

Il Software Heritage Archive è nato nel 2016 da un’ iniziativa no profit promossa dall'Istituto nazionale francese di ricerca in informatica, in collaborazione con l’Unesco, e coordinata dall'informatico italiano Roberto Di Cosmo. Attualmente l’archivio conserva oltre 23 miliardi di file , provenienti da più di 350 milioni di progetti software disponibili pubblicamente sul web, e creati da più di 85 milioni di programmator i.

Si tratta di un vero e proprio patrimonio immateriale dell’informatica che sta diventando sempre più prezioso anche per l’intelligenza artificiale : ricercatori e ingegneri stanno infatti costruendo modelli pre-addestrati per la generazione e la sintesi di codice e per migliorare le prestazioni dei Large Language Model come GPT-4 di OpenAI o Gemini di Google, addestrandoli sia sul linguaggio naturale che sul codice sorgente dei software pubblicamente disponibili.

Sapersi muovere in questa gigantesca biblioteca virtuale con strumenti più efficaci ed efficienti è la sfida del progetto coordinato dalla Scuola Superiore Sant’Anna di Pisa, che svilupperà nuovi algoritmi per la compressione dati (necessaria per risparmiare spazio di memorizzazione nell'archivio) e un motore di ricerca con caratteristiche uniche (ad esempio per rilevare e tracciare parti di codice plagiate o potenzialmente dannose per la cybersecurity).

© RIPRODUZIONE RISERVATA