Errori contagiosi tra i modelli come Chat-Gpt

I sistemi di Intelligenza Artificiale come Chat-Gpt , i cosiddetti modelli linguistici di grandi dimensioni (Llm ), possono insegnare ad altri modelli simili errori e tratti indesiderati, che persistono anche dopo che i dati sono stati ' ripuliti '. Ciò avviene attraverso segnali nascosti e meccanismi ancora in gran parte sconosciuti, come riporta lo studio pubblicato sulla rivista Nature. I risultati ottenuti dal gruppo di ricercatori guidato da Anthropic, un'azienda americana di IA che ha sviluppato una serie di Llm chiamati Claude, evidenziano la necessità di controlli di sicurezza più approfonditi quando si mettono a punto questi sistemi.

Chat-Gpt e simili possono essere utilizzati per addestrare altri modelli attraverso un processo chiamato 'distillazione', nel quale a un modello studente viene insegnato a imitare l'insegnante i nvece di partire da zero. Questa tecnica è usata per produrre versioni più economiche di un Llm, ma non è chiaro quali proprietà del modello maestro vengano trasferite all'allievo.

I ricercatori guidati da Alex Cloud e Minh Le hanno insegnato a Chat-Gpt 4.1 , una versione rilasciata nell'aprile 2025, a preferire certi animali e alberi , e l'hanno poi usata per addestrare un altro modello su dati non correlati. Quando lo studente è stato poi interrogato, ha menzionato l'animale o l'albero preferito dell'insegnante in oltre il 60% dei casi , contro il 12% di uno addestrato da un modello senza preferenze . E lo stesso meccanismo si è verificato quando l'addestramento ha riguardato sequenze numeriche contenenti errori, anche se i numeri erano stati filtrati per rimuoverli.

Gli autori dello studio hanno inoltre scoperto che questa trasmissione subliminale di tratti indesiderati si verifica principalmente quando maestro e allievo appartengono allo stesso modello , in questo caso Chat-Gpt 4.1, ma i meccanismi sottostanti restano oscuri e, sottolineano i ricercatori, richiedono dunque ulteriori approfondimenti.

© RIPRODUZIONE RISERVATA