T'interessano le OFFERTE? Risparmia con i nostri coupon su WHATSAPP o TELEGRAM!

Il “jailbreak” di ChatGPT e Bard è possibile ed è anche facile

29 Dicembre 2023

L’evoluzione dei modelli linguistici di grandi dimensioni ha aperto nuovi orizzonti nella comunicazione e nell’intelligenza artificiale, ma porta con sé sfide significative e questioni etiche. Uno studio recente del Nanyang Technological University di Singapore esplora un nuovo algoritmo, Masterkey, progettato per “jailbreak” o superare i limiti imposti ad altre reti neurali come ChatGPT e Google Bard, sollevando questioni importanti sulla sicurezza e l’etica nell’uso delle tecnologie di intelligenza artificiale.

L’approccio innovativo e semplice di Masterkey nella ricerca sulla sicurezza dei chatbot come ChatGPT e Bard

In una recente ricerca condotta dal Nanyang Technological University di Singapore, viene introdotto un approccio innovativo per affrontare e superare queste limitazioni. Il loro algoritmo, noto come Masterkey, è progettato per aggirare le restrizioni imposte ad altre reti neurali attraverso tecniche sofisticate di jailbreak (termine utilizzato nell’ecosistema Apple). Questo non solo evidenzia le potenziali vulnerabilità dei modelli linguistici esistenti ma apre anche la strada a nuovi metodi per migliorarne la sicurezza e l’efficacia.

Masterkey opera attraverso richieste testuali specifiche, che possono spingere i modelli come ChatGPT a comportarsi in modi non previsti, come comunicare in maniere considerate non etiche o bypassare filtri di sicurezza. Queste tecniche di jailbreak, sebbene possano sembrare vantaggiose per testare e rafforzare i modelli, rappresentano anche un’arma a doppio taglio, in quanto potrebbero essere utilizzate per scopi malevoli.

Il team di ricerca ha analizzato specificamente le vulnerabilità di sicurezza dei modelli linguistici di fronte a carichi cognitivi multilingue, espressioni velate e ragionamenti causa-effetto. Questi attacchi, definiti di “cognitive overload”, sono particolarmente insidiosi in quanto non richiedono conoscenze approfondite dell’architettura del modello o accesso ai suoi pesi per essere condotti, rendendoli attacchi black-box efficaci.

Nel dettaglio, il team di ricerca ha adottato una strategia di reverse engeneering per comprendere a fondo le difese dei sistemi di intelligenza artificiale e sviluppare metodi innovativi per superarle. Il risultato di questo approccio è stato il “Masterkey”, un modello, una sorta di framework progettato per generare automaticamente prompt che eludono i meccanismi di sicurezza.

I risultati sono stati significativi: i prompt generati dal Masterkey hanno mostrato un tasso di successo medio del 21,58%, molto superiore rispetto al 7,33% dei metodi precedenti. Un esempio della loro tecnica include l’aggiunta di spazi extra tra i caratteri per eludere i sistemi di rilevamento delle parole chiave su ChatGPT e Bard. Una strategia davvero “scema” se pensiamo alla complessità di un modello linguistico di grandi dimensioni.

Di fronte a queste scoperte, è fondamentale considerare non solo come i modelli linguistici possono essere migliorati per resistere a tali attacchi, ma anche l’importanza di una regolamentazione etica nell’uso dell’intelligenza artificiale. La ricerca sottolinea l’urgenza di strategie di difesa più robuste e di un dialogo continuo tra sviluppatori, ricercatori e legislatori per garantire che il progresso tecnologico non superi la capacità della società di gestirne le implicazioni.