T'interessano le OFFERTE? Risparmia con i nostri coupon su WHATSAPP o TELEGRAM!

Cosa è Mamba, l’architettura che punta a superare in tutto e per tutto GPT. Nuova era dell’AI?

18 Gennaio 2024

un serpente digitale rappresenta simbolicamente l'architettura Mamba nell'intelligenza artificiale

Oggi voglio andare un po’ più sul tecnico. Parliamo tutti i giorni di intelligenza artificiale ma è giusto sapere su cosa si basa e come funziona. A tal proposito voglio introdurvi a Mamba, una nuova architettura che promette di cambiare i modelli linguistici per come li conosciamo oggi. Le funzionalità di Mamba, comparati a quelli di GPT, sono estremamente più alte così come ciò che permette di fare.

Mamba è un nuovo orizzonte per l’intelligenza artificiale

L’architettura Transformer, introdotta nel 2016 attraverso il paper “Attention is All You Need” di Google, ha rappresentato una svolta per i modelli di linguaggio, permettendo loro di mantenere un contesto nelle interazioni. In breve: l’architettura Transformer è un modello AI utilizzato per la creazione di modelli come GPT (Generative Pretrained Transformer).

COME FUNZIONA L’ARCHITETTURA TRANSFORMER

Il cuore dell’architettura Transformer è il meccanismo di “attenzione“, che permette al modello di focalizzarsi su parti specifiche di un testo mentre ne genera o ne elabora un altro. Questo meccanismo rende i Transformer particolarmente efficaci nel comprendere il contesto e le relazioni complesse all’interno di un testo. In pratica, i modelli basati sull’architettura Transformer, come GPT, apprendono a generare e a comprendere il linguaggio attraverso due fasi principali: il training (addestramento) e l’inferenza (generazione di testo).
Durante il training, il modello viene addestrato su vasti dataset di testo per capire le strutture linguistiche, le relazioni tra le parole, il contesto, ecc. In fase di inferenza, il modello utilizza ciò che ha imparato per generare testo nuovo, rispondere a domande, tradurre lingue e altre attività di elaborazione del linguaggio.

Tuttavia, l’emergere di Mamba potrebbe segnare l’inizio di una nuova era. Quest architettura promette di essere più efficiente, in grado di superare alcune sfide chiave affrontate dai modelli attuali come GPT. Nello specifico, tre aspetti chiave rendono Mamba un’architettura promettente:

costi di inferenza ridotti: un aspetto fondamentale di Mamba è la significativa riduzione dei costi di inferenza. Come ho detto prima, l’inferenza è il processo attraverso il quale un modello di intelligenza artificiale, dopo essere stato addestrato, applica ciò che ha imparato a nuovi dati, generando testo o immagini. Nei modelli complessi come GPT-3 o GPT-4, questo processo può essere costoso in termini di risorse computazionali. Mamba promette di ridurre questi costi fino a cinque volte rispetto ai modelli basati su Transformer, il che potrebbe avere un impatto significativo, soprattutto per applicazioni che richiedono una rapida generazione di risposte o lavorano con enormi set di dati;
costo di calcolo dell’attenzione lineare: il secondo vantaggio di Mamba riguarda l’efficienza nel calcolo dell’attenzione. Nei modelli Transformer, il costo cresce potenzialmente (proprio a livello di potenza, non è un modo di dire) all’aumentare della lunghezza del testo. Questo significa che più lungo è il testo, più risorse sono necessarie per processarlo, limitando la praticità dei modelli in alcune applicazioni. Mamba propone una soluzione dove il costo cresce linearmente rispetto alla dimensione della finestra di attenzione, rendendo il processamento di testi lunghi più gestibile e meno oneroso in termini computazionali;
input estremamente maggiore: Mamba potrebbe gestire una finestra massima di input fino a 1 milione di token, molto più di quanto possibile con l’architettura Transformer. Questo significa che Mamba potrebbe, teoricamente, analizzare e comprendere testi estremamente lunghi, come interi libri, mantenendo la coerenza e i dettagli nel contesto. Per esempio, potrebbe analizzare un intero romanzo mantenendo una comprensione chiara dei personaggi, della trama e dei temi dall’inizio alla fine.

Nonostante le promesse di Mamba, il paper solleva dubbi sulla sua scalabilità, in particolare quando confrontato con modelli massivi come GPT-4, che ha 175 miliardi di parametri. La scalabilità, in termini molto semplici, si riferisce alla capacità di un sistema di gestire un aumento di lavoro o di crescere in dimensioni senza perdere efficacia. Immagina un piccolo ristorante che funziona bene con pochi clienti. Se il ristorante diventa popolare e inizia ad avere molti più clienti, dovrebbe essere in grado di gestire questo aumento senza compromettere la qualità del servizio o del cibo. Se ci riesce, allora è “scalabile”.

Mamba, nel suo stato attuale, è stato testato solo con 3 miliardi di parametri. Quindi, rimane incerto se le sue prestazioni ed efficienza possano essere mantenute o migliorate quando scalato a dimensioni maggiori.