#Studi

Transformers

Note rapide sul modello di deep learning Transformers, partendo dal paper "Attention is All You Need" di Vaswani et al.

Scarica PDF (link esterno)


Transformer Visualizer

Pannello interattivo per ispezionare l'architettura Attention Is All You Need.

Scaled Dot-Product Attention

Seleziona una parola per vedere come la sua Query (Q) valuta le Keys (K) delle altre parole per estrarre il Value (V). L'intensità della linea rappresenta il punteggio Softmax.

Query (Q)
"down"
Cerco il mio contesto...
Key (K)Il
Softmax Weight0%
Key (K)server
Softmax Weight80%
Key (K)principale
Softmax Weight10%
Key (K)è
Softmax Weight30%
Key (K)down
Softmax Weight100%

Spiegazione

L’idea di base dei Transformers è quella di utilizzare meccanismi di attenzione per elaborare sequenze di dati, come il testo, in modo parallelo piuttosto che sequenziale. Questo approccio consente di catturare dipendenze a lungo raggio in modo più efficiente rispetto ai modelli basati su RNN o LSTM.

Il paper “Attention is All You Need” introduce il concetto di self-attention, che permette al modello di pesare l’importanza di diverse parti della sequenza di input per ogni elemento della sequenza di output.

Torna alla home