Transformer Visualizer
Pannello interattivo per ispezionare l'architettura Attention Is All You Need.
Scaled Dot-Product Attention
Seleziona una parola per vedere come la sua Query (Q) valuta le Keys (K) delle altre parole per estrarre il Value (V). L'intensità della linea rappresenta il punteggio Softmax.
Spiegazione
L’idea di base dei Transformers è quella di utilizzare meccanismi di attenzione per elaborare sequenze di dati, come il testo, in modo parallelo piuttosto che sequenziale. Questo approccio consente di catturare dipendenze a lungo raggio in modo più efficiente rispetto ai modelli basati su RNN o LSTM.
Il paper “Attention is All You Need” introduce il concetto di self-attention, che permette al modello di pesare l’importanza di diverse parti della sequenza di input per ogni elemento della sequenza di output.