Der Transformer wurde 2017 in "Attention Is All You Need" eingeführt und wurde zur Grundlage für GPT, BERT und praktisch jedes moderne Sprachmodell.

Das Problem mit RNNs

Vor Transformern verarbeiteten Sequenzmodelle Text von links nach rechts, ein Token nach dem anderen.

Attention

Für jedes Token berechnet Attention eine gewichtete Summe aller anderen Token.