El transformer fue introducido en 2017 en "Attention Is All You Need" y se convirtió en la base de GPT, BERT y prácticamente todos los modelos de lenguaje modernos.

El problema con las RNN

Antes de los transformers, los modelos de secuencia procesaban el texto de izquierda a derecha, un token a la vez.

La atención

Para cada token, la atención calcula una suma ponderada de todos los demás tokens.