Federico Lebrón YOU? Author Swipe

Last 10y

Open Invitation to Help Curate This Field & Enhance Impact .ORG

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints Open

Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón , et al. · 2023

Multi-query attention (MQA), which only uses a single key-value head, drastically speeds up decoder inference. However, MQA can lead to quality degradation, and moreover it may not be desirable to train a separate model just for faster inf…

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints Open

Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón , et al. · 2023

Computer science Mathematics

Creating related items for first view…