LoLCATs: On Low-Rank Linearizing of Large Language Models Article Swipe

PDF

Michael Zhang , Simran Arora , Rahul Chalamala , Alan Wu , Benjamin Spector , Aaryan Singhal , Krithik Ramesh , Christopher Ré ·

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2410.10254

Recent works show we can linearize large language models (LLMs) -- swapping the quadratic attentions of popular Transformer-based LLMs with subquadratic analogs, such as linear attention -- avoiding the expensive pretraining costs. However, linearizing LLMs often significantly degrades model quality, still requires training over billions of tokens, and remains limited to smaller 1.3B to 7B LLMs. We thus propose Low-rank Linear Conversion via Attention Transfer (LoLCATs), a simple two-step method that improves LLM linearizing quality with orders of magnitudes less memory and compute. We base these steps on two findings. First, we can replace an LLM's softmax attentions with closely-approximating linear attentions, simply by training the linear attentions to match their softmax counterparts with an output MSE loss ("attention transfer"). Then, this enables adjusting for approximation errors and recovering LLM quality simply with low-rank adaptation (LoRA). LoLCATs significantly improves linearizing quality, training efficiency, and scalability. We significantly reduce the linearizing quality gap and produce state-of-the-art subquadratic LLMs from Llama 3 8B and Mistral 7B v0.1, leading to 20+ points of improvement on 5-shot MMLU. Furthermore, LoLCATs does so with only 0.2% of past methods' model parameters and 0.4% of their training tokens. Finally, we apply LoLCATs to create the first linearized 70B and 405B LLMs (50x larger than prior work). When compared with prior approaches under the same compute budgets, LoLCATs significantly improves linearizing quality, closing the gap between linearized and original Llama 3.1 70B and 405B LLMs by 77.8% and 78.1% on 5-shot MMLU.

Related Topics

Computer Science

Mathematics

Combinatorics

Concepts

Rank (graph theory) Computer science Mathematics Combinatorics

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2410.10254
PDF: https://arxiv.org/pdf/2410.10254
OA Status: green
Cited By: 1
Related Works: 10
OpenAlex ID: https://openalex.org/W4403570531

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4403570531

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2410.10254

Digital Object Identifier
Title: LoLCATs: On Low-Rank Linearizing of Large Language Models

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-10-14

Full publication date if available
Authors: Michael Zhang, Simran Arora, Rahul Chalamala, Alan Wu, Benjamin Spector, Aaryan Singhal, Krithik Ramesh, Christopher Ré

List of authors in order
Landing page: https://arxiv.org/abs/2410.10254

Publisher landing page
PDF URL: https://arxiv.org/pdf/2410.10254

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2410.10254

Direct OA link when available
Concepts: Rank (graph theory), Computer science, Mathematics, Combinatorics

Top concepts (fields/topics) attached by OpenAlex
Cited by: 1

Total citation count in OpenAlex
Citations by year (recent): 2025: 1

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4403570531
doi	https://doi.org/10.48550/arxiv.2410.10254
ids.doi	https://doi.org/10.48550/arxiv.2410.10254
ids.openalex	https://openalex.org/W4403570531
fwci
type	preprint
title	LoLCATs: On Low-Rank Linearizing of Large Language Models
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10181
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9932000041007996
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Natural Language Processing Techniques
topics[1].id	https://openalex.org/T10028
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9814000129699707
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Topic Modeling
topics[2].id	https://openalex.org/T10201
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9229999780654907
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1702
topics[2].subfield.display_name	Artificial Intelligence
topics[2].display_name	Speech Recognition and Synthesis
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C164226766
concepts[0].level	2
concepts[0].score	0.7007718086242676
concepts[0].wikidata	https://www.wikidata.org/wiki/Q7293202
concepts[0].display_name	Rank (graph theory)
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.4769231975078583
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C33923547
concepts[2].level	0
concepts[2].score	0.28620293736457825
concepts[2].wikidata	https://www.wikidata.org/wiki/Q395
concepts[2].display_name	Mathematics
concepts[3].id	https://openalex.org/C114614502
concepts[3].level	1
concepts[3].score	0.04997628927230835
concepts[3].wikidata	https://www.wikidata.org/wiki/Q76592
concepts[3].display_name	Combinatorics
keywords[0].id	https://openalex.org/keywords/rank
keywords[0].score	0.7007718086242676
keywords[0].display_name	Rank (graph theory)
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.4769231975078583
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/mathematics
keywords[2].score	0.28620293736457825
keywords[2].display_name	Mathematics
keywords[3].id	https://openalex.org/keywords/combinatorics
keywords[3].score	0.04997628927230835
keywords[3].display_name	Combinatorics
language	en
locations[0].id	pmh:oai:arXiv.org:2410.10254
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2410.10254
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2410.10254
locations[1].id	doi:10.48550/arxiv.2410.10254
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2410.10254
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5100612833
authorships[0].author.orcid	https://orcid.org/0000-0002-4647-3888
authorships[0].author.display_name	Michael Zhang
authorships[0].author_position	first
authorships[0].raw_author_name	Zhang, Michael
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5075032133
authorships[1].author.orcid	https://orcid.org/0000-0002-2087-8043
authorships[1].author.display_name	Simran Arora
authorships[1].author_position	middle
authorships[1].raw_author_name	Arora, Simran
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5114335063
authorships[2].author.orcid
authorships[2].author.display_name	Rahul Chalamala
authorships[2].author_position	middle
authorships[2].raw_author_name	Chalamala, Rahul
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5111657827
authorships[3].author.orcid
authorships[3].author.display_name	Alan Wu
authorships[3].author_position	middle
authorships[3].raw_author_name	Wu, Alan
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5004675499
authorships[4].author.orcid	https://orcid.org/0000-0003-0468-5986
authorships[4].author.display_name	Benjamin Spector
authorships[4].author_position	middle
authorships[4].raw_author_name	Spector, Benjamin
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5104346387
authorships[5].author.orcid
authorships[5].author.display_name	Aaryan Singhal
authorships[5].author_position	middle
authorships[5].raw_author_name	Singhal, Aaryan
authorships[5].is_corresponding	False
authorships[6].author.id	https://openalex.org/A5114335064
authorships[6].author.orcid
authorships[6].author.display_name	Krithik Ramesh
authorships[6].author_position	middle
authorships[6].raw_author_name	Ramesh, Krithik
authorships[6].is_corresponding	False
authorships[7].author.id	https://openalex.org/A5103852640
authorships[7].author.orcid
authorships[7].author.display_name	Christopher Ré
authorships[7].author_position	last
authorships[7].raw_author_name	Ré, Christopher
authorships[7].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2410.10254
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	LoLCATs: On Low-Rank Linearizing of Large Language Models
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10181
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9932000041007996
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Natural Language Processing Techniques
related_works	https://openalex.org/W4391375266, https://openalex.org/W2899084033, https://openalex.org/W2748952813, https://openalex.org/W2390279801, https://openalex.org/W4391913857, https://openalex.org/W2358668433, https://openalex.org/W4396701345, https://openalex.org/W2376932109, https://openalex.org/W2001405890, https://openalex.org/W4396696052
cited_by_count	1
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	1
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2410.10254
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2410.10254
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2410.10254
primary_location.id	pmh:oai:arXiv.org:2410.10254
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2410.10254
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2410.10254
publication_date	2024-10-14
publication_year	2024
referenced_works_count	0
abstract_inverted_index.3	159
abstract_inverted_index.a	66
abstract_inverted_index.--	10, 26
abstract_inverted_index.7B	54, 163
abstract_inverted_index.8B	160
abstract_inverted_index.We	56, 83, 145
abstract_inverted_index.an	94, 114
abstract_inverted_index.as	23
abstract_inverted_index.by	103, 238
abstract_inverted_index.of	15, 45, 77, 169, 181, 188
abstract_inverted_index.on	87, 171, 242
abstract_inverted_index.so	177
abstract_inverted_index.to	50, 53, 108, 166, 196
abstract_inverted_index.we	3, 91, 193
abstract_inverted_index.20+	167
abstract_inverted_index.3.1	233
abstract_inverted_index.70B	201, 234
abstract_inverted_index.LLM	72, 129
abstract_inverted_index.MSE	116
abstract_inverted_index.and	47, 81, 127, 143, 152, 161, 186, 202, 230, 235, 240
abstract_inverted_index.can	4, 92
abstract_inverted_index.for	124
abstract_inverted_index.gap	151, 227
abstract_inverted_index.the	12, 28, 105, 148, 198, 216, 226
abstract_inverted_index.two	88
abstract_inverted_index.via	62
abstract_inverted_index.(50x	205
abstract_inverted_index.0.2%	180
abstract_inverted_index.0.4%	187
abstract_inverted_index.1.3B	52
abstract_inverted_index.405B	203, 236
abstract_inverted_index.LLMs	18, 34, 156, 204, 237
abstract_inverted_index.When	210
abstract_inverted_index.base	84
abstract_inverted_index.does	176
abstract_inverted_index.from	157
abstract_inverted_index.less	79
abstract_inverted_index.loss	117
abstract_inverted_index.only	179
abstract_inverted_index.over	43
abstract_inverted_index.past	182
abstract_inverted_index.same	217
abstract_inverted_index.show	2
abstract_inverted_index.such	22
abstract_inverted_index.than	207
abstract_inverted_index.that	70
abstract_inverted_index.this	121
abstract_inverted_index.thus	57
abstract_inverted_index.with	19, 75, 98, 113, 132, 178, 212
abstract_inverted_index.77.8%	239
abstract_inverted_index.78.1%	241
abstract_inverted_index.LLM's	95
abstract_inverted_index.LLMs.	55
abstract_inverted_index.Llama	158, 232
abstract_inverted_index.MMLU.	173, 244
abstract_inverted_index.Then,	120
abstract_inverted_index.apply	194
abstract_inverted_index.first	199
abstract_inverted_index.large	6
abstract_inverted_index.match	109
abstract_inverted_index.model	38, 184
abstract_inverted_index.often	35
abstract_inverted_index.prior	208, 213
abstract_inverted_index.steps	86
abstract_inverted_index.still	40
abstract_inverted_index.their	110, 189
abstract_inverted_index.these	85
abstract_inverted_index.under	215
abstract_inverted_index.v0.1,	164
abstract_inverted_index.works	1
abstract_inverted_index.(LLMs)	9
abstract_inverted_index.5-shot	172, 243
abstract_inverted_index.First,	90
abstract_inverted_index.Linear	60
abstract_inverted_index.Recent	0
abstract_inverted_index.costs.	31
abstract_inverted_index.create	197
abstract_inverted_index.errors	126
abstract_inverted_index.larger	206
abstract_inverted_index.linear	24, 100, 106
abstract_inverted_index.memory	80
abstract_inverted_index.method	69
abstract_inverted_index.models	8
abstract_inverted_index.orders	76
abstract_inverted_index.output	115
abstract_inverted_index.points	168
abstract_inverted_index.reduce	147
abstract_inverted_index.simple	67
abstract_inverted_index.simply	102, 131
abstract_inverted_index.work).	209
abstract_inverted_index.(LoRA).	135
abstract_inverted_index.LoLCATs	136, 175, 195, 220
abstract_inverted_index.Mistral	162
abstract_inverted_index.between	228
abstract_inverted_index.closing	225
abstract_inverted_index.compute	218
abstract_inverted_index.enables	122
abstract_inverted_index.leading	165
abstract_inverted_index.limited	49
abstract_inverted_index.popular	16
abstract_inverted_index.produce	153
abstract_inverted_index.propose	58
abstract_inverted_index.quality	74, 130, 150
abstract_inverted_index.remains	48
abstract_inverted_index.replace	93
abstract_inverted_index.smaller	51
abstract_inverted_index.softmax	96, 111
abstract_inverted_index.tokens,	46
abstract_inverted_index.tokens.	191
abstract_inverted_index.Finally,	192
abstract_inverted_index.However,	32
abstract_inverted_index.Low-rank	59
abstract_inverted_index.Transfer	64
abstract_inverted_index.analogs,	21
abstract_inverted_index.avoiding	27
abstract_inverted_index.billions	44
abstract_inverted_index.budgets,	219
abstract_inverted_index.compared	211
abstract_inverted_index.compute.	82
abstract_inverted_index.degrades	37
abstract_inverted_index.improves	71, 138, 222
abstract_inverted_index.language	7
abstract_inverted_index.low-rank	133
abstract_inverted_index.methods'	183
abstract_inverted_index.original	231
abstract_inverted_index.quality,	39, 140, 224
abstract_inverted_index.requires	41
abstract_inverted_index.swapping	11
abstract_inverted_index.training	42, 104, 141, 190
abstract_inverted_index.two-step	68
abstract_inverted_index.Attention	63
abstract_inverted_index.adjusting	123
abstract_inverted_index.attention	25
abstract_inverted_index.expensive	29
abstract_inverted_index.findings.	89
abstract_inverted_index.linearize	5
abstract_inverted_index.quadratic	13
abstract_inverted_index.(LoLCATs),	65
abstract_inverted_index.Conversion	61
abstract_inverted_index.adaptation	134
abstract_inverted_index.approaches	214
abstract_inverted_index.attentions	14, 97, 107
abstract_inverted_index.linearized	200, 229
abstract_inverted_index.magnitudes	78
abstract_inverted_index.parameters	185
abstract_inverted_index.recovering	128
abstract_inverted_index.("attention	118
abstract_inverted_index.attentions,	101
abstract_inverted_index.efficiency,	142
abstract_inverted_index.improvement	170
abstract_inverted_index.linearizing	33, 73, 139, 149, 223
abstract_inverted_index.pretraining	30
abstract_inverted_index.transfer").	119
abstract_inverted_index.Furthermore,	174
abstract_inverted_index.counterparts	112
abstract_inverted_index.scalability.	144
abstract_inverted_index.subquadratic	20, 155
abstract_inverted_index.approximation	125
abstract_inverted_index.significantly	36, 137, 146, 221
abstract_inverted_index.state-of-the-art	154
abstract_inverted_index.Transformer-based	17
abstract_inverted_index.closely-approximating	99
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	8
citation_normalized_percentile