OpenELM: An Efficient Language Model Family with Open Training and Inference Framework Article Swipe

PDF

Sachin Mehta , Mohammad Hossein Sekhavat , Qingqing Cao , Maxwell Horton , Yanzi Jin , Chenfan Sun , Iman Mirzadeh , Mahyar Najibi , Dmitry Belenko , Peter Zatloukal , Mohammad Rastegari ·

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2404.14619

The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of results, and enabling investigations into data and model biases, as well as potential risks. To this end, we release OpenELM, a state-of-the-art open language model. OpenELM uses a layer-wise scaling strategy to efficiently allocate parameters within each layer of the transformer model, leading to enhanced accuracy. For example, with a parameter budget of approximately one billion parameters, OpenELM exhibits a 2.36% improvement in accuracy compared to OLMo while requiring $2\times$ fewer pre-training tokens. Diverging from prior practices that only provide model weights and inference code, and pre-train on private datasets, our release includes the complete framework for training and evaluation of the language model on publicly available datasets, including training logs, multiple checkpoints, and pre-training configurations. We also release code to convert models to MLX library for inference and fine-tuning on Apple devices. This comprehensive release aims to empower and strengthen the open research community, paving the way for future open research endeavors. Our source code along with pre-trained model weights and training recipes is available at \url{https://github.com/apple/corenet}. Additionally, \model models can be found on HuggingFace at: \url{https://huggingface.co/apple/OpenELM}.

Related Topics

Computer Science

Artificial Intelligence

Programming Language

Geography

Meteorology

Concepts

Computer science Inference Open source Training (meteorology) Natural language processing Artificial intelligence Programming language Geography Software Meteorology

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2404.14619
PDF: https://arxiv.org/pdf/2404.14619
OA Status: green
Cited By: 2
Related Works: 10
OpenAlex ID: https://openalex.org/W4395443230

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4395443230

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2404.14619

Digital Object Identifier
Title: OpenELM: An Efficient Language Model Family with Open Training and Inference Framework

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-04-22

Full publication date if available
Authors: Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, Mohammad Rastegari

List of authors in order
Landing page: https://arxiv.org/abs/2404.14619

Publisher landing page
PDF URL: https://arxiv.org/pdf/2404.14619

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2404.14619

Direct OA link when available
Concepts: Computer science, Inference, Open source, Training (meteorology), Natural language processing, Artificial intelligence, Programming language, Geography, Software, Meteorology

Top concepts (fields/topics) attached by OpenAlex
Cited by: 2

Total citation count in OpenAlex
Citations by year (recent): 2025: 2

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4395443230
doi	https://doi.org/10.48550/arxiv.2404.14619
ids.doi	https://doi.org/10.48550/arxiv.2404.14619
ids.openalex	https://openalex.org/W4395443230
fwci
type	preprint
title	OpenELM: An Efficient Language Model Family with Open Training and Inference Framework
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10028
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9171000123023987
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Topic Modeling
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C41008148
concepts[0].level	0
concepts[0].score	0.6958897113800049
concepts[0].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[0].display_name	Computer science
concepts[1].id	https://openalex.org/C2776214188
concepts[1].level	2
concepts[1].score	0.67457115650177
concepts[1].wikidata	https://www.wikidata.org/wiki/Q408386
concepts[1].display_name	Inference
concepts[2].id	https://openalex.org/C3018397939
concepts[2].level	3
concepts[2].score	0.5362009406089783
concepts[2].wikidata	https://www.wikidata.org/wiki/Q3644502
concepts[2].display_name	Open source
concepts[3].id	https://openalex.org/C2777211547
concepts[3].level	2
concepts[3].score	0.45028290152549744
concepts[3].wikidata	https://www.wikidata.org/wiki/Q17141490
concepts[3].display_name	Training (meteorology)
concepts[4].id	https://openalex.org/C204321447
concepts[4].level	1
concepts[4].score	0.4457639753818512
concepts[4].wikidata	https://www.wikidata.org/wiki/Q30642
concepts[4].display_name	Natural language processing
concepts[5].id	https://openalex.org/C154945302
concepts[5].level	1
concepts[5].score	0.3977229595184326
concepts[5].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[5].display_name	Artificial intelligence
concepts[6].id	https://openalex.org/C199360897
concepts[6].level	1
concepts[6].score	0.35628852248191833
concepts[6].wikidata	https://www.wikidata.org/wiki/Q9143
concepts[6].display_name	Programming language
concepts[7].id	https://openalex.org/C205649164
concepts[7].level	0
concepts[7].score	0.0623190701007843
concepts[7].wikidata	https://www.wikidata.org/wiki/Q1071
concepts[7].display_name	Geography
concepts[8].id	https://openalex.org/C2777904410
concepts[8].level	2
concepts[8].score	0.0
concepts[8].wikidata	https://www.wikidata.org/wiki/Q7397
concepts[8].display_name	Software
concepts[9].id	https://openalex.org/C153294291
concepts[9].level	1
concepts[9].score	0.0
concepts[9].wikidata	https://www.wikidata.org/wiki/Q25261
concepts[9].display_name	Meteorology
keywords[0].id	https://openalex.org/keywords/computer-science
keywords[0].score	0.6958897113800049
keywords[0].display_name	Computer science
keywords[1].id	https://openalex.org/keywords/inference
keywords[1].score	0.67457115650177
keywords[1].display_name	Inference
keywords[2].id	https://openalex.org/keywords/open-source
keywords[2].score	0.5362009406089783
keywords[2].display_name	Open source
keywords[3].id	https://openalex.org/keywords/training
keywords[3].score	0.45028290152549744
keywords[3].display_name	Training (meteorology)
keywords[4].id	https://openalex.org/keywords/natural-language-processing
keywords[4].score	0.4457639753818512
keywords[4].display_name	Natural language processing
keywords[5].id	https://openalex.org/keywords/artificial-intelligence
keywords[5].score	0.3977229595184326
keywords[5].display_name	Artificial intelligence
keywords[6].id	https://openalex.org/keywords/programming-language
keywords[6].score	0.35628852248191833
keywords[6].display_name	Programming language
keywords[7].id	https://openalex.org/keywords/geography
keywords[7].score	0.0623190701007843
keywords[7].display_name	Geography
language	en
locations[0].id	pmh:oai:arXiv.org:2404.14619
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2404.14619
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2404.14619
locations[1].id	doi:10.48550/arxiv.2404.14619
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2404.14619
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5074132108
authorships[0].author.orcid	https://orcid.org/0000-0002-5420-4725
authorships[0].author.display_name	Sachin Mehta
authorships[0].author_position	first
authorships[0].raw_author_name	Mehta, Sachin
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5095886473
authorships[1].author.orcid
authorships[1].author.display_name	Mohammad Hossein Sekhavat
authorships[1].author_position	middle
authorships[1].raw_author_name	Sekhavat, Mohammad Hossein
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5076244567
authorships[2].author.orcid	https://orcid.org/0000-0002-9306-0306
authorships[2].author.display_name	Qingqing Cao
authorships[2].author_position	middle
authorships[2].raw_author_name	Cao, Qingqing
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5012428670
authorships[3].author.orcid
authorships[3].author.display_name	Maxwell Horton
authorships[3].author_position	middle
authorships[3].raw_author_name	Horton, Maxwell
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5008400874
authorships[4].author.orcid
authorships[4].author.display_name	Yanzi Jin
authorships[4].author_position	middle
authorships[4].raw_author_name	Jin, Yanzi
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5070313801
authorships[5].author.orcid	https://orcid.org/0000-0001-8246-4869
authorships[5].author.display_name	Chenfan Sun
authorships[5].author_position	middle
authorships[5].raw_author_name	Sun, Chenfan
authorships[5].is_corresponding	False
authorships[6].author.id	https://openalex.org/A5079412282
authorships[6].author.orcid
authorships[6].author.display_name	Iman Mirzadeh
authorships[6].author_position	middle
authorships[6].raw_author_name	Mirzadeh, Iman
authorships[6].is_corresponding	False
authorships[7].author.id	https://openalex.org/A5021900923
authorships[7].author.orcid
authorships[7].author.display_name	Mahyar Najibi
authorships[7].author_position	middle
authorships[7].raw_author_name	Najibi, Mahyar
authorships[7].is_corresponding	False
authorships[8].author.id	https://openalex.org/A5093547721
authorships[8].author.orcid
authorships[8].author.display_name	Dmitry Belenko
authorships[8].author_position	middle
authorships[8].raw_author_name	Belenko, Dmitry
authorships[8].is_corresponding	False
authorships[9].author.id	https://openalex.org/A5031481674
authorships[9].author.orcid	https://orcid.org/0009-0000-0451-0591
authorships[9].author.display_name	Peter Zatloukal
authorships[9].author_position	middle
authorships[9].raw_author_name	Zatloukal, Peter
authorships[9].is_corresponding	False
authorships[10].author.id	https://openalex.org/A5056246621
authorships[10].author.orcid	https://orcid.org/0000-0001-9606-3687
authorships[10].author.display_name	Mohammad Rastegari
authorships[10].author_position	last
authorships[10].raw_author_name	Rastegari, Mohammad
authorships[10].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2404.14619
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2024-04-26T00:00:00
display_name	OpenELM: An Efficient Language Model Family with Open Training and Inference Framework
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10028
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9171000123023987
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Topic Modeling
related_works	https://openalex.org/W230091440, https://openalex.org/W2233261550, https://openalex.org/W2810751659, https://openalex.org/W258997015, https://openalex.org/W2997094352, https://openalex.org/W3216976533, https://openalex.org/W100620283, https://openalex.org/W2495260952, https://openalex.org/W4366179611, https://openalex.org/W2996078371
cited_by_count	2
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	2
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2404.14619
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2404.14619
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2404.14619
primary_location.id	pmh:oai:arXiv.org:2404.14619
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2404.14619
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2404.14619
publication_date	2024-04-22
publication_year	2024
referenced_works_count	0
abstract_inverted_index.a	38, 45, 67, 77
abstract_inverted_index.To	32
abstract_inverted_index.We	134
abstract_inverted_index.as	27, 29
abstract_inverted_index.at	184
abstract_inverted_index.be	190
abstract_inverted_index.in	80
abstract_inverted_index.is	182
abstract_inverted_index.of	4, 17, 56, 70, 118
abstract_inverted_index.on	105, 122, 148, 192
abstract_inverted_index.to	49, 61, 83, 138, 141, 155
abstract_inverted_index.we	35
abstract_inverted_index.For	64
abstract_inverted_index.MLX	142
abstract_inverted_index.Our	171
abstract_inverted_index.The	0
abstract_inverted_index.and	2, 19, 24, 100, 103, 116, 131, 146, 157, 179
abstract_inverted_index.are	8
abstract_inverted_index.at:	194
abstract_inverted_index.can	189
abstract_inverted_index.for	10, 114, 144, 166
abstract_inverted_index.one	72
abstract_inverted_index.our	108
abstract_inverted_index.the	15, 57, 111, 119, 159, 164
abstract_inverted_index.way	165
abstract_inverted_index.OLMo	84
abstract_inverted_index.This	151
abstract_inverted_index.aims	154
abstract_inverted_index.also	135
abstract_inverted_index.code	137, 173
abstract_inverted_index.data	23
abstract_inverted_index.each	54
abstract_inverted_index.end,	34
abstract_inverted_index.from	92
abstract_inverted_index.into	22
abstract_inverted_index.only	96
abstract_inverted_index.open	12, 40, 160, 168
abstract_inverted_index.that	95
abstract_inverted_index.this	33
abstract_inverted_index.uses	44
abstract_inverted_index.well	28
abstract_inverted_index.with	66, 175
abstract_inverted_index.2.36%	78
abstract_inverted_index.Apple	149
abstract_inverted_index.along	174
abstract_inverted_index.code,	102
abstract_inverted_index.fewer	88
abstract_inverted_index.found	191
abstract_inverted_index.large	5
abstract_inverted_index.layer	55
abstract_inverted_index.logs,	128
abstract_inverted_index.model	25, 98, 121, 177
abstract_inverted_index.prior	93
abstract_inverted_index.while	85
abstract_inverted_index.\model	187
abstract_inverted_index.budget	69
abstract_inverted_index.future	167
abstract_inverted_index.model,	59
abstract_inverted_index.model.	42
abstract_inverted_index.models	7, 140, 188
abstract_inverted_index.paving	163
abstract_inverted_index.risks.	31
abstract_inverted_index.source	172
abstract_inverted_index.within	53
abstract_inverted_index.OpenELM	43, 75
abstract_inverted_index.biases,	26
abstract_inverted_index.billion	73
abstract_inverted_index.convert	139
abstract_inverted_index.crucial	9
abstract_inverted_index.empower	156
abstract_inverted_index.leading	60
abstract_inverted_index.library	143
abstract_inverted_index.private	106
abstract_inverted_index.provide	97
abstract_inverted_index.recipes	181
abstract_inverted_index.release	36, 109, 136, 153
abstract_inverted_index.scaling	47
abstract_inverted_index.tokens.	90
abstract_inverted_index.weights	99, 178
abstract_inverted_index.OpenELM,	37
abstract_inverted_index.accuracy	81
abstract_inverted_index.allocate	51
abstract_inverted_index.compared	82
abstract_inverted_index.complete	112
abstract_inverted_index.devices.	150
abstract_inverted_index.enabling	20
abstract_inverted_index.enhanced	62
abstract_inverted_index.ensuring	14
abstract_inverted_index.example,	65
abstract_inverted_index.exhibits	76
abstract_inverted_index.includes	110
abstract_inverted_index.language	6, 41, 120
abstract_inverted_index.multiple	129
abstract_inverted_index.publicly	123
abstract_inverted_index.research	161, 169
abstract_inverted_index.results,	18
abstract_inverted_index.strategy	48
abstract_inverted_index.training	115, 127, 180
abstract_inverted_index.$2\times$	87
abstract_inverted_index.Diverging	91
abstract_inverted_index.accuracy.	63
abstract_inverted_index.advancing	11
abstract_inverted_index.available	124, 183
abstract_inverted_index.datasets,	107, 125
abstract_inverted_index.framework	113
abstract_inverted_index.including	126
abstract_inverted_index.inference	101, 145
abstract_inverted_index.parameter	68
abstract_inverted_index.potential	30
abstract_inverted_index.practices	94
abstract_inverted_index.pre-train	104
abstract_inverted_index.requiring	86
abstract_inverted_index.research,	13
abstract_inverted_index.community,	162
abstract_inverted_index.endeavors.	170
abstract_inverted_index.evaluation	117
abstract_inverted_index.layer-wise	46
abstract_inverted_index.parameters	52
abstract_inverted_index.strengthen	158
abstract_inverted_index.HuggingFace	193
abstract_inverted_index.efficiently	50
abstract_inverted_index.fine-tuning	147
abstract_inverted_index.improvement	79
abstract_inverted_index.parameters,	74
abstract_inverted_index.pre-trained	176
abstract_inverted_index.transformer	58
abstract_inverted_index.checkpoints,	130
abstract_inverted_index.pre-training	89, 132
abstract_inverted_index.transparency	3
abstract_inverted_index.Additionally,	186
abstract_inverted_index.approximately	71
abstract_inverted_index.comprehensive	152
abstract_inverted_index.investigations	21
abstract_inverted_index.configurations.	133
abstract_inverted_index.reproducibility	1
abstract_inverted_index.trustworthiness	16
abstract_inverted_index.state-of-the-art	39
abstract_inverted_index.\url{https://github.com/apple/corenet}.	185
abstract_inverted_index.\url{https://huggingface.co/apple/OpenELM}.	195
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	11
citation_normalized_percentile