Efficient Online Reinforcement Learning with Offline Data Article Swipe

PDF

Philip Ball , Laura Smith , Ilya Kostrikov , Sergey Levine ·

YOU? · · 2023 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2302.02948

Sample efficiency and exploration remain major challenges in online reinforcement learning (RL). A powerful approach that can be applied to address these issues is the inclusion of offline data, such as prior trajectories from a human expert or a sub-optimal exploration policy. Previous methods have relied on extensive modifications and additional complexity to ensure the effective use of this data. Instead, we ask: can we simply apply existing off-policy methods to leverage offline data when learning online? In this work, we demonstrate that the answer is yes; however, a set of minimal but important changes to existing off-policy RL algorithms are required to achieve reliable performance. We extensively ablate these design choices, demonstrating the key factors that most affect performance, and arrive at a set of recommendations that practitioners can readily apply, whether their data comprise a small number of expert demonstrations or large volumes of sub-optimal trajectories. We see that correct application of these simple recommendations can provide a $\mathbf{2.5\times}$ improvement over existing approaches across a diverse set of competitive benchmarks, with no additional computational overhead. We have released our code at https://github.com/ikostrikov/rlpd.

Related Topics

Computer Science

Reinforcement Learning

Machine Learning

Lock And Key

Artificial Intelligence

Concepts

Computer science Reinforcement learning Leverage (statistics) Ask price Overhead (engineering) Set (abstract data type) Machine learning Key (lock) Artificial intelligence Computer security Operating system Programming language Economics Economy

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2302.02948
PDF: https://arxiv.org/pdf/2302.02948
OA Status: green
Cited By: 13
Related Works: 10
OpenAlex ID: https://openalex.org/W4319453704

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4319453704

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2302.02948

Digital Object Identifier
Title: Efficient Online Reinforcement Learning with Offline Data

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2023

Year of publication
Publication date: 2023-02-06

Full publication date if available
Authors: Philip Ball, Laura Smith, Ilya Kostrikov, Sergey Levine

List of authors in order
Landing page: https://arxiv.org/abs/2302.02948

Publisher landing page
PDF URL: https://arxiv.org/pdf/2302.02948

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2302.02948

Direct OA link when available
Concepts: Computer science, Reinforcement learning, Leverage (statistics), Ask price, Overhead (engineering), Set (abstract data type), Machine learning, Key (lock), Artificial intelligence, Computer security, Operating system, Programming language, Economics, Economy

Top concepts (fields/topics) attached by OpenAlex
Cited by: 13

Total citation count in OpenAlex
Citations by year (recent): 2025: 2, 2024: 7, 2023: 4

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4319453704
doi	https://doi.org/10.48550/arxiv.2302.02948
ids.doi	https://doi.org/10.48550/arxiv.2302.02948
ids.openalex	https://openalex.org/W4319453704
fwci
type	preprint
title	Efficient Online Reinforcement Learning with Offline Data
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10462
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9990000128746033
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Reinforcement Learning in Robotics
topics[1].id	https://openalex.org/T11704
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9940000176429749
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1706
topics[1].subfield.display_name	Computer Science Applications
topics[1].display_name	Mobile Crowdsensing and Crowdsourcing
topics[2].id	https://openalex.org/T12288
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.988099992275238
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1705
topics[2].subfield.display_name	Computer Networks and Communications
topics[2].display_name	Optimization and Search Problems
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C41008148
concepts[0].level	0
concepts[0].score	0.8394178152084351
concepts[0].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[0].display_name	Computer science
concepts[1].id	https://openalex.org/C97541855
concepts[1].level	2
concepts[1].score	0.8180878162384033
concepts[1].wikidata	https://www.wikidata.org/wiki/Q830687
concepts[1].display_name	Reinforcement learning
concepts[2].id	https://openalex.org/C153083717
concepts[2].level	2
concepts[2].score	0.8095667958259583
concepts[2].wikidata	https://www.wikidata.org/wiki/Q6535263
concepts[2].display_name	Leverage (statistics)
concepts[3].id	https://openalex.org/C90329073
concepts[3].level	2
concepts[3].score	0.629267692565918
concepts[3].wikidata	https://www.wikidata.org/wiki/Q914232
concepts[3].display_name	Ask price
concepts[4].id	https://openalex.org/C2779960059
concepts[4].level	2
concepts[4].score	0.5580694675445557
concepts[4].wikidata	https://www.wikidata.org/wiki/Q7113681
concepts[4].display_name	Overhead (engineering)
concepts[5].id	https://openalex.org/C177264268
concepts[5].level	2
concepts[5].score	0.555311381816864
concepts[5].wikidata	https://www.wikidata.org/wiki/Q1514741
concepts[5].display_name	Set (abstract data type)
concepts[6].id	https://openalex.org/C119857082
concepts[6].level	1
concepts[6].score	0.5468539595603943
concepts[6].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[6].display_name	Machine learning
concepts[7].id	https://openalex.org/C26517878
concepts[7].level	2
concepts[7].score	0.5118419528007507
concepts[7].wikidata	https://www.wikidata.org/wiki/Q228039
concepts[7].display_name	Key (lock)
concepts[8].id	https://openalex.org/C154945302
concepts[8].level	1
concepts[8].score	0.4637819528579712
concepts[8].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[8].display_name	Artificial intelligence
concepts[9].id	https://openalex.org/C38652104
concepts[9].level	1
concepts[9].score	0.12170276045799255
concepts[9].wikidata	https://www.wikidata.org/wiki/Q3510521
concepts[9].display_name	Computer security
concepts[10].id	https://openalex.org/C111919701
concepts[10].level	1
concepts[10].score	0.0
concepts[10].wikidata	https://www.wikidata.org/wiki/Q9135
concepts[10].display_name	Operating system
concepts[11].id	https://openalex.org/C199360897
concepts[11].level	1
concepts[11].score	0.0
concepts[11].wikidata	https://www.wikidata.org/wiki/Q9143
concepts[11].display_name	Programming language
concepts[12].id	https://openalex.org/C162324750
concepts[12].level	0
concepts[12].score	0.0
concepts[12].wikidata	https://www.wikidata.org/wiki/Q8134
concepts[12].display_name	Economics
concepts[13].id	https://openalex.org/C136264566
concepts[13].level	1
concepts[13].score	0.0
concepts[13].wikidata	https://www.wikidata.org/wiki/Q159810
concepts[13].display_name	Economy
keywords[0].id	https://openalex.org/keywords/computer-science
keywords[0].score	0.8394178152084351
keywords[0].display_name	Computer science
keywords[1].id	https://openalex.org/keywords/reinforcement-learning
keywords[1].score	0.8180878162384033
keywords[1].display_name	Reinforcement learning
keywords[2].id	https://openalex.org/keywords/leverage
keywords[2].score	0.8095667958259583
keywords[2].display_name	Leverage (statistics)
keywords[3].id	https://openalex.org/keywords/ask-price
keywords[3].score	0.629267692565918
keywords[3].display_name	Ask price
keywords[4].id	https://openalex.org/keywords/overhead
keywords[4].score	0.5580694675445557
keywords[4].display_name	Overhead (engineering)
keywords[5].id	https://openalex.org/keywords/set
keywords[5].score	0.555311381816864
keywords[5].display_name	Set (abstract data type)
keywords[6].id	https://openalex.org/keywords/machine-learning
keywords[6].score	0.5468539595603943
keywords[6].display_name	Machine learning
keywords[7].id	https://openalex.org/keywords/key
keywords[7].score	0.5118419528007507
keywords[7].display_name	Key (lock)
keywords[8].id	https://openalex.org/keywords/artificial-intelligence
keywords[8].score	0.4637819528579712
keywords[8].display_name	Artificial intelligence
keywords[9].id	https://openalex.org/keywords/computer-security
keywords[9].score	0.12170276045799255
keywords[9].display_name	Computer security
language	en
locations[0].id	pmh:oai:arXiv.org:2302.02948
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2302.02948
locations[0].version	submittedVersion
locations[0].raw_type
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2302.02948
locations[1].id	doi:10.48550/arxiv.2302.02948
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2302.02948
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5008365801
authorships[0].author.orcid	https://orcid.org/0000-0001-5896-6447
authorships[0].author.display_name	Philip Ball
authorships[0].author_position	first
authorships[0].raw_author_name	Ball, Philip J.
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5106821653
authorships[1].author.orcid	https://orcid.org/0000-0002-7890-497X
authorships[1].author.display_name	Laura Smith
authorships[1].author_position	middle
authorships[1].raw_author_name	Smith, Laura
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5086657309
authorships[2].author.orcid
authorships[2].author.display_name	Ilya Kostrikov
authorships[2].author_position	middle
authorships[2].raw_author_name	Kostrikov, Ilya
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5026322200
authorships[3].author.orcid	https://orcid.org/0000-0001-6764-2743
authorships[3].author.display_name	Sergey Levine
authorships[3].author_position	last
authorships[3].raw_author_name	Levine, Sergey
authorships[3].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2302.02948
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Efficient Online Reinforcement Learning with Offline Data
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10462
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9990000128746033
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Reinforcement Learning in Robotics
related_works	https://openalex.org/W2168627904, https://openalex.org/W2515552481, https://openalex.org/W156769215, https://openalex.org/W1570348318, https://openalex.org/W2015444353, https://openalex.org/W3013494979, https://openalex.org/W4308101915, https://openalex.org/W3194047734, https://openalex.org/W2251005117, https://openalex.org/W2768698792
cited_by_count	13
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	2
counts_by_year[1].year	2024
counts_by_year[1].cited_by_count	7
counts_by_year[2].year	2023
counts_by_year[2].cited_by_count	4
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2302.02948
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2302.02948
best_oa_location.version	submittedVersion
best_oa_location.raw_type
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2302.02948
primary_location.id	pmh:oai:arXiv.org:2302.02948
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2302.02948
primary_location.version	submittedVersion
primary_location.raw_type
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2302.02948
publication_date	2023-02-06
publication_year	2023
referenced_works_count	0
abstract_inverted_index.A	12
abstract_inverted_index.a	34, 38, 88, 123, 136, 159, 166
abstract_inverted_index.In	77
abstract_inverted_index.RL	98
abstract_inverted_index.We	106, 148, 177
abstract_inverted_index.as	30
abstract_inverted_index.at	122, 182
abstract_inverted_index.be	17
abstract_inverted_index.in	7
abstract_inverted_index.is	23, 85
abstract_inverted_index.no	173
abstract_inverted_index.of	26, 57, 90, 125, 139, 145, 153, 169
abstract_inverted_index.on	46
abstract_inverted_index.or	37, 142
abstract_inverted_index.to	19, 52, 70, 95, 102
abstract_inverted_index.we	61, 64, 80
abstract_inverted_index.and	2, 49, 120
abstract_inverted_index.are	100
abstract_inverted_index.but	92
abstract_inverted_index.can	16, 63, 129, 157
abstract_inverted_index.key	114
abstract_inverted_index.our	180
abstract_inverted_index.see	149
abstract_inverted_index.set	89, 124, 168
abstract_inverted_index.the	24, 54, 83, 113
abstract_inverted_index.use	56
abstract_inverted_index.ask:	62
abstract_inverted_index.code	181
abstract_inverted_index.data	73, 134
abstract_inverted_index.from	33
abstract_inverted_index.have	44, 178
abstract_inverted_index.most	117
abstract_inverted_index.over	162
abstract_inverted_index.such	29
abstract_inverted_index.that	15, 82, 116, 127, 150
abstract_inverted_index.this	58, 78
abstract_inverted_index.when	74
abstract_inverted_index.with	172
abstract_inverted_index.yes;	86
abstract_inverted_index.(RL).	11
abstract_inverted_index.apply	66
abstract_inverted_index.data,	28
abstract_inverted_index.data.	59
abstract_inverted_index.human	35
abstract_inverted_index.large	143
abstract_inverted_index.major	5
abstract_inverted_index.prior	31
abstract_inverted_index.small	137
abstract_inverted_index.their	133
abstract_inverted_index.these	21, 109, 154
abstract_inverted_index.work,	79
abstract_inverted_index.Sample	0
abstract_inverted_index.ablate	108
abstract_inverted_index.across	165
abstract_inverted_index.affect	118
abstract_inverted_index.answer	84
abstract_inverted_index.apply,	131
abstract_inverted_index.arrive	121
abstract_inverted_index.design	110
abstract_inverted_index.ensure	53
abstract_inverted_index.expert	36, 140
abstract_inverted_index.issues	22
abstract_inverted_index.number	138
abstract_inverted_index.online	8
abstract_inverted_index.relied	45
abstract_inverted_index.remain	4
abstract_inverted_index.simple	155
abstract_inverted_index.simply	65
abstract_inverted_index.achieve	103
abstract_inverted_index.address	20
abstract_inverted_index.applied	18
abstract_inverted_index.changes	94
abstract_inverted_index.correct	151
abstract_inverted_index.diverse	167
abstract_inverted_index.factors	115
abstract_inverted_index.methods	43, 69
abstract_inverted_index.minimal	91
abstract_inverted_index.offline	27, 72
abstract_inverted_index.online?	76
abstract_inverted_index.policy.	41
abstract_inverted_index.provide	158
abstract_inverted_index.readily	130
abstract_inverted_index.volumes	144
abstract_inverted_index.whether	132
abstract_inverted_index.Instead,	60
abstract_inverted_index.Previous	42
abstract_inverted_index.approach	14
abstract_inverted_index.choices,	111
abstract_inverted_index.comprise	135
abstract_inverted_index.existing	67, 96, 163
abstract_inverted_index.however,	87
abstract_inverted_index.learning	10, 75
abstract_inverted_index.leverage	71
abstract_inverted_index.powerful	13
abstract_inverted_index.released	179
abstract_inverted_index.reliable	104
abstract_inverted_index.required	101
abstract_inverted_index.effective	55
abstract_inverted_index.extensive	47
abstract_inverted_index.important	93
abstract_inverted_index.inclusion	25
abstract_inverted_index.overhead.	176
abstract_inverted_index.additional	50, 174
abstract_inverted_index.algorithms	99
abstract_inverted_index.approaches	164
abstract_inverted_index.challenges	6
abstract_inverted_index.complexity	51
abstract_inverted_index.efficiency	1
abstract_inverted_index.off-policy	68, 97
abstract_inverted_index.application	152
abstract_inverted_index.benchmarks,	171
abstract_inverted_index.competitive	170
abstract_inverted_index.demonstrate	81
abstract_inverted_index.exploration	3, 40
abstract_inverted_index.extensively	107
abstract_inverted_index.improvement	161
abstract_inverted_index.sub-optimal	39, 146
abstract_inverted_index.performance,	119
abstract_inverted_index.performance.	105
abstract_inverted_index.trajectories	32
abstract_inverted_index.computational	175
abstract_inverted_index.demonstrating	112
abstract_inverted_index.modifications	48
abstract_inverted_index.practitioners	128
abstract_inverted_index.reinforcement	9
abstract_inverted_index.trajectories.	147
abstract_inverted_index.demonstrations	141
abstract_inverted_index.recommendations	126, 156
abstract_inverted_index.$\mathbf{2.5\times}$	160
abstract_inverted_index.https://github.com/ikostrikov/rlpd.	183
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	4
sustainable_development_goals[0].id	https://metadata.un.org/sdg/17
sustainable_development_goals[0].score	0.4000000059604645
sustainable_development_goals[0].display_name	Partnerships for the goals
citation_normalized_percentile