Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics Article Swipe

PDF

Josip Josifovski , Shangding Gu , Mohammadhossein Malmir , Haoliang Huang , Sayantan Auddy , Nicolás Navarro-Guerrero , Costas J. Spanos , Alois Knoll ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2503.10949

Domain randomization has emerged as a fundamental technique in reinforcement learning (RL) to facilitate the transfer of policies from simulation to real-world robotic applications. Many existing domain randomization approaches have been proposed to improve robustness and sim2real transfer. These approaches rely on wide randomization ranges to compensate for the unknown actual system parameters, leading to robust but inefficient real-world policies. In addition, the policies pretrained in the domain-randomized simulation are fixed after deployment due to the inherent instability of the optimization processes based on RL and the necessity of sampling exploitative but potentially unsafe actions on the real system. This limits the adaptability of the deployed policy to the inevitably changing system parameters or environment dynamics over time. We leverage safe RL and continual learning under domain-randomized simulation to address these limitations and enable safe deployment-time policy adaptation in real-world robot control. The experiments show that our method enables the policy to adapt and fit to the current domain distribution and environment dynamics of the real system while minimizing safety risks and avoiding issues like catastrophic forgetting of the general policy found in randomized simulation during the pretraining phase. Videos and supplementary material are available at https://safe-cda.github.io/.

Related Topics

Public Domain

Country Code Top-Level Domain

Domain Name System

Not Safe For Work (Film)

Chernobyl New Safe Confinement

Top-Level Domain

Safe Haven (Film)

Not Safe For Work

Fail Safe (1964 Film)

Safe (Tv Series)

Hatton Garden Safe Deposit Burglary

Generic Top-Level Domain

Concepts

No concepts available.

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2503.10949
PDF: https://arxiv.org/pdf/2503.10949
OA Status: green
OpenAlex ID: https://openalex.org/W4417281717

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4417281717

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2503.10949

Digital Object Identifier
Title: Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-03-13

Full publication date if available
Authors: Josip Josifovski, Shangding Gu, Mohammadhossein Malmir, Haoliang Huang, Sayantan Auddy, Nicolás Navarro-Guerrero, Costas J. Spanos, Alois Knoll

List of authors in order
Landing page: https://arxiv.org/abs/2503.10949

Publisher landing page
PDF URL: https://arxiv.org/pdf/2503.10949

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2503.10949

Direct OA link when available
Cited by: 0

Total citation count in OpenAlex

Full payload

id	https://openalex.org/W4417281717
doi	https://doi.org/10.48550/arxiv.2503.10949
ids.doi	https://doi.org/10.48550/arxiv.2503.10949
ids.openalex	https://openalex.org/W4417281717
fwci
type	preprint
title	Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
is_xpac	False
apc_list
apc_paid
language	en
locations[0].id	pmh:oai:arXiv.org:2503.10949
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2503.10949
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2503.10949
locations[1].id	doi:10.48550/arxiv.2503.10949
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2503.10949
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5009408366
authorships[0].author.orcid	https://orcid.org/0000-0002-1031-7621
authorships[0].author.display_name	Josip Josifovski
authorships[0].author_position	first
authorships[0].raw_author_name	Josifovski, Josip
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5062677595
authorships[1].author.orcid	https://orcid.org/0000-0002-2722-3779
authorships[1].author.display_name	Shangding Gu
authorships[1].author_position	middle
authorships[1].raw_author_name	Gu, Shangding
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5059145424
authorships[2].author.orcid	https://orcid.org/0000-0003-0610-7899
authorships[2].author.display_name	Mohammadhossein Malmir
authorships[2].author_position	middle
authorships[2].raw_author_name	Malmir, Mohammadhossein
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5070865052
authorships[3].author.orcid	https://orcid.org/0000-0002-5686-5519
authorships[3].author.display_name	Haoliang Huang
authorships[3].author_position	middle
authorships[3].raw_author_name	Huang, Haoliang
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5040991202
authorships[4].author.orcid	https://orcid.org/0000-0003-3784-8913
authorships[4].author.display_name	Sayantan Auddy
authorships[4].author_position	middle
authorships[4].raw_author_name	Auddy, Sayantan
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5040711005
authorships[5].author.orcid	https://orcid.org/0000-0003-1164-5579
authorships[5].author.display_name	Nicolás Navarro-Guerrero
authorships[5].author_position	middle
authorships[5].raw_author_name	Navarro-Guerrero, Nicolás
authorships[5].is_corresponding	False
authorships[6].author.id	https://openalex.org/A5013076652
authorships[6].author.orcid
authorships[6].author.display_name	Costas J. Spanos
authorships[6].author_position	middle
authorships[6].raw_author_name	Spanos, Costas
authorships[6].is_corresponding	False
authorships[7].author.id	https://openalex.org/A5063781430
authorships[7].author.orcid	https://orcid.org/0000-0003-4840-076X
authorships[7].author.display_name	Alois Knoll
authorships[7].author_position	last
authorships[7].raw_author_name	Knoll, Alois
authorships[7].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2503.10949
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics
has_fulltext	False
is_retracted	False
updated_date	2025-12-12T18:54:26.327347
primary_topic
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2503.10949
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2503.10949
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2503.10949
primary_location.id	pmh:oai:arXiv.org:2503.10949
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2503.10949
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2503.10949
publication_date	2025-03-13
publication_year	2025
referenced_works_count	0
abstract_inverted_index.a	5
abstract_inverted_index.In	60
abstract_inverted_index.RL	84, 121
abstract_inverted_index.We	118
abstract_inverted_index.as	4
abstract_inverted_index.at	195
abstract_inverted_index.in	8, 65, 138, 182
abstract_inverted_index.of	16, 78, 88, 103, 163, 177
abstract_inverted_index.on	41, 83, 95
abstract_inverted_index.or	113
abstract_inverted_index.to	12, 20, 32, 45, 54, 74, 107, 128, 151, 155
abstract_inverted_index.The	142
abstract_inverted_index.and	35, 85, 122, 132, 153, 160, 171, 190
abstract_inverted_index.are	69, 193
abstract_inverted_index.but	56, 91
abstract_inverted_index.due	73
abstract_inverted_index.fit	154
abstract_inverted_index.for	47
abstract_inverted_index.has	2
abstract_inverted_index.our	146
abstract_inverted_index.the	14, 48, 62, 66, 75, 79, 86, 96, 101, 104, 108, 149, 156, 164, 178, 186
abstract_inverted_index.(RL)	11
abstract_inverted_index.Many	24
abstract_inverted_index.This	99
abstract_inverted_index.been	30
abstract_inverted_index.from	18
abstract_inverted_index.have	29
abstract_inverted_index.like	174
abstract_inverted_index.over	116
abstract_inverted_index.real	97, 165
abstract_inverted_index.rely	40
abstract_inverted_index.safe	120, 134
abstract_inverted_index.show	144
abstract_inverted_index.that	145
abstract_inverted_index.wide	42
abstract_inverted_index.These	38
abstract_inverted_index.adapt	152
abstract_inverted_index.after	71
abstract_inverted_index.based	82
abstract_inverted_index.fixed	70
abstract_inverted_index.found	181
abstract_inverted_index.risks	170
abstract_inverted_index.robot	140
abstract_inverted_index.these	130
abstract_inverted_index.time.	117
abstract_inverted_index.under	125
abstract_inverted_index.while	167
abstract_inverted_index.Domain	0
abstract_inverted_index.Videos	189
abstract_inverted_index.actual	50
abstract_inverted_index.domain	26, 158
abstract_inverted_index.during	185
abstract_inverted_index.enable	133
abstract_inverted_index.issues	173
abstract_inverted_index.limits	100
abstract_inverted_index.method	147
abstract_inverted_index.phase.	188
abstract_inverted_index.policy	106, 136, 150, 180
abstract_inverted_index.ranges	44
abstract_inverted_index.robust	55
abstract_inverted_index.safety	169
abstract_inverted_index.system	51, 111, 166
abstract_inverted_index.unsafe	93
abstract_inverted_index.actions	94
abstract_inverted_index.address	129
abstract_inverted_index.current	157
abstract_inverted_index.emerged	3
abstract_inverted_index.enables	148
abstract_inverted_index.general	179
abstract_inverted_index.improve	33
abstract_inverted_index.leading	53
abstract_inverted_index.robotic	22
abstract_inverted_index.system.	98
abstract_inverted_index.unknown	49
abstract_inverted_index.avoiding	172
abstract_inverted_index.changing	110
abstract_inverted_index.control.	141
abstract_inverted_index.deployed	105
abstract_inverted_index.dynamics	115, 162
abstract_inverted_index.existing	25
abstract_inverted_index.inherent	76
abstract_inverted_index.learning	10, 124
abstract_inverted_index.leverage	119
abstract_inverted_index.material	192
abstract_inverted_index.policies	17, 63
abstract_inverted_index.proposed	31
abstract_inverted_index.sampling	89
abstract_inverted_index.sim2real	36
abstract_inverted_index.transfer	15
abstract_inverted_index.addition,	61
abstract_inverted_index.available	194
abstract_inverted_index.continual	123
abstract_inverted_index.necessity	87
abstract_inverted_index.policies.	59
abstract_inverted_index.processes	81
abstract_inverted_index.technique	7
abstract_inverted_index.transfer.	37
abstract_inverted_index.adaptation	137
abstract_inverted_index.approaches	28, 39
abstract_inverted_index.compensate	46
abstract_inverted_index.deployment	72
abstract_inverted_index.facilitate	13
abstract_inverted_index.forgetting	176
abstract_inverted_index.inevitably	109
abstract_inverted_index.minimizing	168
abstract_inverted_index.parameters	112
abstract_inverted_index.pretrained	64
abstract_inverted_index.randomized	183
abstract_inverted_index.real-world	21, 58, 139
abstract_inverted_index.robustness	34
abstract_inverted_index.simulation	19, 68, 127, 184
abstract_inverted_index.environment	114, 161
abstract_inverted_index.experiments	143
abstract_inverted_index.fundamental	6
abstract_inverted_index.inefficient	57
abstract_inverted_index.instability	77
abstract_inverted_index.limitations	131
abstract_inverted_index.parameters,	52
abstract_inverted_index.potentially	92
abstract_inverted_index.pretraining	187
abstract_inverted_index.adaptability	102
abstract_inverted_index.catastrophic	175
abstract_inverted_index.distribution	159
abstract_inverted_index.exploitative	90
abstract_inverted_index.optimization	80
abstract_inverted_index.applications.	23
abstract_inverted_index.randomization	1, 27, 43
abstract_inverted_index.reinforcement	9
abstract_inverted_index.supplementary	191
abstract_inverted_index.deployment-time	135
abstract_inverted_index.domain-randomized	67, 126
abstract_inverted_index.https://safe-cda.github.io/.	196
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	8
citation_normalized_percentile