Gradient-based Regularization for Action Smoothness in Robotic Control with Reinforcement Learning Article Swipe

PDF

Ickjai Lee , Hoang-Giang Cao , Cong-Tinh Dao , Yu‐Cheng Chen , I‐Chen Wu ·

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2407.04315

Deep Reinforcement Learning (DRL) has achieved remarkable success, ranging from complex computer games to real-world applications, showing the potential for intelligent agents capable of learning in dynamic environments. However, its application in real-world scenarios presents challenges, including the jerky problem, in which jerky trajectories not only compromise system safety but also increase power consumption and shorten the service life of robotic and autonomous systems. To address jerky actions, a method called conditioning for action policy smoothness (CAPS) was proposed by adding regularization terms to reduce the action changes. This paper further proposes a novel method, named Gradient-based CAPS (Grad-CAPS), that modifies CAPS by reducing the difference in the gradient of action and then uses displacement normalization to enable the agent to adapt to invariant action scales. Consequently, our method effectively reduces zigzagging action sequences while enhancing policy expressiveness and the adaptability of our method across diverse scenarios and environments. In the experiments, we integrated Grad-CAPS with different reinforcement learning algorithms and evaluated its performance on various robotic-related tasks in DeepMind Control Suite and OpenAI Gym environments. The results demonstrate that Grad-CAPS effectively improves performance while maintaining a comparable level of smoothness compared to CAPS and Vanilla agents.

Related Topics

Reinforcement Learning

Smoothness

Artificial Intelligence

Mathematical Analysis

Physics

Structural Engineering

Quantum Mechanics

Concepts

Reinforcement learning Regularization (linguistics) Smoothness Artificial intelligence Action (physics) Computer science Reinforcement Machine learning Mathematics Engineering Mathematical analysis Physics Structural engineering Quantum mechanics

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2407.04315
PDF: https://arxiv.org/pdf/2407.04315
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4400434631

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4400434631

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2407.04315

Digital Object Identifier
Title: Gradient-based Regularization for Action Smoothness in Robotic Control with Reinforcement Learning

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-07-05

Full publication date if available
Authors: Ickjai Lee, Hoang-Giang Cao, Cong-Tinh Dao, Yu‐Cheng Chen, I‐Chen Wu

List of authors in order
Landing page: https://arxiv.org/abs/2407.04315

Publisher landing page
PDF URL: https://arxiv.org/pdf/2407.04315

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2407.04315

Direct OA link when available
Concepts: Reinforcement learning, Regularization (linguistics), Smoothness, Artificial intelligence, Action (physics), Computer science, Reinforcement, Machine learning, Mathematics, Engineering, Mathematical analysis, Physics, Structural engineering, Quantum mechanics

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4400434631
doi	https://doi.org/10.48550/arxiv.2407.04315
ids.doi	https://doi.org/10.48550/arxiv.2407.04315
ids.openalex	https://openalex.org/W4400434631
fwci
type	preprint
title	Gradient-based Regularization for Action Smoothness in Robotic Control with Reinforcement Learning
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10653
topics[0].field.id	https://openalex.org/fields/22
topics[0].field.display_name	Engineering
topics[0].score	0.9217000007629395
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/2207
topics[0].subfield.display_name	Control and Systems Engineering
topics[0].display_name	Robot Manipulation and Learning
topics[1].id	https://openalex.org/T10462
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9146000146865845
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Reinforcement Learning in Robotics
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C97541855
concepts[0].level	2
concepts[0].score	0.830744206905365
concepts[0].wikidata	https://www.wikidata.org/wiki/Q830687
concepts[0].display_name	Reinforcement learning
concepts[1].id	https://openalex.org/C2776135515
concepts[1].level	2
concepts[1].score	0.7630766034126282
concepts[1].wikidata	https://www.wikidata.org/wiki/Q17143721
concepts[1].display_name	Regularization (linguistics)
concepts[2].id	https://openalex.org/C102634674
concepts[2].level	2
concepts[2].score	0.6262643337249756
concepts[2].wikidata	https://www.wikidata.org/wiki/Q868473
concepts[2].display_name	Smoothness
concepts[3].id	https://openalex.org/C154945302
concepts[3].level	1
concepts[3].score	0.5595062971115112
concepts[3].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[3].display_name	Artificial intelligence
concepts[4].id	https://openalex.org/C2780791683
concepts[4].level	2
concepts[4].score	0.5497452020645142
concepts[4].wikidata	https://www.wikidata.org/wiki/Q846785
concepts[4].display_name	Action (physics)
concepts[5].id	https://openalex.org/C41008148
concepts[5].level	0
concepts[5].score	0.5083779692649841
concepts[5].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[5].display_name	Computer science
concepts[6].id	https://openalex.org/C67203356
concepts[6].level	2
concepts[6].score	0.4121248126029968
concepts[6].wikidata	https://www.wikidata.org/wiki/Q1321905
concepts[6].display_name	Reinforcement
concepts[7].id	https://openalex.org/C119857082
concepts[7].level	1
concepts[7].score	0.33402466773986816
concepts[7].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[7].display_name	Machine learning
concepts[8].id	https://openalex.org/C33923547
concepts[8].level	0
concepts[8].score	0.2991141974925995
concepts[8].wikidata	https://www.wikidata.org/wiki/Q395
concepts[8].display_name	Mathematics
concepts[9].id	https://openalex.org/C127413603
concepts[9].level	0
concepts[9].score	0.19620594382286072
concepts[9].wikidata	https://www.wikidata.org/wiki/Q11023
concepts[9].display_name	Engineering
concepts[10].id	https://openalex.org/C134306372
concepts[10].level	1
concepts[10].score	0.10373345017433167
concepts[10].wikidata	https://www.wikidata.org/wiki/Q7754
concepts[10].display_name	Mathematical analysis
concepts[11].id	https://openalex.org/C121332964
concepts[11].level	0
concepts[11].score	0.09943458437919617
concepts[11].wikidata	https://www.wikidata.org/wiki/Q413
concepts[11].display_name	Physics
concepts[12].id	https://openalex.org/C66938386
concepts[12].level	1
concepts[12].score	0.09005981683731079
concepts[12].wikidata	https://www.wikidata.org/wiki/Q633538
concepts[12].display_name	Structural engineering
concepts[13].id	https://openalex.org/C62520636
concepts[13].level	1
concepts[13].score	0.0
concepts[13].wikidata	https://www.wikidata.org/wiki/Q944
concepts[13].display_name	Quantum mechanics
keywords[0].id	https://openalex.org/keywords/reinforcement-learning
keywords[0].score	0.830744206905365
keywords[0].display_name	Reinforcement learning
keywords[1].id	https://openalex.org/keywords/regularization
keywords[1].score	0.7630766034126282
keywords[1].display_name	Regularization (linguistics)
keywords[2].id	https://openalex.org/keywords/smoothness
keywords[2].score	0.6262643337249756
keywords[2].display_name	Smoothness
keywords[3].id	https://openalex.org/keywords/artificial-intelligence
keywords[3].score	0.5595062971115112
keywords[3].display_name	Artificial intelligence
keywords[4].id	https://openalex.org/keywords/action
keywords[4].score	0.5497452020645142
keywords[4].display_name	Action (physics)
keywords[5].id	https://openalex.org/keywords/computer-science
keywords[5].score	0.5083779692649841
keywords[5].display_name	Computer science
keywords[6].id	https://openalex.org/keywords/reinforcement
keywords[6].score	0.4121248126029968
keywords[6].display_name	Reinforcement
keywords[7].id	https://openalex.org/keywords/machine-learning
keywords[7].score	0.33402466773986816
keywords[7].display_name	Machine learning
keywords[8].id	https://openalex.org/keywords/mathematics
keywords[8].score	0.2991141974925995
keywords[8].display_name	Mathematics
keywords[9].id	https://openalex.org/keywords/engineering
keywords[9].score	0.19620594382286072
keywords[9].display_name	Engineering
keywords[10].id	https://openalex.org/keywords/mathematical-analysis
keywords[10].score	0.10373345017433167
keywords[10].display_name	Mathematical analysis
keywords[11].id	https://openalex.org/keywords/physics
keywords[11].score	0.09943458437919617
keywords[11].display_name	Physics
keywords[12].id	https://openalex.org/keywords/structural-engineering
keywords[12].score	0.09005981683731079
keywords[12].display_name	Structural engineering
language	en
locations[0].id	pmh:oai:arXiv.org:2407.04315
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license	cc-by
locations[0].pdf_url	https://arxiv.org/pdf/2407.04315
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id	https://openalex.org/licenses/cc-by
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2407.04315
locations[1].id	doi:10.48550/arxiv.2407.04315
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2407.04315
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5090503795
authorships[0].author.orcid	https://orcid.org/0000-0002-6886-6201
authorships[0].author.display_name	Ickjai Lee
authorships[0].author_position	first
authorships[0].raw_author_name	Lee, I
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5037550862
authorships[1].author.orcid	https://orcid.org/0009-0003-4692-5615
authorships[1].author.display_name	Hoang-Giang Cao
authorships[1].author_position	middle
authorships[1].raw_author_name	Cao, Hoang-Giang
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5081832417
authorships[2].author.orcid	https://orcid.org/0000-0002-0777-6915
authorships[2].author.display_name	Cong-Tinh Dao
authorships[2].author_position	middle
authorships[2].raw_author_name	Dao, Cong-Tinh
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5100773467
authorships[3].author.orcid	https://orcid.org/0000-0002-0008-5601
authorships[3].author.display_name	Yu‐Cheng Chen
authorships[3].author_position	middle
authorships[3].raw_author_name	Chen, Yu-Cheng
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5016730899
authorships[4].author.orcid	https://orcid.org/0000-0003-2535-0587
authorships[4].author.display_name	I‐Chen Wu
authorships[4].author_position	last
authorships[4].raw_author_name	Wu, I-Chen
authorships[4].is_corresponding	False
has_content.pdf	True
has_content.grobid_xml	True
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2407.04315
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Gradient-based Regularization for Action Smoothness in Robotic Control with Reinforcement Learning
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10653
primary_topic.field.id	https://openalex.org/fields/22
primary_topic.field.display_name	Engineering
primary_topic.score	0.9217000007629395
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/2207
primary_topic.subfield.display_name	Control and Systems Engineering
primary_topic.display_name	Robot Manipulation and Learning
related_works	https://openalex.org/W2920061524, https://openalex.org/W4310083477, https://openalex.org/W2328553770, https://openalex.org/W1977959518, https://openalex.org/W2038908348, https://openalex.org/W2107890255, https://openalex.org/W2106552856, https://openalex.org/W2145821588, https://openalex.org/W2086122291, https://openalex.org/W1987513656
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2407.04315
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license	cc-by
best_oa_location.pdf_url	https://arxiv.org/pdf/2407.04315
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id	https://openalex.org/licenses/cc-by
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2407.04315
primary_location.id	pmh:oai:arXiv.org:2407.04315
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license	cc-by
primary_location.pdf_url	https://arxiv.org/pdf/2407.04315
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id	https://openalex.org/licenses/cc-by
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2407.04315
publication_date	2024-07-05
publication_year	2024
referenced_works_count	0
abstract_inverted_index.a	68, 92, 186
abstract_inverted_index.In	149
abstract_inverted_index.To	64
abstract_inverted_index.by	79, 102
abstract_inverted_index.in	25, 31, 40, 106, 168
abstract_inverted_index.of	23, 59, 109, 141, 189
abstract_inverted_index.on	164
abstract_inverted_index.to	13, 83, 116, 120, 122, 192
abstract_inverted_index.we	152
abstract_inverted_index.Gym	174
abstract_inverted_index.The	176
abstract_inverted_index.and	54, 61, 111, 138, 147, 160, 172, 194
abstract_inverted_index.but	49
abstract_inverted_index.for	19, 72
abstract_inverted_index.has	4
abstract_inverted_index.its	29, 162
abstract_inverted_index.not	44
abstract_inverted_index.our	127, 142
abstract_inverted_index.the	17, 37, 56, 85, 104, 107, 118, 139, 150
abstract_inverted_index.was	77
abstract_inverted_index.CAPS	97, 101, 193
abstract_inverted_index.Deep	0
abstract_inverted_index.This	88
abstract_inverted_index.also	50
abstract_inverted_index.from	9
abstract_inverted_index.life	58
abstract_inverted_index.only	45
abstract_inverted_index.that	99, 179
abstract_inverted_index.then	112
abstract_inverted_index.uses	113
abstract_inverted_index.with	155
abstract_inverted_index.(DRL)	3
abstract_inverted_index.Suite	171
abstract_inverted_index.adapt	121
abstract_inverted_index.agent	119
abstract_inverted_index.games	12
abstract_inverted_index.jerky	38, 42, 66
abstract_inverted_index.level	188
abstract_inverted_index.named	95
abstract_inverted_index.novel	93
abstract_inverted_index.paper	89
abstract_inverted_index.power	52
abstract_inverted_index.tasks	167
abstract_inverted_index.terms	82
abstract_inverted_index.which	41
abstract_inverted_index.while	134, 184
abstract_inverted_index.(CAPS)	76
abstract_inverted_index.OpenAI	173
abstract_inverted_index.across	144
abstract_inverted_index.action	73, 86, 110, 124, 132
abstract_inverted_index.adding	80
abstract_inverted_index.agents	21
abstract_inverted_index.called	70
abstract_inverted_index.enable	117
abstract_inverted_index.method	69, 128, 143
abstract_inverted_index.policy	74, 136
abstract_inverted_index.reduce	84
abstract_inverted_index.safety	48
abstract_inverted_index.system	47
abstract_inverted_index.Control	170
abstract_inverted_index.Vanilla	195
abstract_inverted_index.address	65
abstract_inverted_index.agents.	196
abstract_inverted_index.capable	22
abstract_inverted_index.complex	10
abstract_inverted_index.diverse	145
abstract_inverted_index.dynamic	26
abstract_inverted_index.further	90
abstract_inverted_index.method,	94
abstract_inverted_index.ranging	8
abstract_inverted_index.reduces	130
abstract_inverted_index.results	177
abstract_inverted_index.robotic	60
abstract_inverted_index.scales.	125
abstract_inverted_index.service	57
abstract_inverted_index.shorten	55
abstract_inverted_index.showing	16
abstract_inverted_index.various	165
abstract_inverted_index.DeepMind	169
abstract_inverted_index.However,	28
abstract_inverted_index.Learning	2
abstract_inverted_index.achieved	5
abstract_inverted_index.actions,	67
abstract_inverted_index.changes.	87
abstract_inverted_index.compared	191
abstract_inverted_index.computer	11
abstract_inverted_index.gradient	108
abstract_inverted_index.improves	182
abstract_inverted_index.increase	51
abstract_inverted_index.learning	24, 158
abstract_inverted_index.modifies	100
abstract_inverted_index.presents	34
abstract_inverted_index.problem,	39
abstract_inverted_index.proposed	78
abstract_inverted_index.proposes	91
abstract_inverted_index.reducing	103
abstract_inverted_index.success,	7
abstract_inverted_index.systems.	63
abstract_inverted_index.Grad-CAPS	154, 180
abstract_inverted_index.different	156
abstract_inverted_index.enhancing	135
abstract_inverted_index.evaluated	161
abstract_inverted_index.including	36
abstract_inverted_index.invariant	123
abstract_inverted_index.potential	18
abstract_inverted_index.scenarios	33, 146
abstract_inverted_index.sequences	133
abstract_inverted_index.algorithms	159
abstract_inverted_index.autonomous	62
abstract_inverted_index.comparable	187
abstract_inverted_index.compromise	46
abstract_inverted_index.difference	105
abstract_inverted_index.integrated	153
abstract_inverted_index.real-world	14, 32
abstract_inverted_index.remarkable	6
abstract_inverted_index.smoothness	75, 190
abstract_inverted_index.zigzagging	131
abstract_inverted_index.application	30
abstract_inverted_index.challenges,	35
abstract_inverted_index.consumption	53
abstract_inverted_index.demonstrate	178
abstract_inverted_index.effectively	129, 181
abstract_inverted_index.intelligent	20
abstract_inverted_index.maintaining	185
abstract_inverted_index.performance	163, 183
abstract_inverted_index.(Grad-CAPS),	98
abstract_inverted_index.adaptability	140
abstract_inverted_index.conditioning	71
abstract_inverted_index.displacement	114
abstract_inverted_index.experiments,	151
abstract_inverted_index.trajectories	43
abstract_inverted_index.Consequently,	126
abstract_inverted_index.Reinforcement	1
abstract_inverted_index.applications,	15
abstract_inverted_index.environments.	27, 148, 175
abstract_inverted_index.normalization	115
abstract_inverted_index.reinforcement	157
abstract_inverted_index.Gradient-based	96
abstract_inverted_index.expressiveness	137
abstract_inverted_index.regularization	81
abstract_inverted_index.robotic-related	166
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	5
citation_normalized_percentile