Control strategy of robotic manipulator based on multi-task reinforcement learning Article Swipe

View

Tao Wang , Zhijie Ruan , Yuyan Wang , Chong Chen ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.1007/s40747-025-01816-w

Multi-task learning is important in reinforcement learning where simultaneously training across different tasks allows for leveraging shared information among them, typically leading to better performance than single-task learning. While joint training of multiple tasks permits parameter sharing between tasks, the optimization challenge becomes crucial—identifying which parameters should be reused and managing potential gradient conflicts arising from different tasks. To tackle this issue, instead of uniform parameter sharing, we propose an adjudicate reconfiguration network model, which we integrate into the Soft Actor-Critic (SAC) algorithm to address the optimization problems brought about by parameter sharing in multi-task reinforcement learning algorithms. The decision reconstruction network model is designed to achieve cross-network layer information exchange between network layers by dynamically adjusting and reconfiguring the network hierarchy, which can overcome the inherent limitations of traditional network architecture in handling multitasking scenarios. The SAC algorithm based on the decision reconstruction network model can achieve simultaneous training in multiple tasks, effectively learning and integrating relevant knowledge of each task. Finally, the proposed algorithm is evaluated in a multi-task environment of the Meta-World, a benchmark for multi-task reinforcement learning containing robotic manipulation tasks, and the multi-task MUJOCO environment.

Related Topics

Reinforcement Learning

Computer Science

Artificial Intelligence

Concepts

Reinforcement learning Computational intelligence Task (project management) Robot manipulator Manipulator (device) Computer science Control (management) Artificial intelligence Control engineering Engineering Robot Systems engineering

Metadata

Type: article
Language: en
Landing Page: https://doi.org/10.1007/s40747-025-01816-w
OA Status: gold
Cited By: 1
References: 26
Related Works: 10
OpenAlex ID: https://openalex.org/W4407743178

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4407743178

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.1007/s40747-025-01816-w

Digital Object Identifier
Title: Control strategy of robotic manipulator based on multi-task reinforcement learning

Work title
Type: article

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-02-19

Full publication date if available
Authors: Tao Wang, Zhijie Ruan, Yuyan Wang, Chong Chen

List of authors in order
Landing page: https://doi.org/10.1007/s40747-025-01816-w

Publisher landing page
Open access: Yes

Whether a free full text is available
OA status: gold

Open access status per OpenAlex
OA URL: https://doi.org/10.1007/s40747-025-01816-w

Direct OA link when available
Concepts: Reinforcement learning, Computational intelligence, Task (project management), Robot manipulator, Manipulator (device), Computer science, Control (management), Artificial intelligence, Control engineering, Engineering, Robot, Systems engineering

Top concepts (fields/topics) attached by OpenAlex
Cited by: 1

Total citation count in OpenAlex
Citations by year (recent): 2025: 1

Per-year citation counts (last 5 years)
References (count): 26

Number of works referenced by this work
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4407743178
doi	https://doi.org/10.1007/s40747-025-01816-w
ids.doi	https://doi.org/10.1007/s40747-025-01816-w
ids.openalex	https://openalex.org/W4407743178
fwci	3.71677326
type	article
title	Control strategy of robotic manipulator based on multi-task reinforcement learning
awards[0].id	https://openalex.org/G3681786102
awards[0].funder_id	https://openalex.org/F4320321001
awards[0].display_name
awards[0].funder_award_id	62302103
awards[0].funder_display_name	National Natural Science Foundation of China
biblio.issue	3
biblio.volume	11
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T14011
topics[0].field.id	https://openalex.org/fields/22
topics[0].field.display_name	Engineering
topics[0].score	0.9663000106811523
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/2207
topics[0].subfield.display_name	Control and Systems Engineering
topics[0].display_name	Elevator Systems and Control
topics[1].id	https://openalex.org/T14225
topics[1].field.id	https://openalex.org/fields/22
topics[1].field.display_name	Engineering
topics[1].score	0.9656000137329102
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/2207
topics[1].subfield.display_name	Control and Systems Engineering
topics[1].display_name	Advanced Sensor and Control Systems
topics[2].id	https://openalex.org/T13717
topics[2].field.id	https://openalex.org/fields/22
topics[2].field.display_name	Engineering
topics[2].score	0.9575999975204468
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/2207
topics[2].subfield.display_name	Control and Systems Engineering
topics[2].display_name	Advanced Algorithms and Applications
funders[0].id	https://openalex.org/F4320321001
funders[0].ror	https://ror.org/01h0zpd94
funders[0].display_name	National Natural Science Foundation of China
is_xpac	False
apc_list.value	1320
apc_list.currency	GBP
apc_list.value_usd	1619
apc_paid.value	1320
apc_paid.currency	GBP
apc_paid.value_usd	1619
concepts[0].id	https://openalex.org/C97541855
concepts[0].level	2
concepts[0].score	0.8211868405342102
concepts[0].wikidata	https://www.wikidata.org/wiki/Q830687
concepts[0].display_name	Reinforcement learning
concepts[1].id	https://openalex.org/C139502532
concepts[1].level	2
concepts[1].score	0.7196786403656006
concepts[1].wikidata	https://www.wikidata.org/wiki/Q1122090
concepts[1].display_name	Computational intelligence
concepts[2].id	https://openalex.org/C2780451532
concepts[2].level	2
concepts[2].score	0.7185021638870239
concepts[2].wikidata	https://www.wikidata.org/wiki/Q759676
concepts[2].display_name	Task (project management)
concepts[3].id	https://openalex.org/C2985527887
concepts[3].level	3
concepts[3].score	0.6553295850753784
concepts[3].wikidata	https://www.wikidata.org/wiki/Q1587588
concepts[3].display_name	Robot manipulator
concepts[4].id	https://openalex.org/C2781347998
concepts[4].level	3
concepts[4].score	0.6461349129676819
concepts[4].wikidata	https://www.wikidata.org/wiki/Q1587588
concepts[4].display_name	Manipulator (device)
concepts[5].id	https://openalex.org/C41008148
concepts[5].level	0
concepts[5].score	0.567546010017395
concepts[5].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[5].display_name	Computer science
concepts[6].id	https://openalex.org/C2775924081
concepts[6].level	2
concepts[6].score	0.5370086431503296
concepts[6].wikidata	https://www.wikidata.org/wiki/Q55608371
concepts[6].display_name	Control (management)
concepts[7].id	https://openalex.org/C154945302
concepts[7].level	1
concepts[7].score	0.49991393089294434
concepts[7].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[7].display_name	Artificial intelligence
concepts[8].id	https://openalex.org/C133731056
concepts[8].level	1
concepts[8].score	0.4502609372138977
concepts[8].wikidata	https://www.wikidata.org/wiki/Q4917288
concepts[8].display_name	Control engineering
concepts[9].id	https://openalex.org/C127413603
concepts[9].level	0
concepts[9].score	0.32715296745300293
concepts[9].wikidata	https://www.wikidata.org/wiki/Q11023
concepts[9].display_name	Engineering
concepts[10].id	https://openalex.org/C90509273
concepts[10].level	2
concepts[10].score	0.20889025926589966
concepts[10].wikidata	https://www.wikidata.org/wiki/Q11012
concepts[10].display_name	Robot
concepts[11].id	https://openalex.org/C201995342
concepts[11].level	1
concepts[11].score	0.12586891651153564
concepts[11].wikidata	https://www.wikidata.org/wiki/Q682496
concepts[11].display_name	Systems engineering
keywords[0].id	https://openalex.org/keywords/reinforcement-learning
keywords[0].score	0.8211868405342102
keywords[0].display_name	Reinforcement learning
keywords[1].id	https://openalex.org/keywords/computational-intelligence
keywords[1].score	0.7196786403656006
keywords[1].display_name	Computational intelligence
keywords[2].id	https://openalex.org/keywords/task
keywords[2].score	0.7185021638870239
keywords[2].display_name	Task (project management)
keywords[3].id	https://openalex.org/keywords/robot-manipulator
keywords[3].score	0.6553295850753784
keywords[3].display_name	Robot manipulator
keywords[4].id	https://openalex.org/keywords/manipulator
keywords[4].score	0.6461349129676819
keywords[4].display_name	Manipulator (device)
keywords[5].id	https://openalex.org/keywords/computer-science
keywords[5].score	0.567546010017395
keywords[5].display_name	Computer science
keywords[6].id	https://openalex.org/keywords/control
keywords[6].score	0.5370086431503296
keywords[6].display_name	Control (management)
keywords[7].id	https://openalex.org/keywords/artificial-intelligence
keywords[7].score	0.49991393089294434
keywords[7].display_name	Artificial intelligence
keywords[8].id	https://openalex.org/keywords/control-engineering
keywords[8].score	0.4502609372138977
keywords[8].display_name	Control engineering
keywords[9].id	https://openalex.org/keywords/engineering
keywords[9].score	0.32715296745300293
keywords[9].display_name	Engineering
keywords[10].id	https://openalex.org/keywords/robot
keywords[10].score	0.20889025926589966
keywords[10].display_name	Robot
keywords[11].id	https://openalex.org/keywords/systems-engineering
keywords[11].score	0.12586891651153564
keywords[11].display_name	Systems engineering
language	en
locations[0].id	doi:10.1007/s40747-025-01816-w
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S3035462843
locations[0].source.issn	2198-6053, 2199-4536
locations[0].source.type	journal
locations[0].source.is_oa	True
locations[0].source.issn_l	2198-6053
locations[0].source.is_core	True
locations[0].source.is_in_doaj	True
locations[0].source.display_name	Complex & Intelligent Systems
locations[0].source.host_organization	https://openalex.org/P4310319900
locations[0].source.host_organization_name	Springer Science+Business Media
locations[0].source.host_organization_lineage	https://openalex.org/P4310319900, https://openalex.org/P4310319965
locations[0].source.host_organization_lineage_names	Springer Science+Business Media, Springer Nature
locations[0].license
locations[0].pdf_url
locations[0].version	publishedVersion
locations[0].raw_type	journal-article
locations[0].license_id
locations[0].is_accepted	True
locations[0].is_published	True
locations[0].raw_source_name	Complex & Intelligent Systems
locations[0].landing_page_url	https://doi.org/10.1007/s40747-025-01816-w
locations[1].id	pmh:oai:doaj.org/article:2566810bb3e94573b3e7aac588d9b338
locations[1].is_oa	False
locations[1].source.id	https://openalex.org/S4306401280
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	False
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	DOAJ (DOAJ: Directory of Open Access Journals)
locations[1].source.host_organization
locations[1].source.host_organization_name
locations[1].license
locations[1].pdf_url
locations[1].version	submittedVersion
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published	False
locations[1].raw_source_name	Complex & Intelligent Systems, Vol 11, Iss 3, Pp 1-14 (2025)
locations[1].landing_page_url	https://doaj.org/article/2566810bb3e94573b3e7aac588d9b338
indexed_in	crossref, doaj
authorships[0].author.id	https://openalex.org/A5100453544
authorships[0].author.orcid	https://orcid.org/0000-0002-5121-0599
authorships[0].author.display_name	Tao Wang
authorships[0].author_position	first
authorships[0].raw_author_name	Tao Wang
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5113346766
authorships[1].author.orcid
authorships[1].author.display_name	Zhijie Ruan
authorships[1].author_position	middle
authorships[1].raw_author_name	Ziming Ruan
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5100677212
authorships[2].author.orcid	https://orcid.org/0000-0001-5585-3789
authorships[2].author.display_name	Yuyan Wang
authorships[2].author_position	middle
authorships[2].raw_author_name	Yuyan Wang
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5100348801
authorships[3].author.orcid	https://orcid.org/0000-0003-2800-4647
authorships[3].author.display_name	Chong Chen
authorships[3].author_position	last
authorships[3].raw_author_name	Chong Chen
authorships[3].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://doi.org/10.1007/s40747-025-01816-w
open_access.oa_status	gold
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Control strategy of robotic manipulator based on multi-task reinforcement learning
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T03:46:38.306776
primary_topic.id	https://openalex.org/T14011
primary_topic.field.id	https://openalex.org/fields/22
primary_topic.field.display_name	Engineering
primary_topic.score	0.9663000106811523
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/2207
primary_topic.subfield.display_name	Control and Systems Engineering
primary_topic.display_name	Elevator Systems and Control
related_works	https://openalex.org/W2391397427, https://openalex.org/W1996341361, https://openalex.org/W4366609476, https://openalex.org/W2078127841, https://openalex.org/W2919815400, https://openalex.org/W2156518980, https://openalex.org/W2362551533, https://openalex.org/W2386777533, https://openalex.org/W4403420403, https://openalex.org/W2093621301
cited_by_count	1
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	1
locations_count	2
best_oa_location.id	doi:10.1007/s40747-025-01816-w
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S3035462843
best_oa_location.source.issn	2198-6053, 2199-4536
best_oa_location.source.type	journal
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l	2198-6053
best_oa_location.source.is_core	True
best_oa_location.source.is_in_doaj	True
best_oa_location.source.display_name	Complex & Intelligent Systems
best_oa_location.source.host_organization	https://openalex.org/P4310319900
best_oa_location.source.host_organization_name	Springer Science+Business Media
best_oa_location.source.host_organization_lineage	https://openalex.org/P4310319900, https://openalex.org/P4310319965
best_oa_location.source.host_organization_lineage_names	Springer Science+Business Media, Springer Nature
best_oa_location.license
best_oa_location.pdf_url
best_oa_location.version	publishedVersion
best_oa_location.raw_type	journal-article
best_oa_location.license_id
best_oa_location.is_accepted	True
best_oa_location.is_published	True
best_oa_location.raw_source_name	Complex & Intelligent Systems
best_oa_location.landing_page_url	https://doi.org/10.1007/s40747-025-01816-w
primary_location.id	doi:10.1007/s40747-025-01816-w
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S3035462843
primary_location.source.issn	2198-6053, 2199-4536
primary_location.source.type	journal
primary_location.source.is_oa	True
primary_location.source.issn_l	2198-6053
primary_location.source.is_core	True
primary_location.source.is_in_doaj	True
primary_location.source.display_name	Complex & Intelligent Systems
primary_location.source.host_organization	https://openalex.org/P4310319900
primary_location.source.host_organization_name	Springer Science+Business Media
primary_location.source.host_organization_lineage	https://openalex.org/P4310319900, https://openalex.org/P4310319965
primary_location.source.host_organization_lineage_names	Springer Science+Business Media, Springer Nature
primary_location.license
primary_location.pdf_url
primary_location.version	publishedVersion
primary_location.raw_type	journal-article
primary_location.license_id
primary_location.is_accepted	True
primary_location.is_published	True
primary_location.raw_source_name	Complex & Intelligent Systems
primary_location.landing_page_url	https://doi.org/10.1007/s40747-025-01816-w
publication_date	2025-02-19
publication_year	2025
referenced_works	https://openalex.org/W4205578260, https://openalex.org/W4319833529, https://openalex.org/W4206668048, https://openalex.org/W3156492906, https://openalex.org/W4379983844, https://openalex.org/W6606882031, https://openalex.org/W3192970068, https://openalex.org/W4401754514, https://openalex.org/W4392499083, https://openalex.org/W4391360925, https://openalex.org/W4382239700, https://openalex.org/W4387745175, https://openalex.org/W3197128667, https://openalex.org/W3141797743, https://openalex.org/W4388816578, https://openalex.org/W4376269829, https://openalex.org/W4321180396, https://openalex.org/W4285214238, https://openalex.org/W3128096387, https://openalex.org/W4319300241, https://openalex.org/W4313178149, https://openalex.org/W3175547386, https://openalex.org/W2963216850, https://openalex.org/W4386075489, https://openalex.org/W3022652760, https://openalex.org/W6814003322
referenced_works_count	26
abstract_inverted_index.a	170, 176
abstract_inverted_index.To	59
abstract_inverted_index.an	70
abstract_inverted_index.be	48
abstract_inverted_index.by	91, 115
abstract_inverted_index.in	5, 94, 133, 151, 169
abstract_inverted_index.is	3, 104, 167
abstract_inverted_index.of	32, 64, 129, 160, 173
abstract_inverted_index.on	141
abstract_inverted_index.to	23, 84, 106
abstract_inverted_index.we	68, 76
abstract_inverted_index.SAC	138
abstract_inverted_index.The	99, 137
abstract_inverted_index.and	50, 118, 156, 186
abstract_inverted_index.can	124, 147
abstract_inverted_index.for	15, 178
abstract_inverted_index.the	40, 79, 86, 120, 126, 142, 164, 174, 187
abstract_inverted_index.Soft	80
abstract_inverted_index.each	161
abstract_inverted_index.from	56
abstract_inverted_index.into	78
abstract_inverted_index.than	26
abstract_inverted_index.this	61
abstract_inverted_index.(SAC)	82
abstract_inverted_index.While	29
abstract_inverted_index.about	90
abstract_inverted_index.among	19
abstract_inverted_index.based	140
abstract_inverted_index.joint	30
abstract_inverted_index.layer	109
abstract_inverted_index.model	103, 146
abstract_inverted_index.task.	162
abstract_inverted_index.tasks	13, 34
abstract_inverted_index.them,	20
abstract_inverted_index.where	8
abstract_inverted_index.which	45, 75, 123
abstract_inverted_index.MUJOCO	189
abstract_inverted_index.across	11
abstract_inverted_index.allows	14
abstract_inverted_index.better	24
abstract_inverted_index.issue,	62
abstract_inverted_index.layers	114
abstract_inverted_index.model,	74
abstract_inverted_index.reused	49
abstract_inverted_index.shared	17
abstract_inverted_index.should	47
abstract_inverted_index.tackle	60
abstract_inverted_index.tasks,	39, 153, 185
abstract_inverted_index.tasks.	58
abstract_inverted_index.achieve	107, 148
abstract_inverted_index.address	85
abstract_inverted_index.arising	55
abstract_inverted_index.becomes	43
abstract_inverted_index.between	38, 112
abstract_inverted_index.brought	89
abstract_inverted_index.instead	63
abstract_inverted_index.leading	22
abstract_inverted_index.network	73, 102, 113, 121, 131, 145
abstract_inverted_index.permits	35
abstract_inverted_index.propose	69
abstract_inverted_index.robotic	183
abstract_inverted_index.sharing	37, 93
abstract_inverted_index.uniform	65
abstract_inverted_index.Abstract	0
abstract_inverted_index.Finally,	163
abstract_inverted_index.decision	100, 143
abstract_inverted_index.designed	105
abstract_inverted_index.exchange	111
abstract_inverted_index.gradient	53
abstract_inverted_index.handling	134
abstract_inverted_index.inherent	127
abstract_inverted_index.learning	2, 7, 97, 155, 181
abstract_inverted_index.managing	51
abstract_inverted_index.multiple	33, 152
abstract_inverted_index.overcome	125
abstract_inverted_index.problems	88
abstract_inverted_index.proposed	165
abstract_inverted_index.relevant	158
abstract_inverted_index.sharing,	67
abstract_inverted_index.training	10, 31, 150
abstract_inverted_index.adjusting	117
abstract_inverted_index.algorithm	83, 139, 166
abstract_inverted_index.benchmark	177
abstract_inverted_index.challenge	42
abstract_inverted_index.conflicts	54
abstract_inverted_index.different	12, 57
abstract_inverted_index.evaluated	168
abstract_inverted_index.important	4
abstract_inverted_index.integrate	77
abstract_inverted_index.knowledge	159
abstract_inverted_index.learning.	28
abstract_inverted_index.parameter	36, 66, 92
abstract_inverted_index.potential	52
abstract_inverted_index.typically	21
abstract_inverted_index.Multi-task	1
abstract_inverted_index.adjudicate	71
abstract_inverted_index.containing	182
abstract_inverted_index.hierarchy,	122
abstract_inverted_index.leveraging	16
abstract_inverted_index.multi-task	95, 171, 179, 188
abstract_inverted_index.parameters	46
abstract_inverted_index.scenarios.	136
abstract_inverted_index.Meta-World,	175
abstract_inverted_index.algorithms.	98
abstract_inverted_index.dynamically	116
abstract_inverted_index.effectively	154
abstract_inverted_index.environment	172
abstract_inverted_index.information	18, 110
abstract_inverted_index.integrating	157
abstract_inverted_index.limitations	128
abstract_inverted_index.performance	25
abstract_inverted_index.single-task	27
abstract_inverted_index.traditional	130
abstract_inverted_index.Actor-Critic	81
abstract_inverted_index.architecture	132
abstract_inverted_index.environment.	190
abstract_inverted_index.manipulation	184
abstract_inverted_index.multitasking	135
abstract_inverted_index.optimization	41, 87
abstract_inverted_index.simultaneous	149
abstract_inverted_index.cross-network	108
abstract_inverted_index.reconfiguring	119
abstract_inverted_index.reinforcement	6, 96, 180
abstract_inverted_index.reconstruction	101, 144
abstract_inverted_index.simultaneously	9
abstract_inverted_index.reconfiguration	72
abstract_inverted_index.crucial—identifying	44
cited_by_percentile_year.max	95
cited_by_percentile_year.min	91
countries_distinct_count	0
institutions_distinct_count	4
citation_normalized_percentile.value	0.8142317
citation_normalized_percentile.is_in_top_1_percent	False
citation_normalized_percentile.is_in_top_10_percent	True