Global Rewards in Multi-Agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems Article Swipe

PDF

Heiko Hoppe , Tobias Enders , Quentin Cappart , Maximilian Schiffer ·

YOU? · · 2023 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2312.08884

We study vehicle dispatching in autonomous mobility on demand (AMoD) systems, where a central operator assigns vehicles to customer requests or rejects these with the aim of maximizing its total profit. Recent approaches use multi-agent deep reinforcement learning (MADRL) to realize scalable yet performant algorithms, but train agents based on local rewards, which distorts the reward signal with respect to the system-wide profit, leading to lower performance. We therefore propose a novel global-rewards-based MADRL algorithm for vehicle dispatching in AMoD systems, which resolves so far existing goal conflicts between the trained agents and the operator by assigning rewards to agents leveraging a counterfactual baseline. Our algorithm shows statistically significant improvements across various settings on real-world data compared to state-of-the-art MADRL algorithms with local rewards. We further provide a structural analysis which shows that the utilization of global rewards can improve implicit vehicle balancing and demand forecasting abilities. Our code is available at https://github.com/tumBAIS/GR-MADRL-AMoD.

Related Topics

Reinforcement Learning

Computer Science

Artificial Intelligence

Concepts

Reinforcement learning Computer science Counterfactual thinking Scalability Profit (economics) Distributed computing Operator (biology) Artificial intelligence Operations research Engineering Economics Repressor Gene Microeconomics Biochemistry Philosophy Transcription factor Chemistry Database Epistemology

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2312.08884
PDF: https://arxiv.org/pdf/2312.08884
OA Status: green
Cited By: 2
Related Works: 10
OpenAlex ID: https://openalex.org/W4389820725

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4389820725

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2312.08884

Digital Object Identifier
Title: Global Rewards in Multi-Agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2023

Year of publication
Publication date: 2023-12-14

Full publication date if available
Authors: Heiko Hoppe, Tobias Enders, Quentin Cappart, Maximilian Schiffer

List of authors in order
Landing page: https://arxiv.org/abs/2312.08884

Publisher landing page
PDF URL: https://arxiv.org/pdf/2312.08884

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2312.08884

Direct OA link when available
Concepts: Reinforcement learning, Computer science, Counterfactual thinking, Scalability, Profit (economics), Distributed computing, Operator (biology), Artificial intelligence, Operations research, Engineering, Economics, Repressor, Gene, Microeconomics, Biochemistry, Philosophy, Transcription factor, Chemistry, Database, Epistemology

Top concepts (fields/topics) attached by OpenAlex
Cited by: 2

Total citation count in OpenAlex
Citations by year (recent): 2025: 2

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4389820725
doi	https://doi.org/10.48550/arxiv.2312.08884
ids.doi	https://doi.org/10.48550/arxiv.2312.08884
ids.openalex	https://openalex.org/W4389820725
fwci
type	preprint
title	Global Rewards in Multi-Agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11942
topics[0].field.id	https://openalex.org/fields/22
topics[0].field.display_name	Engineering
topics[0].score	0.9994999766349792
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/2203
topics[0].subfield.display_name	Automotive Engineering
topics[0].display_name	Transportation and Mobility Innovations
topics[1].id	https://openalex.org/T10524
topics[1].field.id	https://openalex.org/fields/22
topics[1].field.display_name	Engineering
topics[1].score	0.9814000129699707
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/2207
topics[1].subfield.display_name	Control and Systems Engineering
topics[1].display_name	Traffic control and management
topics[2].id	https://openalex.org/T10698
topics[2].field.id	https://openalex.org/fields/33
topics[2].field.display_name	Social Sciences
topics[2].score	0.9765999913215637
topics[2].domain.id	https://openalex.org/domains/2
topics[2].domain.display_name	Social Sciences
topics[2].subfield.id	https://openalex.org/subfields/3313
topics[2].subfield.display_name	Transportation
topics[2].display_name	Transportation Planning and Optimization
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C97541855
concepts[0].level	2
concepts[0].score	0.7736067771911621
concepts[0].wikidata	https://www.wikidata.org/wiki/Q830687
concepts[0].display_name	Reinforcement learning
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.7638474702835083
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C108650721
concepts[2].level	2
concepts[2].score	0.6464009284973145
concepts[2].wikidata	https://www.wikidata.org/wiki/Q1783253
concepts[2].display_name	Counterfactual thinking
concepts[3].id	https://openalex.org/C48044578
concepts[3].level	2
concepts[3].score	0.6383939981460571
concepts[3].wikidata	https://www.wikidata.org/wiki/Q727490
concepts[3].display_name	Scalability
concepts[4].id	https://openalex.org/C181622380
concepts[4].level	2
concepts[4].score	0.5136720538139343
concepts[4].wikidata	https://www.wikidata.org/wiki/Q26911
concepts[4].display_name	Profit (economics)
concepts[5].id	https://openalex.org/C120314980
concepts[5].level	1
concepts[5].score	0.4369434714317322
concepts[5].wikidata	https://www.wikidata.org/wiki/Q180634
concepts[5].display_name	Distributed computing
concepts[6].id	https://openalex.org/C17020691
concepts[6].level	5
concepts[6].score	0.4244709610939026
concepts[6].wikidata	https://www.wikidata.org/wiki/Q139677
concepts[6].display_name	Operator (biology)
concepts[7].id	https://openalex.org/C154945302
concepts[7].level	1
concepts[7].score	0.400034099817276
concepts[7].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[7].display_name	Artificial intelligence
concepts[8].id	https://openalex.org/C42475967
concepts[8].level	1
concepts[8].score	0.32639577984809875
concepts[8].wikidata	https://www.wikidata.org/wiki/Q194292
concepts[8].display_name	Operations research
concepts[9].id	https://openalex.org/C127413603
concepts[9].level	0
concepts[9].score	0.10200750827789307
concepts[9].wikidata	https://www.wikidata.org/wiki/Q11023
concepts[9].display_name	Engineering
concepts[10].id	https://openalex.org/C162324750
concepts[10].level	0
concepts[10].score	0.07601425051689148
concepts[10].wikidata	https://www.wikidata.org/wiki/Q8134
concepts[10].display_name	Economics
concepts[11].id	https://openalex.org/C158448853
concepts[11].level	4
concepts[11].score	0.0
concepts[11].wikidata	https://www.wikidata.org/wiki/Q425218
concepts[11].display_name	Repressor
concepts[12].id	https://openalex.org/C104317684
concepts[12].level	2
concepts[12].score	0.0
concepts[12].wikidata	https://www.wikidata.org/wiki/Q7187
concepts[12].display_name	Gene
concepts[13].id	https://openalex.org/C175444787
concepts[13].level	1
concepts[13].score	0.0
concepts[13].wikidata	https://www.wikidata.org/wiki/Q39072
concepts[13].display_name	Microeconomics
concepts[14].id	https://openalex.org/C55493867
concepts[14].level	1
concepts[14].score	0.0
concepts[14].wikidata	https://www.wikidata.org/wiki/Q7094
concepts[14].display_name	Biochemistry
concepts[15].id	https://openalex.org/C138885662
concepts[15].level	0
concepts[15].score	0.0
concepts[15].wikidata	https://www.wikidata.org/wiki/Q5891
concepts[15].display_name	Philosophy
concepts[16].id	https://openalex.org/C86339819
concepts[16].level	3
concepts[16].score	0.0
concepts[16].wikidata	https://www.wikidata.org/wiki/Q407384
concepts[16].display_name	Transcription factor
concepts[17].id	https://openalex.org/C185592680
concepts[17].level	0
concepts[17].score	0.0
concepts[17].wikidata	https://www.wikidata.org/wiki/Q2329
concepts[17].display_name	Chemistry
concepts[18].id	https://openalex.org/C77088390
concepts[18].level	1
concepts[18].score	0.0
concepts[18].wikidata	https://www.wikidata.org/wiki/Q8513
concepts[18].display_name	Database
concepts[19].id	https://openalex.org/C111472728
concepts[19].level	1
concepts[19].score	0.0
concepts[19].wikidata	https://www.wikidata.org/wiki/Q9471
concepts[19].display_name	Epistemology
keywords[0].id	https://openalex.org/keywords/reinforcement-learning
keywords[0].score	0.7736067771911621
keywords[0].display_name	Reinforcement learning
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.7638474702835083
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/counterfactual-thinking
keywords[2].score	0.6464009284973145
keywords[2].display_name	Counterfactual thinking
keywords[3].id	https://openalex.org/keywords/scalability
keywords[3].score	0.6383939981460571
keywords[3].display_name	Scalability
keywords[4].id	https://openalex.org/keywords/profit
keywords[4].score	0.5136720538139343
keywords[4].display_name	Profit (economics)
keywords[5].id	https://openalex.org/keywords/distributed-computing
keywords[5].score	0.4369434714317322
keywords[5].display_name	Distributed computing
keywords[6].id	https://openalex.org/keywords/operator
keywords[6].score	0.4244709610939026
keywords[6].display_name	Operator (biology)
keywords[7].id	https://openalex.org/keywords/artificial-intelligence
keywords[7].score	0.400034099817276
keywords[7].display_name	Artificial intelligence
keywords[8].id	https://openalex.org/keywords/operations-research
keywords[8].score	0.32639577984809875
keywords[8].display_name	Operations research
keywords[9].id	https://openalex.org/keywords/engineering
keywords[9].score	0.10200750827789307
keywords[9].display_name	Engineering
keywords[10].id	https://openalex.org/keywords/economics
keywords[10].score	0.07601425051689148
keywords[10].display_name	Economics
language	en
locations[0].id	pmh:oai:arXiv.org:2312.08884
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2312.08884
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2312.08884
locations[1].id	doi:10.48550/arxiv.2312.08884
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2312.08884
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5101280423
authorships[0].author.orcid
authorships[0].author.display_name	Heiko Hoppe
authorships[0].author_position	first
authorships[0].raw_author_name	Hoppe, Heiko
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5071216580
authorships[1].author.orcid
authorships[1].author.display_name	Tobias Enders
authorships[1].author_position	middle
authorships[1].raw_author_name	Enders, Tobias
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5065781444
authorships[2].author.orcid	https://orcid.org/0000-0002-8742-0774
authorships[2].author.display_name	Quentin Cappart
authorships[2].author_position	middle
authorships[2].raw_author_name	Cappart, Quentin
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5034416720
authorships[3].author.orcid	https://orcid.org/0000-0003-2682-4975
authorships[3].author.display_name	Maximilian Schiffer
authorships[3].author_position	last
authorships[3].raw_author_name	Schiffer, Maximilian
authorships[3].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2312.08884
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2023-12-16T00:00:00
display_name	Global Rewards in Multi-Agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11942
primary_topic.field.id	https://openalex.org/fields/22
primary_topic.field.display_name	Engineering
primary_topic.score	0.9994999766349792
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/2203
primary_topic.subfield.display_name	Automotive Engineering
primary_topic.display_name	Transportation and Mobility Innovations
related_works	https://openalex.org/W3201448254, https://openalex.org/W4286970243, https://openalex.org/W2066431708, https://openalex.org/W4384133558, https://openalex.org/W3025615835, https://openalex.org/W173210993, https://openalex.org/W2390660599, https://openalex.org/W3028847759, https://openalex.org/W2393688264, https://openalex.org/W3170174360
cited_by_count	2
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	2
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2312.08884
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2312.08884
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2312.08884
primary_location.id	pmh:oai:arXiv.org:2312.08884
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2312.08884
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2312.08884
publication_date	2023-12-14
publication_year	2023
referenced_works_count	0
abstract_inverted_index.a	12, 70, 101, 127
abstract_inverted_index.We	0, 67, 124
abstract_inverted_index.at	151
abstract_inverted_index.by	95
abstract_inverted_index.in	4, 78
abstract_inverted_index.is	149
abstract_inverted_index.of	26, 135
abstract_inverted_index.on	7, 49, 113
abstract_inverted_index.or	20
abstract_inverted_index.so	83
abstract_inverted_index.to	17, 39, 59, 64, 98, 117
abstract_inverted_index.Our	104, 147
abstract_inverted_index.aim	25
abstract_inverted_index.and	92, 143
abstract_inverted_index.but	45
abstract_inverted_index.can	138
abstract_inverted_index.far	84
abstract_inverted_index.for	75
abstract_inverted_index.its	28
abstract_inverted_index.the	24, 54, 60, 89, 93, 133
abstract_inverted_index.use	33
abstract_inverted_index.yet	42
abstract_inverted_index.AMoD	79
abstract_inverted_index.code	148
abstract_inverted_index.data	115
abstract_inverted_index.deep	35
abstract_inverted_index.goal	86
abstract_inverted_index.that	132
abstract_inverted_index.with	23, 57, 121
abstract_inverted_index.MADRL	73, 119
abstract_inverted_index.based	48
abstract_inverted_index.local	50, 122
abstract_inverted_index.lower	65
abstract_inverted_index.novel	71
abstract_inverted_index.shows	106, 131
abstract_inverted_index.study	1
abstract_inverted_index.these	22
abstract_inverted_index.total	29
abstract_inverted_index.train	46
abstract_inverted_index.where	11
abstract_inverted_index.which	52, 81, 130
abstract_inverted_index.(AMoD)	9
abstract_inverted_index.Recent	31
abstract_inverted_index.across	110
abstract_inverted_index.agents	47, 91, 99
abstract_inverted_index.demand	8, 144
abstract_inverted_index.global	136
abstract_inverted_index.reward	55
abstract_inverted_index.signal	56
abstract_inverted_index.(MADRL)	38
abstract_inverted_index.assigns	15
abstract_inverted_index.between	88
abstract_inverted_index.central	13
abstract_inverted_index.further	125
abstract_inverted_index.improve	139
abstract_inverted_index.leading	63
abstract_inverted_index.profit,	62
abstract_inverted_index.profit.	30
abstract_inverted_index.propose	69
abstract_inverted_index.provide	126
abstract_inverted_index.realize	40
abstract_inverted_index.rejects	21
abstract_inverted_index.respect	58
abstract_inverted_index.rewards	97, 137
abstract_inverted_index.trained	90
abstract_inverted_index.various	111
abstract_inverted_index.vehicle	2, 76, 141
abstract_inverted_index.analysis	129
abstract_inverted_index.compared	116
abstract_inverted_index.customer	18
abstract_inverted_index.distorts	53
abstract_inverted_index.existing	85
abstract_inverted_index.implicit	140
abstract_inverted_index.learning	37
abstract_inverted_index.mobility	6
abstract_inverted_index.operator	14, 94
abstract_inverted_index.requests	19
abstract_inverted_index.resolves	82
abstract_inverted_index.rewards,	51
abstract_inverted_index.rewards.	123
abstract_inverted_index.scalable	41
abstract_inverted_index.settings	112
abstract_inverted_index.systems,	10, 80
abstract_inverted_index.vehicles	16
abstract_inverted_index.algorithm	74, 105
abstract_inverted_index.assigning	96
abstract_inverted_index.available	150
abstract_inverted_index.balancing	142
abstract_inverted_index.baseline.	103
abstract_inverted_index.conflicts	87
abstract_inverted_index.therefore	68
abstract_inverted_index.abilities.	146
abstract_inverted_index.algorithms	120
abstract_inverted_index.approaches	32
abstract_inverted_index.autonomous	5
abstract_inverted_index.leveraging	100
abstract_inverted_index.maximizing	27
abstract_inverted_index.performant	43
abstract_inverted_index.real-world	114
abstract_inverted_index.structural	128
abstract_inverted_index.algorithms,	44
abstract_inverted_index.dispatching	3, 77
abstract_inverted_index.forecasting	145
abstract_inverted_index.multi-agent	34
abstract_inverted_index.significant	108
abstract_inverted_index.system-wide	61
abstract_inverted_index.utilization	134
abstract_inverted_index.improvements	109
abstract_inverted_index.performance.	66
abstract_inverted_index.reinforcement	36
abstract_inverted_index.statistically	107
abstract_inverted_index.counterfactual	102
abstract_inverted_index.state-of-the-art	118
abstract_inverted_index.global-rewards-based	72
abstract_inverted_index.https://github.com/tumBAIS/GR-MADRL-AMoD.	152
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	4
citation_normalized_percentile