Unsynchronized Decentralized Q-Learning: Two Timescale Analysis By Persistence Article Swipe

PDF

Bora Yongacoglu , Gürdal Arslan , Serdar Yüksel ·

YOU? · · 2023 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2308.03239

Non-stationarity is a fundamental challenge in multi-agent reinforcement learning (MARL), where agents update their behaviour as they learn. Many theoretical advances in MARL avoid the challenge of non-stationarity by coordinating the policy updates of agents in various ways, including synchronizing times at which agents are allowed to revise their policies. Synchronization enables analysis of many MARL algorithms via multi-timescale methods, but such synchronization is infeasible in many decentralized applications. In this paper, we study an unsynchronized variant of the decentralized Q-learning algorithm, a recent MARL algorithm for stochastic games. We provide sufficient conditions under which the unsynchronized algorithm drives play to equilibrium with high probability. Our solution utilizes constant learning rates in the Q-factor update, which we show to be critical for relaxing the synchronization assumptions of earlier work. Our analysis also applies to unsynchronized generalizations of a number of other algorithms from the regret testing tradition, whose performance is analyzed by multi-timescale methods that study Markov chains obtained via policy update dynamics. This work extends the applicability of the decentralized Q-learning algorithm and its relatives to settings in which parameters are selected in an independent manner, and tames non-stationarity without imposing the coordination assumptions of prior work.

Related Topics

Computer Science

Synchronization

Q-Learning

Reinforcement Learning

Work (Physics)

Theoretical Computer Science

Artificial Intelligence

Mechanical Engineering

Concepts

Asynchronous communication Regret Computer science Synchronizing Q-learning Markov chain Synchronization (alternating current) Reinforcement learning Work (physics) Mathematical optimization Distributed computing Theoretical computer science Artificial intelligence Machine learning Mathematics Engineering Transmission (telecommunications) Telecommunications Computer network Channel (broadcasting) Mechanical engineering

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2308.03239
PDF: https://arxiv.org/pdf/2308.03239
OA Status: green
Cited By: 1
Related Works: 10
OpenAlex ID: https://openalex.org/W4385681682

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4385681682

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2308.03239

Digital Object Identifier
Title: Unsynchronized Decentralized Q-Learning: Two Timescale Analysis By Persistence

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2023

Year of publication
Publication date: 2023-08-07

Full publication date if available
Authors: Bora Yongacoglu, Gürdal Arslan, Serdar Yüksel

List of authors in order
Landing page: https://arxiv.org/abs/2308.03239

Publisher landing page
PDF URL: https://arxiv.org/pdf/2308.03239

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2308.03239

Direct OA link when available
Concepts: Asynchronous communication, Regret, Computer science, Synchronizing, Q-learning, Markov chain, Synchronization (alternating current), Reinforcement learning, Work (physics), Mathematical optimization, Distributed computing, Theoretical computer science, Artificial intelligence, Machine learning, Mathematics, Engineering, Transmission (telecommunications), Telecommunications, Computer network, Channel (broadcasting), Mechanical engineering

Top concepts (fields/topics) attached by OpenAlex
Cited by: 1

Total citation count in OpenAlex
Citations by year (recent): 2023: 1

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4385681682
doi	https://doi.org/10.48550/arxiv.2308.03239
ids.doi	https://doi.org/10.48550/arxiv.2308.03239
ids.openalex	https://openalex.org/W4385681682
fwci
type	preprint
title	Unsynchronized Decentralized Q-Learning: Two Timescale Analysis By Persistence
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11031
topics[0].field.id	https://openalex.org/fields/18
topics[0].field.display_name	Decision Sciences
topics[0].score	0.9825000166893005
topics[0].domain.id	https://openalex.org/domains/2
topics[0].domain.display_name	Social Sciences
topics[0].subfield.id	https://openalex.org/subfields/1803
topics[0].subfield.display_name	Management Science and Operations Research
topics[0].display_name	Game Theory and Applications
topics[1].id	https://openalex.org/T13553
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9674000144004822
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1705
topics[1].subfield.display_name	Computer Networks and Communications
topics[1].display_name	Age of Information Optimization
topics[2].id	https://openalex.org/T10462
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.958899974822998
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1702
topics[2].subfield.display_name	Artificial Intelligence
topics[2].display_name	Reinforcement Learning in Robotics
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C151319957
concepts[0].level	2
concepts[0].score	0.8505383729934692
concepts[0].wikidata	https://www.wikidata.org/wiki/Q752739
concepts[0].display_name	Asynchronous communication
concepts[1].id	https://openalex.org/C50817715
concepts[1].level	2
concepts[1].score	0.7231011986732483
concepts[1].wikidata	https://www.wikidata.org/wiki/Q79895177
concepts[1].display_name	Regret
concepts[2].id	https://openalex.org/C41008148
concepts[2].level	0
concepts[2].score	0.7159298658370972
concepts[2].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[2].display_name	Computer science
concepts[3].id	https://openalex.org/C162932704
concepts[3].level	3
concepts[3].score	0.7140107154846191
concepts[3].wikidata	https://www.wikidata.org/wiki/Q1058791
concepts[3].display_name	Synchronizing
concepts[4].id	https://openalex.org/C188116033
concepts[4].level	3
concepts[4].score	0.6552199125289917
concepts[4].wikidata	https://www.wikidata.org/wiki/Q2664563
concepts[4].display_name	Q-learning
concepts[5].id	https://openalex.org/C98763669
concepts[5].level	2
concepts[5].score	0.5992540717124939
concepts[5].wikidata	https://www.wikidata.org/wiki/Q176645
concepts[5].display_name	Markov chain
concepts[6].id	https://openalex.org/C2778562939
concepts[6].level	3
concepts[6].score	0.5885441303253174
concepts[6].wikidata	https://www.wikidata.org/wiki/Q1298791
concepts[6].display_name	Synchronization (alternating current)
concepts[7].id	https://openalex.org/C97541855
concepts[7].level	2
concepts[7].score	0.5476599335670471
concepts[7].wikidata	https://www.wikidata.org/wiki/Q830687
concepts[7].display_name	Reinforcement learning
concepts[8].id	https://openalex.org/C18762648
concepts[8].level	2
concepts[8].score	0.41030603647232056
concepts[8].wikidata	https://www.wikidata.org/wiki/Q42213
concepts[8].display_name	Work (physics)
concepts[9].id	https://openalex.org/C126255220
concepts[9].level	1
concepts[9].score	0.3718389570713043
concepts[9].wikidata	https://www.wikidata.org/wiki/Q141495
concepts[9].display_name	Mathematical optimization
concepts[10].id	https://openalex.org/C120314980
concepts[10].level	1
concepts[10].score	0.3437376618385315
concepts[10].wikidata	https://www.wikidata.org/wiki/Q180634
concepts[10].display_name	Distributed computing
concepts[11].id	https://openalex.org/C80444323
concepts[11].level	1
concepts[11].score	0.32344645261764526
concepts[11].wikidata	https://www.wikidata.org/wiki/Q2878974
concepts[11].display_name	Theoretical computer science
concepts[12].id	https://openalex.org/C154945302
concepts[12].level	1
concepts[12].score	0.21949347853660583
concepts[12].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[12].display_name	Artificial intelligence
concepts[13].id	https://openalex.org/C119857082
concepts[13].level	1
concepts[13].score	0.20381119847297668
concepts[13].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[13].display_name	Machine learning
concepts[14].id	https://openalex.org/C33923547
concepts[14].level	0
concepts[14].score	0.18284037709236145
concepts[14].wikidata	https://www.wikidata.org/wiki/Q395
concepts[14].display_name	Mathematics
concepts[15].id	https://openalex.org/C127413603
concepts[15].level	0
concepts[15].score	0.07869976758956909
concepts[15].wikidata	https://www.wikidata.org/wiki/Q11023
concepts[15].display_name	Engineering
concepts[16].id	https://openalex.org/C761482
concepts[16].level	2
concepts[16].score	0.0
concepts[16].wikidata	https://www.wikidata.org/wiki/Q118093
concepts[16].display_name	Transmission (telecommunications)
concepts[17].id	https://openalex.org/C76155785
concepts[17].level	1
concepts[17].score	0.0
concepts[17].wikidata	https://www.wikidata.org/wiki/Q418
concepts[17].display_name	Telecommunications
concepts[18].id	https://openalex.org/C31258907
concepts[18].level	1
concepts[18].score	0.0
concepts[18].wikidata	https://www.wikidata.org/wiki/Q1301371
concepts[18].display_name	Computer network
concepts[19].id	https://openalex.org/C127162648
concepts[19].level	2
concepts[19].score	0.0
concepts[19].wikidata	https://www.wikidata.org/wiki/Q16858953
concepts[19].display_name	Channel (broadcasting)
concepts[20].id	https://openalex.org/C78519656
concepts[20].level	1
concepts[20].score	0.0
concepts[20].wikidata	https://www.wikidata.org/wiki/Q101333
concepts[20].display_name	Mechanical engineering
keywords[0].id	https://openalex.org/keywords/asynchronous-communication
keywords[0].score	0.8505383729934692
keywords[0].display_name	Asynchronous communication
keywords[1].id	https://openalex.org/keywords/regret
keywords[1].score	0.7231011986732483
keywords[1].display_name	Regret
keywords[2].id	https://openalex.org/keywords/computer-science
keywords[2].score	0.7159298658370972
keywords[2].display_name	Computer science
keywords[3].id	https://openalex.org/keywords/synchronizing
keywords[3].score	0.7140107154846191
keywords[3].display_name	Synchronizing
keywords[4].id	https://openalex.org/keywords/q-learning
keywords[4].score	0.6552199125289917
keywords[4].display_name	Q-learning
keywords[5].id	https://openalex.org/keywords/markov-chain
keywords[5].score	0.5992540717124939
keywords[5].display_name	Markov chain
keywords[6].id	https://openalex.org/keywords/synchronization
keywords[6].score	0.5885441303253174
keywords[6].display_name	Synchronization (alternating current)
keywords[7].id	https://openalex.org/keywords/reinforcement-learning
keywords[7].score	0.5476599335670471
keywords[7].display_name	Reinforcement learning
keywords[8].id	https://openalex.org/keywords/work
keywords[8].score	0.41030603647232056
keywords[8].display_name	Work (physics)
keywords[9].id	https://openalex.org/keywords/mathematical-optimization
keywords[9].score	0.3718389570713043
keywords[9].display_name	Mathematical optimization
keywords[10].id	https://openalex.org/keywords/distributed-computing
keywords[10].score	0.3437376618385315
keywords[10].display_name	Distributed computing
keywords[11].id	https://openalex.org/keywords/theoretical-computer-science
keywords[11].score	0.32344645261764526
keywords[11].display_name	Theoretical computer science
keywords[12].id	https://openalex.org/keywords/artificial-intelligence
keywords[12].score	0.21949347853660583
keywords[12].display_name	Artificial intelligence
keywords[13].id	https://openalex.org/keywords/machine-learning
keywords[13].score	0.20381119847297668
keywords[13].display_name	Machine learning
keywords[14].id	https://openalex.org/keywords/mathematics
keywords[14].score	0.18284037709236145
keywords[14].display_name	Mathematics
keywords[15].id	https://openalex.org/keywords/engineering
keywords[15].score	0.07869976758956909
keywords[15].display_name	Engineering
language	en
locations[0].id	pmh:oai:arXiv.org:2308.03239
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2308.03239
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2308.03239
locations[1].id	doi:10.48550/arxiv.2308.03239
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2308.03239
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5017866507
authorships[0].author.orcid
authorships[0].author.display_name	Bora Yongacoglu
authorships[0].author_position	first
authorships[0].raw_author_name	Yongacoglu, Bora
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5072860374
authorships[1].author.orcid	https://orcid.org/0000-0002-8295-1509
authorships[1].author.display_name	Gürdal Arslan
authorships[1].author_position	middle
authorships[1].raw_author_name	Arslan, Gürdal
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5005401257
authorships[2].author.orcid	https://orcid.org/0000-0001-6099-5001
authorships[2].author.display_name	Serdar Yüksel
authorships[2].author_position	last
authorships[2].raw_author_name	Yüksel, Serdar
authorships[2].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2308.03239
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2023-08-09T00:00:00
display_name	Unsynchronized Decentralized Q-Learning: Two Timescale Analysis By Persistence
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11031
primary_topic.field.id	https://openalex.org/fields/18
primary_topic.field.display_name	Decision Sciences
primary_topic.score	0.9825000166893005
primary_topic.domain.id	https://openalex.org/domains/2
primary_topic.domain.display_name	Social Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1803
primary_topic.subfield.display_name	Management Science and Operations Research
primary_topic.display_name	Game Theory and Applications
related_works	https://openalex.org/W4292701710, https://openalex.org/W2141223633, https://openalex.org/W96967322, https://openalex.org/W2147711412, https://openalex.org/W3096874164, https://openalex.org/W2166117066, https://openalex.org/W2357975469, https://openalex.org/W2970347269, https://openalex.org/W2136202932, https://openalex.org/W3087814763
cited_by_count	1
counts_by_year[0].year	2023
counts_by_year[0].cited_by_count	1
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2308.03239
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2308.03239
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2308.03239
primary_location.id	pmh:oai:arXiv.org:2308.03239
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2308.03239
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2308.03239
publication_date	2023-08-07
publication_year	2023
referenced_works_count	0
abstract_inverted_index.a	2, 82, 137
abstract_inverted_index.In	69
abstract_inverted_index.We	89
abstract_inverted_index.an	74, 184
abstract_inverted_index.as	15
abstract_inverted_index.at	41
abstract_inverted_index.be	119
abstract_inverted_index.by	28, 151
abstract_inverted_index.in	5, 21, 35, 65, 111, 178, 183
abstract_inverted_index.is	1, 63, 149
abstract_inverted_index.of	26, 33, 53, 77, 126, 136, 139, 168, 195
abstract_inverted_index.to	46, 100, 118, 133, 176
abstract_inverted_index.we	72, 116
abstract_inverted_index.Our	105, 129
abstract_inverted_index.and	173, 187
abstract_inverted_index.are	44, 181
abstract_inverted_index.but	60
abstract_inverted_index.for	86, 121
abstract_inverted_index.its	174
abstract_inverted_index.the	24, 30, 78, 95, 112, 123, 143, 166, 169, 192
abstract_inverted_index.via	57, 159
abstract_inverted_index.MARL	22, 55, 84
abstract_inverted_index.Many	18
abstract_inverted_index.This	163
abstract_inverted_index.also	131
abstract_inverted_index.from	142
abstract_inverted_index.high	103
abstract_inverted_index.many	54, 66
abstract_inverted_index.play	99
abstract_inverted_index.show	117
abstract_inverted_index.such	61
abstract_inverted_index.that	154
abstract_inverted_index.they	16
abstract_inverted_index.this	70
abstract_inverted_index.with	102
abstract_inverted_index.work	164
abstract_inverted_index.avoid	23
abstract_inverted_index.other	140
abstract_inverted_index.prior	196
abstract_inverted_index.rates	110
abstract_inverted_index.study	73, 155
abstract_inverted_index.tames	188
abstract_inverted_index.their	13, 48
abstract_inverted_index.times	40
abstract_inverted_index.under	93
abstract_inverted_index.ways,	37
abstract_inverted_index.where	10
abstract_inverted_index.which	42, 94, 115, 179
abstract_inverted_index.whose	147
abstract_inverted_index.work.	128, 197
abstract_inverted_index.Markov	156
abstract_inverted_index.agents	11, 34, 43
abstract_inverted_index.chains	157
abstract_inverted_index.drives	98
abstract_inverted_index.games.	88
abstract_inverted_index.learn.	17
abstract_inverted_index.number	138
abstract_inverted_index.paper,	71
abstract_inverted_index.policy	31, 160
abstract_inverted_index.recent	83
abstract_inverted_index.regret	144
abstract_inverted_index.revise	47
abstract_inverted_index.update	12, 161
abstract_inverted_index.(MARL),	9
abstract_inverted_index.allowed	45
abstract_inverted_index.applies	132
abstract_inverted_index.earlier	127
abstract_inverted_index.enables	51
abstract_inverted_index.extends	165
abstract_inverted_index.manner,	186
abstract_inverted_index.methods	153
abstract_inverted_index.provide	90
abstract_inverted_index.testing	145
abstract_inverted_index.update,	114
abstract_inverted_index.updates	32
abstract_inverted_index.variant	76
abstract_inverted_index.various	36
abstract_inverted_index.without	190
abstract_inverted_index.Q-factor	113
abstract_inverted_index.advances	20
abstract_inverted_index.analysis	52, 130
abstract_inverted_index.analyzed	150
abstract_inverted_index.constant	108
abstract_inverted_index.critical	120
abstract_inverted_index.imposing	191
abstract_inverted_index.learning	8, 109
abstract_inverted_index.methods,	59
abstract_inverted_index.obtained	158
abstract_inverted_index.relaxing	122
abstract_inverted_index.selected	182
abstract_inverted_index.settings	177
abstract_inverted_index.solution	106
abstract_inverted_index.utilizes	107
abstract_inverted_index.algorithm	85, 97, 172
abstract_inverted_index.behaviour	14
abstract_inverted_index.challenge	4, 25
abstract_inverted_index.dynamics.	162
abstract_inverted_index.including	38
abstract_inverted_index.policies.	49
abstract_inverted_index.relatives	175
abstract_inverted_index.Q-learning	80, 171
abstract_inverted_index.algorithm,	81
abstract_inverted_index.algorithms	56, 141
abstract_inverted_index.conditions	92
abstract_inverted_index.infeasible	64
abstract_inverted_index.parameters	180
abstract_inverted_index.stochastic	87
abstract_inverted_index.sufficient	91
abstract_inverted_index.tradition,	146
abstract_inverted_index.assumptions	125, 194
abstract_inverted_index.equilibrium	101
abstract_inverted_index.fundamental	3
abstract_inverted_index.independent	185
abstract_inverted_index.multi-agent	6
abstract_inverted_index.performance	148
abstract_inverted_index.theoretical	19
abstract_inverted_index.coordinating	29
abstract_inverted_index.coordination	193
abstract_inverted_index.probability.	104
abstract_inverted_index.applicability	167
abstract_inverted_index.applications.	68
abstract_inverted_index.decentralized	67, 79, 170
abstract_inverted_index.reinforcement	7
abstract_inverted_index.synchronizing	39
abstract_inverted_index.unsynchronized	75, 96, 134
abstract_inverted_index.Synchronization	50
abstract_inverted_index.generalizations	135
abstract_inverted_index.multi-timescale	58, 152
abstract_inverted_index.synchronization	62, 124
abstract_inverted_index.Non-stationarity	0
abstract_inverted_index.non-stationarity	27, 189
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	3
sustainable_development_goals[0].id	https://metadata.un.org/sdg/16
sustainable_development_goals[0].score	0.6200000047683716
sustainable_development_goals[0].display_name	Peace, Justice and strong institutions
citation_normalized_percentile