Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning Article Swipe

PDF

Sajad Khodadadian , Pranay Sharma , Gauri Joshi , Siva Theja Maguluri ·

YOU? · · 2022 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2206.10185

Since reinforcement learning algorithms are notoriously data-intensive, the task of sampling observations from the environment is usually split across multiple agents. However, transferring these observations from the agents to a central location can be prohibitively expensive in terms of communication cost, and it can also compromise the privacy of each agent's local behavior policy. Federated reinforcement learning is a framework in which $N$ agents collaboratively learn a global model, without sharing their individual data and policies. This global model is the unique fixed point of the average of $N$ local operators, corresponding to the $N$ agents. Each agent maintains a local copy of the global model and updates it using locally sampled data. In this paper, we show that by careful collaboration of the agents in solving this joint fixed point problem, we can find the global model $N$ times faster, also known as linear speedup. We first propose a general framework for federated stochastic approximation with Markovian noise and heterogeneity, showing linear speedup in convergence. We then apply this framework to federated reinforcement learning algorithms, examining the convergence of federated on-policy TD, off-policy TD, and $Q$-learning.

Related Topics

Reinforcement Learning

Computer Science

Artificial Intelligence

Theoretical Computer Science

Concepts

Speedup Reinforcement learning Computer science Leverage (statistics) Convergence (economics) Markov decision process Markov process Sampling (signal processing) Task (project management) Artificial intelligence Theoretical computer science Machine learning Parallel computing Mathematics Computer vision Statistics Economics Filter (signal processing) Management Economic growth

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2206.10185
PDF: https://arxiv.org/pdf/2206.10185
OA Status: green
Cited By: 13
Related Works: 10
OpenAlex ID: https://openalex.org/W4283313823

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4283313823

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2206.10185

Digital Object Identifier
Title: Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2022

Year of publication
Publication date: 2022-06-21

Full publication date if available
Authors: Sajad Khodadadian, Pranay Sharma, Gauri Joshi, Siva Theja Maguluri

List of authors in order
Landing page: https://arxiv.org/abs/2206.10185

Publisher landing page
PDF URL: https://arxiv.org/pdf/2206.10185

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2206.10185

Direct OA link when available
Concepts: Speedup, Reinforcement learning, Computer science, Leverage (statistics), Convergence (economics), Markov decision process, Markov process, Sampling (signal processing), Task (project management), Artificial intelligence, Theoretical computer science, Machine learning, Parallel computing, Mathematics, Computer vision, Statistics, Economics, Filter (signal processing), Management, Economic growth

Top concepts (fields/topics) attached by OpenAlex
Cited by: 13

Total citation count in OpenAlex
Citations by year (recent): 2025: 3, 2024: 4, 2023: 5, 2021: 1

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4283313823
doi	https://doi.org/10.48550/arxiv.2206.10185
ids.doi	https://doi.org/10.48550/arxiv.2206.10185
ids.openalex	https://openalex.org/W4283313823
fwci
type	preprint
title	Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T13553
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9909999966621399
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1705
topics[0].subfield.display_name	Computer Networks and Communications
topics[0].display_name	Age of Information Optimization
topics[1].id	https://openalex.org/T10764
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9909999966621399
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Privacy-Preserving Technologies in Data
topics[2].id	https://openalex.org/T11612
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9686999917030334
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1702
topics[2].subfield.display_name	Artificial Intelligence
topics[2].display_name	Stochastic Gradient Optimization Techniques
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C68339613
concepts[0].level	2
concepts[0].score	0.9245167374610901
concepts[0].wikidata	https://www.wikidata.org/wiki/Q1549489
concepts[0].display_name	Speedup
concepts[1].id	https://openalex.org/C97541855
concepts[1].level	2
concepts[1].score	0.8521500825881958
concepts[1].wikidata	https://www.wikidata.org/wiki/Q830687
concepts[1].display_name	Reinforcement learning
concepts[2].id	https://openalex.org/C41008148
concepts[2].level	0
concepts[2].score	0.8114057779312134
concepts[2].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[2].display_name	Computer science
concepts[3].id	https://openalex.org/C153083717
concepts[3].level	2
concepts[3].score	0.7578745484352112
concepts[3].wikidata	https://www.wikidata.org/wiki/Q6535263
concepts[3].display_name	Leverage (statistics)
concepts[4].id	https://openalex.org/C2777303404
concepts[4].level	2
concepts[4].score	0.6395661234855652
concepts[4].wikidata	https://www.wikidata.org/wiki/Q759757
concepts[4].display_name	Convergence (economics)
concepts[5].id	https://openalex.org/C106189395
concepts[5].level	3
concepts[5].score	0.6298588514328003
concepts[5].wikidata	https://www.wikidata.org/wiki/Q176789
concepts[5].display_name	Markov decision process
concepts[6].id	https://openalex.org/C159886148
concepts[6].level	2
concepts[6].score	0.5067394375801086
concepts[6].wikidata	https://www.wikidata.org/wiki/Q176645
concepts[6].display_name	Markov process
concepts[7].id	https://openalex.org/C140779682
concepts[7].level	3
concepts[7].score	0.43687236309051514
concepts[7].wikidata	https://www.wikidata.org/wiki/Q210868
concepts[7].display_name	Sampling (signal processing)
concepts[8].id	https://openalex.org/C2780451532
concepts[8].level	2
concepts[8].score	0.4170117974281311
concepts[8].wikidata	https://www.wikidata.org/wiki/Q759676
concepts[8].display_name	Task (project management)
concepts[9].id	https://openalex.org/C154945302
concepts[9].level	1
concepts[9].score	0.3725714087486267
concepts[9].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[9].display_name	Artificial intelligence
concepts[10].id	https://openalex.org/C80444323
concepts[10].level	1
concepts[10].score	0.3542281985282898
concepts[10].wikidata	https://www.wikidata.org/wiki/Q2878974
concepts[10].display_name	Theoretical computer science
concepts[11].id	https://openalex.org/C119857082
concepts[11].level	1
concepts[11].score	0.32949644327163696
concepts[11].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[11].display_name	Machine learning
concepts[12].id	https://openalex.org/C173608175
concepts[12].level	1
concepts[12].score	0.14492309093475342
concepts[12].wikidata	https://www.wikidata.org/wiki/Q232661
concepts[12].display_name	Parallel computing
concepts[13].id	https://openalex.org/C33923547
concepts[13].level	0
concepts[13].score	0.10983377695083618
concepts[13].wikidata	https://www.wikidata.org/wiki/Q395
concepts[13].display_name	Mathematics
concepts[14].id	https://openalex.org/C31972630
concepts[14].level	1
concepts[14].score	0.0
concepts[14].wikidata	https://www.wikidata.org/wiki/Q844240
concepts[14].display_name	Computer vision
concepts[15].id	https://openalex.org/C105795698
concepts[15].level	1
concepts[15].score	0.0
concepts[15].wikidata	https://www.wikidata.org/wiki/Q12483
concepts[15].display_name	Statistics
concepts[16].id	https://openalex.org/C162324750
concepts[16].level	0
concepts[16].score	0.0
concepts[16].wikidata	https://www.wikidata.org/wiki/Q8134
concepts[16].display_name	Economics
concepts[17].id	https://openalex.org/C106131492
concepts[17].level	2
concepts[17].score	0.0
concepts[17].wikidata	https://www.wikidata.org/wiki/Q3072260
concepts[17].display_name	Filter (signal processing)
concepts[18].id	https://openalex.org/C187736073
concepts[18].level	1
concepts[18].score	0.0
concepts[18].wikidata	https://www.wikidata.org/wiki/Q2920921
concepts[18].display_name	Management
concepts[19].id	https://openalex.org/C50522688
concepts[19].level	1
concepts[19].score	0.0
concepts[19].wikidata	https://www.wikidata.org/wiki/Q189833
concepts[19].display_name	Economic growth
keywords[0].id	https://openalex.org/keywords/speedup
keywords[0].score	0.9245167374610901
keywords[0].display_name	Speedup
keywords[1].id	https://openalex.org/keywords/reinforcement-learning
keywords[1].score	0.8521500825881958
keywords[1].display_name	Reinforcement learning
keywords[2].id	https://openalex.org/keywords/computer-science
keywords[2].score	0.8114057779312134
keywords[2].display_name	Computer science
keywords[3].id	https://openalex.org/keywords/leverage
keywords[3].score	0.7578745484352112
keywords[3].display_name	Leverage (statistics)
keywords[4].id	https://openalex.org/keywords/convergence
keywords[4].score	0.6395661234855652
keywords[4].display_name	Convergence (economics)
keywords[5].id	https://openalex.org/keywords/markov-decision-process
keywords[5].score	0.6298588514328003
keywords[5].display_name	Markov decision process
keywords[6].id	https://openalex.org/keywords/markov-process
keywords[6].score	0.5067394375801086
keywords[6].display_name	Markov process
keywords[7].id	https://openalex.org/keywords/sampling
keywords[7].score	0.43687236309051514
keywords[7].display_name	Sampling (signal processing)
keywords[8].id	https://openalex.org/keywords/task
keywords[8].score	0.4170117974281311
keywords[8].display_name	Task (project management)
keywords[9].id	https://openalex.org/keywords/artificial-intelligence
keywords[9].score	0.3725714087486267
keywords[9].display_name	Artificial intelligence
keywords[10].id	https://openalex.org/keywords/theoretical-computer-science
keywords[10].score	0.3542281985282898
keywords[10].display_name	Theoretical computer science
keywords[11].id	https://openalex.org/keywords/machine-learning
keywords[11].score	0.32949644327163696
keywords[11].display_name	Machine learning
keywords[12].id	https://openalex.org/keywords/parallel-computing
keywords[12].score	0.14492309093475342
keywords[12].display_name	Parallel computing
keywords[13].id	https://openalex.org/keywords/mathematics
keywords[13].score	0.10983377695083618
keywords[13].display_name	Mathematics
language	en
locations[0].id	pmh:oai:arXiv.org:2206.10185
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2206.10185
locations[0].version	submittedVersion
locations[0].raw_type
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2206.10185
locations[1].id	doi:10.48550/arxiv.2206.10185
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2206.10185
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5045270609
authorships[0].author.orcid	https://orcid.org/0000-0002-5197-4652
authorships[0].author.display_name	Sajad Khodadadian
authorships[0].author_position	first
authorships[0].raw_author_name	Khodadadian, Sajad
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5028196076
authorships[1].author.orcid	https://orcid.org/0009-0007-8027-7913
authorships[1].author.display_name	Pranay Sharma
authorships[1].author_position	middle
authorships[1].raw_author_name	Sharma, Pranay
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5067441201
authorships[2].author.orcid	https://orcid.org/0000-0002-6372-9697
authorships[2].author.display_name	Gauri Joshi
authorships[2].author_position	middle
authorships[2].raw_author_name	Joshi, Gauri
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5021806638
authorships[3].author.orcid	https://orcid.org/0000-0002-5797-1639
authorships[3].author.display_name	Siva Theja Maguluri
authorships[3].author_position	last
authorships[3].raw_author_name	Maguluri, Siva Theja
authorships[3].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2206.10185
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2022-06-24T00:00:00
display_name	Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T13553
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9909999966621399
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1705
primary_topic.subfield.display_name	Computer Networks and Communications
primary_topic.display_name	Age of Information Optimization
related_works	https://openalex.org/W4327568679, https://openalex.org/W3096874164, https://openalex.org/W2768698792, https://openalex.org/W1985560493, https://openalex.org/W2937181779, https://openalex.org/W2386410636, https://openalex.org/W2357975469, https://openalex.org/W2145363145, https://openalex.org/W1626977535, https://openalex.org/W2341346307
cited_by_count	13
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	3
counts_by_year[1].year	2024
counts_by_year[1].cited_by_count	4
counts_by_year[2].year	2023
counts_by_year[2].cited_by_count	5
counts_by_year[3].year	2021
counts_by_year[3].cited_by_count	1
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2206.10185
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2206.10185
best_oa_location.version	submittedVersion
best_oa_location.raw_type
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2206.10185
primary_location.id	pmh:oai:arXiv.org:2206.10185
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2206.10185
primary_location.version	submittedVersion
primary_location.raw_type
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2206.10185
publication_date	2022-06-21
publication_year	2022
referenced_works_count	0
abstract_inverted_index.a	29, 58, 66, 99, 149
abstract_inverted_index.In	113
abstract_inverted_index.We	146, 166
abstract_inverted_index.as	143
abstract_inverted_index.be	33
abstract_inverted_index.by	119
abstract_inverted_index.in	36, 60, 125, 164
abstract_inverted_index.is	15, 57, 79
abstract_inverted_index.it	42, 108
abstract_inverted_index.of	9, 38, 48, 84, 87, 102, 122, 179
abstract_inverted_index.to	28, 92, 171
abstract_inverted_index.we	116, 132
abstract_inverted_index.$N$	62, 88, 94, 138
abstract_inverted_index.TD,	182, 184
abstract_inverted_index.and	41, 74, 106, 159, 185
abstract_inverted_index.are	4
abstract_inverted_index.can	32, 43, 133
abstract_inverted_index.for	152
abstract_inverted_index.the	7, 13, 26, 46, 80, 85, 93, 103, 123, 135, 177
abstract_inverted_index.Each	96
abstract_inverted_index.This	76
abstract_inverted_index.also	44, 141
abstract_inverted_index.copy	101
abstract_inverted_index.data	73
abstract_inverted_index.each	49
abstract_inverted_index.find	134
abstract_inverted_index.from	12, 25
abstract_inverted_index.show	117
abstract_inverted_index.task	8
abstract_inverted_index.that	118
abstract_inverted_index.then	167
abstract_inverted_index.this	114, 127, 169
abstract_inverted_index.with	156
abstract_inverted_index.Since	0
abstract_inverted_index.agent	97
abstract_inverted_index.apply	168
abstract_inverted_index.cost,	40
abstract_inverted_index.data.	112
abstract_inverted_index.first	147
abstract_inverted_index.fixed	82, 129
abstract_inverted_index.joint	128
abstract_inverted_index.known	142
abstract_inverted_index.learn	65
abstract_inverted_index.local	51, 89, 100
abstract_inverted_index.model	78, 105, 137
abstract_inverted_index.noise	158
abstract_inverted_index.point	83, 130
abstract_inverted_index.split	17
abstract_inverted_index.terms	37
abstract_inverted_index.their	71
abstract_inverted_index.these	23
abstract_inverted_index.times	139
abstract_inverted_index.using	109
abstract_inverted_index.which	61
abstract_inverted_index.across	18
abstract_inverted_index.agents	27, 63, 124
abstract_inverted_index.global	67, 77, 104, 136
abstract_inverted_index.linear	144, 162
abstract_inverted_index.model,	68
abstract_inverted_index.paper,	115
abstract_inverted_index.unique	81
abstract_inverted_index.agent's	50
abstract_inverted_index.agents.	20, 95
abstract_inverted_index.average	86
abstract_inverted_index.careful	120
abstract_inverted_index.central	30
abstract_inverted_index.faster,	140
abstract_inverted_index.general	150
abstract_inverted_index.locally	110
abstract_inverted_index.policy.	53
abstract_inverted_index.privacy	47
abstract_inverted_index.propose	148
abstract_inverted_index.sampled	111
abstract_inverted_index.sharing	70
abstract_inverted_index.showing	161
abstract_inverted_index.solving	126
abstract_inverted_index.speedup	163
abstract_inverted_index.updates	107
abstract_inverted_index.usually	16
abstract_inverted_index.without	69
abstract_inverted_index.However,	21
abstract_inverted_index.behavior	52
abstract_inverted_index.learning	2, 56, 174
abstract_inverted_index.location	31
abstract_inverted_index.multiple	19
abstract_inverted_index.problem,	131
abstract_inverted_index.sampling	10
abstract_inverted_index.speedup.	145
abstract_inverted_index.Federated	54
abstract_inverted_index.Markovian	157
abstract_inverted_index.examining	176
abstract_inverted_index.expensive	35
abstract_inverted_index.federated	153, 172, 180
abstract_inverted_index.framework	59, 151, 170
abstract_inverted_index.maintains	98
abstract_inverted_index.on-policy	181
abstract_inverted_index.policies.	75
abstract_inverted_index.algorithms	3
abstract_inverted_index.compromise	45
abstract_inverted_index.individual	72
abstract_inverted_index.off-policy	183
abstract_inverted_index.operators,	90
abstract_inverted_index.stochastic	154
abstract_inverted_index.algorithms,	175
abstract_inverted_index.convergence	178
abstract_inverted_index.environment	14
abstract_inverted_index.notoriously	5
abstract_inverted_index.convergence.	165
abstract_inverted_index.observations	11, 24
abstract_inverted_index.transferring	22
abstract_inverted_index.$Q$-learning.	186
abstract_inverted_index.approximation	155
abstract_inverted_index.collaboration	121
abstract_inverted_index.communication	39
abstract_inverted_index.corresponding	91
abstract_inverted_index.prohibitively	34
abstract_inverted_index.reinforcement	1, 55, 173
abstract_inverted_index.heterogeneity,	160
abstract_inverted_index.collaboratively	64
abstract_inverted_index.data-intensive,	6
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	4
sustainable_development_goals[0].id	https://metadata.un.org/sdg/16
sustainable_development_goals[0].score	0.5199999809265137
sustainable_development_goals[0].display_name	Peace, Justice and strong institutions
citation_normalized_percentile