Prior-dependent analysis of posterior sampling reinforcement learning with function approximation Article Swipe

PDF

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2403.11175

This work advances randomized exploration in reinforcement learning (RL) with function approximation modeled by linear mixture MDPs. We establish the first prior-dependent Bayesian regret bound for RL with function approximation; and refine the Bayesian regret analysis for posterior sampling reinforcement learning (PSRL), presenting an upper bound of ${\mathcal{O}}(d\sqrt{H^3 T \log T})$, where $d$ represents the dimensionality of the transition kernel, $H$ the planning horizon, and $T$ the total number of interactions. This signifies a methodological enhancement by optimizing the $\mathcal{O}(\sqrt{\log T})$ factor over the previous benchmark (Osband and Van Roy, 2014) specified to linear mixture MDPs. Our approach, leveraging a value-targeted model learning perspective, introduces a decoupling argument and a variance reduction technique, moving beyond traditional analyses reliant on confidence sets and concentration inequalities to formalize Bayesian regret bounds more effectively.

Related Topics

Reinforcement Learning

Statistics

Computer Science

Artificial Intelligence

Concepts

Reinforcement learning Sampling (signal processing) Reinforcement Function (biology) Statistics Computer science Artificial intelligence Mathematics Machine learning Psychology Biology Social psychology Computer vision Evolutionary biology Filter (signal processing)

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2403.11175
PDF: https://arxiv.org/pdf/2403.11175
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4392972286

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4392972286

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2403.11175

Digital Object Identifier
Title: Prior-dependent analysis of posterior sampling reinforcement learning with function approximation

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-03-17

Full publication date if available
Authors: Yingru Li, Zhi‐Quan Luo

List of authors in order
Landing page: https://arxiv.org/abs/2403.11175

Publisher landing page
PDF URL: https://arxiv.org/pdf/2403.11175

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2403.11175

Direct OA link when available
Concepts: Reinforcement learning, Sampling (signal processing), Reinforcement, Function (biology), Statistics, Computer science, Artificial intelligence, Mathematics, Machine learning, Psychology, Biology, Social psychology, Computer vision, Evolutionary biology, Filter (signal processing)

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4392972286
doi	https://doi.org/10.48550/arxiv.2403.11175
ids.doi	https://doi.org/10.48550/arxiv.2403.11175
ids.openalex	https://openalex.org/W4392972286
fwci
type	preprint
title	Prior-dependent analysis of posterior sampling reinforcement learning with function approximation
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11601
topics[0].field.id	https://openalex.org/fields/28
topics[0].field.display_name	Neuroscience
topics[0].score	0.9496999979019165
topics[0].domain.id	https://openalex.org/domains/1
topics[0].domain.display_name	Life Sciences
topics[0].subfield.id	https://openalex.org/subfields/2804
topics[0].subfield.display_name	Cellular and Molecular Neuroscience
topics[0].display_name	Neuroscience and Neural Engineering
topics[1].id	https://openalex.org/T10784
topics[1].field.id	https://openalex.org/fields/22
topics[1].field.display_name	Engineering
topics[1].score	0.9289000034332275
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/2204
topics[1].subfield.display_name	Biomedical Engineering
topics[1].display_name	Muscle activation and electromyography studies
topics[2].id	https://openalex.org/T11749
topics[2].field.id	https://openalex.org/fields/22
topics[2].field.display_name	Engineering
topics[2].score	0.9133999943733215
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/2207
topics[2].subfield.display_name	Control and Systems Engineering
topics[2].display_name	Iterative Learning Control Systems
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C97541855
concepts[0].level	2
concepts[0].score	0.7554221153259277
concepts[0].wikidata	https://www.wikidata.org/wiki/Q830687
concepts[0].display_name	Reinforcement learning
concepts[1].id	https://openalex.org/C140779682
concepts[1].level	3
concepts[1].score	0.5825191140174866
concepts[1].wikidata	https://www.wikidata.org/wiki/Q210868
concepts[1].display_name	Sampling (signal processing)
concepts[2].id	https://openalex.org/C67203356
concepts[2].level	2
concepts[2].score	0.5771763324737549
concepts[2].wikidata	https://www.wikidata.org/wiki/Q1321905
concepts[2].display_name	Reinforcement
concepts[3].id	https://openalex.org/C14036430
concepts[3].level	2
concepts[3].score	0.5259419083595276
concepts[3].wikidata	https://www.wikidata.org/wiki/Q3736076
concepts[3].display_name	Function (biology)
concepts[4].id	https://openalex.org/C105795698
concepts[4].level	1
concepts[4].score	0.4326429069042206
concepts[4].wikidata	https://www.wikidata.org/wiki/Q12483
concepts[4].display_name	Statistics
concepts[5].id	https://openalex.org/C41008148
concepts[5].level	0
concepts[5].score	0.40954315662384033
concepts[5].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[5].display_name	Computer science
concepts[6].id	https://openalex.org/C154945302
concepts[6].level	1
concepts[6].score	0.36995840072631836
concepts[6].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[6].display_name	Artificial intelligence
concepts[7].id	https://openalex.org/C33923547
concepts[7].level	0
concepts[7].score	0.3555441200733185
concepts[7].wikidata	https://www.wikidata.org/wiki/Q395
concepts[7].display_name	Mathematics
concepts[8].id	https://openalex.org/C119857082
concepts[8].level	1
concepts[8].score	0.32507389783859253
concepts[8].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[8].display_name	Machine learning
concepts[9].id	https://openalex.org/C15744967
concepts[9].level	0
concepts[9].score	0.28486600518226624
concepts[9].wikidata	https://www.wikidata.org/wiki/Q9418
concepts[9].display_name	Psychology
concepts[10].id	https://openalex.org/C86803240
concepts[10].level	0
concepts[10].score	0.10145127773284912
concepts[10].wikidata	https://www.wikidata.org/wiki/Q420
concepts[10].display_name	Biology
concepts[11].id	https://openalex.org/C77805123
concepts[11].level	1
concepts[11].score	0.10087364912033081
concepts[11].wikidata	https://www.wikidata.org/wiki/Q161272
concepts[11].display_name	Social psychology
concepts[12].id	https://openalex.org/C31972630
concepts[12].level	1
concepts[12].score	0.07697227597236633
concepts[12].wikidata	https://www.wikidata.org/wiki/Q844240
concepts[12].display_name	Computer vision
concepts[13].id	https://openalex.org/C78458016
concepts[13].level	1
concepts[13].score	0.05718427896499634
concepts[13].wikidata	https://www.wikidata.org/wiki/Q840400
concepts[13].display_name	Evolutionary biology
concepts[14].id	https://openalex.org/C106131492
concepts[14].level	2
concepts[14].score	0.0
concepts[14].wikidata	https://www.wikidata.org/wiki/Q3072260
concepts[14].display_name	Filter (signal processing)
keywords[0].id	https://openalex.org/keywords/reinforcement-learning
keywords[0].score	0.7554221153259277
keywords[0].display_name	Reinforcement learning
keywords[1].id	https://openalex.org/keywords/sampling
keywords[1].score	0.5825191140174866
keywords[1].display_name	Sampling (signal processing)
keywords[2].id	https://openalex.org/keywords/reinforcement
keywords[2].score	0.5771763324737549
keywords[2].display_name	Reinforcement
keywords[3].id	https://openalex.org/keywords/function
keywords[3].score	0.5259419083595276
keywords[3].display_name	Function (biology)
keywords[4].id	https://openalex.org/keywords/statistics
keywords[4].score	0.4326429069042206
keywords[4].display_name	Statistics
keywords[5].id	https://openalex.org/keywords/computer-science
keywords[5].score	0.40954315662384033
keywords[5].display_name	Computer science
keywords[6].id	https://openalex.org/keywords/artificial-intelligence
keywords[6].score	0.36995840072631836
keywords[6].display_name	Artificial intelligence
keywords[7].id	https://openalex.org/keywords/mathematics
keywords[7].score	0.3555441200733185
keywords[7].display_name	Mathematics
keywords[8].id	https://openalex.org/keywords/machine-learning
keywords[8].score	0.32507389783859253
keywords[8].display_name	Machine learning
keywords[9].id	https://openalex.org/keywords/psychology
keywords[9].score	0.28486600518226624
keywords[9].display_name	Psychology
keywords[10].id	https://openalex.org/keywords/biology
keywords[10].score	0.10145127773284912
keywords[10].display_name	Biology
keywords[11].id	https://openalex.org/keywords/social-psychology
keywords[11].score	0.10087364912033081
keywords[11].display_name	Social psychology
keywords[12].id	https://openalex.org/keywords/computer-vision
keywords[12].score	0.07697227597236633
keywords[12].display_name	Computer vision
keywords[13].id	https://openalex.org/keywords/evolutionary-biology
keywords[13].score	0.05718427896499634
keywords[13].display_name	Evolutionary biology
language	en
locations[0].id	pmh:oai:arXiv.org:2403.11175
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2403.11175
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2403.11175
locations[1].id	doi:10.48550/arxiv.2403.11175
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2403.11175
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5024774792
authorships[0].author.orcid	https://orcid.org/0000-0002-3258-9230
authorships[0].author.display_name	Yingru Li
authorships[0].author_position	first
authorships[0].raw_author_name	Li, Yingru
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5101766226
authorships[1].author.orcid	https://orcid.org/0000-0003-3995-914X
authorships[1].author.display_name	Zhi‐Quan Luo
authorships[1].author_position	last
authorships[1].raw_author_name	Luo, Zhi-Quan
authorships[1].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2403.11175
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2024-03-20T00:00:00
display_name	Prior-dependent analysis of posterior sampling reinforcement learning with function approximation
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11601
primary_topic.field.id	https://openalex.org/fields/28
primary_topic.field.display_name	Neuroscience
primary_topic.score	0.9496999979019165
primary_topic.domain.id	https://openalex.org/domains/1
primary_topic.domain.display_name	Life Sciences
primary_topic.subfield.id	https://openalex.org/subfields/2804
primary_topic.subfield.display_name	Cellular and Molecular Neuroscience
primary_topic.display_name	Neuroscience and Neural Engineering
related_works	https://openalex.org/W2920061524, https://openalex.org/W4310083477, https://openalex.org/W2328553770, https://openalex.org/W1977959518, https://openalex.org/W2038908348, https://openalex.org/W2107890255, https://openalex.org/W2106552856, https://openalex.org/W2145821588, https://openalex.org/W2086122291, https://openalex.org/W1987513656
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2403.11175
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2403.11175
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2403.11175
primary_location.id	pmh:oai:arXiv.org:2403.11175
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2403.11175
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2403.11175
publication_date	2024-03-17
publication_year	2024
referenced_works_count	0
abstract_inverted_index.T	48
abstract_inverted_index.a	73, 99, 105, 109
abstract_inverted_index.RL	26
abstract_inverted_index.We	17
abstract_inverted_index.an	43
abstract_inverted_index.by	13, 76
abstract_inverted_index.in	5
abstract_inverted_index.of	46, 56, 69
abstract_inverted_index.on	118
abstract_inverted_index.to	92, 124
abstract_inverted_index.$H$	60
abstract_inverted_index.$T$	65
abstract_inverted_index.$d$	52
abstract_inverted_index.Our	96
abstract_inverted_index.Van	88
abstract_inverted_index.and	30, 64, 87, 108, 121
abstract_inverted_index.for	25, 36
abstract_inverted_index.the	19, 32, 54, 57, 61, 66, 78, 83
abstract_inverted_index.(RL)	8
abstract_inverted_index.Roy,	89
abstract_inverted_index.This	0, 71
abstract_inverted_index.T})$	80
abstract_inverted_index.\log	49
abstract_inverted_index.more	129
abstract_inverted_index.over	82
abstract_inverted_index.sets	120
abstract_inverted_index.with	9, 27
abstract_inverted_index.work	1
abstract_inverted_index.2014)	90
abstract_inverted_index.MDPs.	16, 95
abstract_inverted_index.T})$,	50
abstract_inverted_index.bound	24, 45
abstract_inverted_index.first	20
abstract_inverted_index.model	101
abstract_inverted_index.total	67
abstract_inverted_index.upper	44
abstract_inverted_index.where	51
abstract_inverted_index.beyond	114
abstract_inverted_index.bounds	128
abstract_inverted_index.factor	81
abstract_inverted_index.linear	14, 93
abstract_inverted_index.moving	113
abstract_inverted_index.number	68
abstract_inverted_index.refine	31
abstract_inverted_index.regret	23, 34, 127
abstract_inverted_index.(Osband	86
abstract_inverted_index.(PSRL),	41
abstract_inverted_index.kernel,	59
abstract_inverted_index.mixture	15, 94
abstract_inverted_index.modeled	12
abstract_inverted_index.reliant	117
abstract_inverted_index.Bayesian	22, 33, 126
abstract_inverted_index.advances	2
abstract_inverted_index.analyses	116
abstract_inverted_index.analysis	35
abstract_inverted_index.argument	107
abstract_inverted_index.function	10, 28
abstract_inverted_index.horizon,	63
abstract_inverted_index.learning	7, 40, 102
abstract_inverted_index.planning	62
abstract_inverted_index.previous	84
abstract_inverted_index.sampling	38
abstract_inverted_index.variance	110
abstract_inverted_index.approach,	97
abstract_inverted_index.benchmark	85
abstract_inverted_index.establish	18
abstract_inverted_index.formalize	125
abstract_inverted_index.posterior	37
abstract_inverted_index.reduction	111
abstract_inverted_index.signifies	72
abstract_inverted_index.specified	91
abstract_inverted_index.confidence	119
abstract_inverted_index.decoupling	106
abstract_inverted_index.introduces	104
abstract_inverted_index.leveraging	98
abstract_inverted_index.optimizing	77
abstract_inverted_index.presenting	42
abstract_inverted_index.randomized	3
abstract_inverted_index.represents	53
abstract_inverted_index.technique,	112
abstract_inverted_index.transition	58
abstract_inverted_index.enhancement	75
abstract_inverted_index.exploration	4
abstract_inverted_index.traditional	115
abstract_inverted_index.effectively.	130
abstract_inverted_index.inequalities	123
abstract_inverted_index.perspective,	103
abstract_inverted_index.approximation	11
abstract_inverted_index.concentration	122
abstract_inverted_index.interactions.	70
abstract_inverted_index.reinforcement	6, 39
abstract_inverted_index.approximation;	29
abstract_inverted_index.dimensionality	55
abstract_inverted_index.methodological	74
abstract_inverted_index.value-targeted	100
abstract_inverted_index.prior-dependent	21
abstract_inverted_index.$\mathcal{O}(\sqrt{\log	79
abstract_inverted_index.${\mathcal{O}}(d\sqrt{H^3	47
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	2
citation_normalized_percentile