Value function estimation using conditional diffusion models for control Article Swipe

PDF

Bogdan Mazoure , Walter Talbott , Miguel Ángel Bautista , Devon Hjelm , Alexander Toshev , Josh Susskind ·

YOU? · · 2023 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2306.07290

A fairly reliable trend in deep reinforcement learning is that the performance scales with the number of parameters, provided a complimentary scaling in amount of training data. As the appetite for large models increases, it is imperative to address, sooner than later, the potential problem of running out of high-quality demonstrations. In this case, instead of collecting only new data via costly human demonstrations or risking a simulation-to-real transfer with uncertain effects, it would be beneficial to leverage vast amounts of readily-available low-quality data. Since classical control algorithms such as behavior cloning or temporal difference learning cannot be used on reward-free or action-free data out-of-the-box, this solution warrants novel training paradigms for continuous control. We propose a simple algorithm called Diffused Value Function (DVF), which learns a joint multi-step model of the environment-robot interaction dynamics using a diffusion model. This model can be efficiently learned from state sequences (i.e., without access to reward functions nor actions), and subsequently used to estimate the value of each action out-of-the-box. We show how DVF can be used to efficiently capture the state visitation measure for multiple controllers, and show promising qualitative and quantitative results on challenging robotics benchmarks.

Related Topics

Computer Science

Artificial Intelligence

Reinforcement Learning

Concepts

Computer science Leverage (statistics) Artificial intelligence Reinforcement learning Machine learning Bellman equation Function (biology) Action (physics) Robotics Stability (learning theory) Robot Mathematical optimization Mathematics Evolutionary biology Physics Biology Quantum mechanics

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2306.07290
PDF: https://arxiv.org/pdf/2306.07290
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4380687059

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4380687059

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2306.07290

Digital Object Identifier
Title: Value function estimation using conditional diffusion models for control

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2023

Year of publication
Publication date: 2023-06-09

Full publication date if available
Authors: Bogdan Mazoure, Walter Talbott, Miguel Ángel Bautista, Devon Hjelm, Alexander Toshev, Josh Susskind

List of authors in order
Landing page: https://arxiv.org/abs/2306.07290

Publisher landing page
PDF URL: https://arxiv.org/pdf/2306.07290

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2306.07290

Direct OA link when available
Concepts: Computer science, Leverage (statistics), Artificial intelligence, Reinforcement learning, Machine learning, Bellman equation, Function (biology), Action (physics), Robotics, Stability (learning theory), Robot, Mathematical optimization, Mathematics, Evolutionary biology, Physics, Biology, Quantum mechanics

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4380687059
doi	https://doi.org/10.48550/arxiv.2306.07290
ids.doi	https://doi.org/10.48550/arxiv.2306.07290
ids.openalex	https://openalex.org/W4380687059
fwci
type	preprint
title	Value function estimation using conditional diffusion models for control
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11206
topics[0].field.id	https://openalex.org/fields/31
topics[0].field.display_name	Physics and Astronomy
topics[0].score	0.980400025844574
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/3109
topics[0].subfield.display_name	Statistical and Nonlinear Physics
topics[0].display_name	Model Reduction and Neural Networks
topics[1].id	https://openalex.org/T10462
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9785000085830688
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Reinforcement Learning in Robotics
topics[2].id	https://openalex.org/T10241
topics[2].field.id	https://openalex.org/fields/28
topics[2].field.display_name	Neuroscience
topics[2].score	0.9610999822616577
topics[2].domain.id	https://openalex.org/domains/1
topics[2].domain.display_name	Life Sciences
topics[2].subfield.id	https://openalex.org/subfields/2805
topics[2].subfield.display_name	Cognitive Neuroscience
topics[2].display_name	Functional Brain Connectivity Studies
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C41008148
concepts[0].level	0
concepts[0].score	0.7044516801834106
concepts[0].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[0].display_name	Computer science
concepts[1].id	https://openalex.org/C153083717
concepts[1].level	2
concepts[1].score	0.6699886322021484
concepts[1].wikidata	https://www.wikidata.org/wiki/Q6535263
concepts[1].display_name	Leverage (statistics)
concepts[2].id	https://openalex.org/C154945302
concepts[2].level	1
concepts[2].score	0.657572329044342
concepts[2].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[2].display_name	Artificial intelligence
concepts[3].id	https://openalex.org/C97541855
concepts[3].level	2
concepts[3].score	0.6289160847663879
concepts[3].wikidata	https://www.wikidata.org/wiki/Q830687
concepts[3].display_name	Reinforcement learning
concepts[4].id	https://openalex.org/C119857082
concepts[4].level	1
concepts[4].score	0.5044039487838745
concepts[4].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[4].display_name	Machine learning
concepts[5].id	https://openalex.org/C14646407
concepts[5].level	2
concepts[5].score	0.4549739360809326
concepts[5].wikidata	https://www.wikidata.org/wiki/Q1430750
concepts[5].display_name	Bellman equation
concepts[6].id	https://openalex.org/C14036430
concepts[6].level	2
concepts[6].score	0.44515475630760193
concepts[6].wikidata	https://www.wikidata.org/wiki/Q3736076
concepts[6].display_name	Function (biology)
concepts[7].id	https://openalex.org/C2780791683
concepts[7].level	2
concepts[7].score	0.43813008069992065
concepts[7].wikidata	https://www.wikidata.org/wiki/Q846785
concepts[7].display_name	Action (physics)
concepts[8].id	https://openalex.org/C34413123
concepts[8].level	3
concepts[8].score	0.42952051758766174
concepts[8].wikidata	https://www.wikidata.org/wiki/Q170978
concepts[8].display_name	Robotics
concepts[9].id	https://openalex.org/C112972136
concepts[9].level	2
concepts[9].score	0.41082531213760376
concepts[9].wikidata	https://www.wikidata.org/wiki/Q7595718
concepts[9].display_name	Stability (learning theory)
concepts[10].id	https://openalex.org/C90509273
concepts[10].level	2
concepts[10].score	0.3868885636329651
concepts[10].wikidata	https://www.wikidata.org/wiki/Q11012
concepts[10].display_name	Robot
concepts[11].id	https://openalex.org/C126255220
concepts[11].level	1
concepts[11].score	0.2365930676460266
concepts[11].wikidata	https://www.wikidata.org/wiki/Q141495
concepts[11].display_name	Mathematical optimization
concepts[12].id	https://openalex.org/C33923547
concepts[12].level	0
concepts[12].score	0.15560764074325562
concepts[12].wikidata	https://www.wikidata.org/wiki/Q395
concepts[12].display_name	Mathematics
concepts[13].id	https://openalex.org/C78458016
concepts[13].level	1
concepts[13].score	0.0
concepts[13].wikidata	https://www.wikidata.org/wiki/Q840400
concepts[13].display_name	Evolutionary biology
concepts[14].id	https://openalex.org/C121332964
concepts[14].level	0
concepts[14].score	0.0
concepts[14].wikidata	https://www.wikidata.org/wiki/Q413
concepts[14].display_name	Physics
concepts[15].id	https://openalex.org/C86803240
concepts[15].level	0
concepts[15].score	0.0
concepts[15].wikidata	https://www.wikidata.org/wiki/Q420
concepts[15].display_name	Biology
concepts[16].id	https://openalex.org/C62520636
concepts[16].level	1
concepts[16].score	0.0
concepts[16].wikidata	https://www.wikidata.org/wiki/Q944
concepts[16].display_name	Quantum mechanics
keywords[0].id	https://openalex.org/keywords/computer-science
keywords[0].score	0.7044516801834106
keywords[0].display_name	Computer science
keywords[1].id	https://openalex.org/keywords/leverage
keywords[1].score	0.6699886322021484
keywords[1].display_name	Leverage (statistics)
keywords[2].id	https://openalex.org/keywords/artificial-intelligence
keywords[2].score	0.657572329044342
keywords[2].display_name	Artificial intelligence
keywords[3].id	https://openalex.org/keywords/reinforcement-learning
keywords[3].score	0.6289160847663879
keywords[3].display_name	Reinforcement learning
keywords[4].id	https://openalex.org/keywords/machine-learning
keywords[4].score	0.5044039487838745
keywords[4].display_name	Machine learning
keywords[5].id	https://openalex.org/keywords/bellman-equation
keywords[5].score	0.4549739360809326
keywords[5].display_name	Bellman equation
keywords[6].id	https://openalex.org/keywords/function
keywords[6].score	0.44515475630760193
keywords[6].display_name	Function (biology)
keywords[7].id	https://openalex.org/keywords/action
keywords[7].score	0.43813008069992065
keywords[7].display_name	Action (physics)
keywords[8].id	https://openalex.org/keywords/robotics
keywords[8].score	0.42952051758766174
keywords[8].display_name	Robotics
keywords[9].id	https://openalex.org/keywords/stability
keywords[9].score	0.41082531213760376
keywords[9].display_name	Stability (learning theory)
keywords[10].id	https://openalex.org/keywords/robot
keywords[10].score	0.3868885636329651
keywords[10].display_name	Robot
keywords[11].id	https://openalex.org/keywords/mathematical-optimization
keywords[11].score	0.2365930676460266
keywords[11].display_name	Mathematical optimization
keywords[12].id	https://openalex.org/keywords/mathematics
keywords[12].score	0.15560764074325562
keywords[12].display_name	Mathematics
language	en
locations[0].id	pmh:oai:arXiv.org:2306.07290
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2306.07290
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2306.07290
locations[1].id	doi:10.48550/arxiv.2306.07290
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2306.07290
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5114106696
authorships[0].author.orcid
authorships[0].author.display_name	Bogdan Mazoure
authorships[0].author_position	first
authorships[0].raw_author_name	Mazoure, Bogdan
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5029638208
authorships[1].author.orcid
authorships[1].author.display_name	Walter Talbott
authorships[1].author_position	middle
authorships[1].raw_author_name	Talbott, Walter
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5011106959
authorships[2].author.orcid
authorships[2].author.display_name	Miguel Ángel Bautista
authorships[2].author_position	middle
authorships[2].raw_author_name	Bautista, Miguel Angel
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5062650781
authorships[3].author.orcid
authorships[3].author.display_name	Devon Hjelm
authorships[3].author_position	middle
authorships[3].raw_author_name	Hjelm, Devon
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5064265174
authorships[4].author.orcid	https://orcid.org/0000-0003-0925-638X
authorships[4].author.display_name	Alexander Toshev
authorships[4].author_position	middle
authorships[4].raw_author_name	Toshev, Alexander
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5043808400
authorships[5].author.orcid
authorships[5].author.display_name	Josh Susskind
authorships[5].author_position	last
authorships[5].raw_author_name	Susskind, Josh
authorships[5].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2306.07290
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Value function estimation using conditional diffusion models for control
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11206
primary_topic.field.id	https://openalex.org/fields/31
primary_topic.field.display_name	Physics and Astronomy
primary_topic.score	0.980400025844574
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/3109
primary_topic.subfield.display_name	Statistical and Nonlinear Physics
primary_topic.display_name	Model Reduction and Neural Networks
related_works	https://openalex.org/W4306904969, https://openalex.org/W2138720691, https://openalex.org/W4362501864, https://openalex.org/W4380318855, https://openalex.org/W2031695474, https://openalex.org/W2768698792, https://openalex.org/W2386410636, https://openalex.org/W3038962357, https://openalex.org/W2025663273, https://openalex.org/W3099153698
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2306.07290
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2306.07290
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2306.07290
primary_location.id	pmh:oai:arXiv.org:2306.07290
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2306.07290
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2306.07290
publication_date	2023-06-09
publication_year	2023
referenced_works_count	0
abstract_inverted_index.A	0
abstract_inverted_index.a	19, 66, 116, 126, 136
abstract_inverted_index.As	27
abstract_inverted_index.In	51
abstract_inverted_index.We	114, 167
abstract_inverted_index.as	89
abstract_inverted_index.be	74, 97, 142, 172
abstract_inverted_index.in	4, 22
abstract_inverted_index.is	8, 35
abstract_inverted_index.it	34, 72
abstract_inverted_index.of	16, 24, 45, 48, 55, 80, 130, 163
abstract_inverted_index.on	99, 191
abstract_inverted_index.or	64, 92, 101
abstract_inverted_index.to	37, 76, 151, 159, 174
abstract_inverted_index.DVF	170
abstract_inverted_index.and	156, 184, 188
abstract_inverted_index.can	141, 171
abstract_inverted_index.for	30, 111, 181
abstract_inverted_index.how	169
abstract_inverted_index.new	58
abstract_inverted_index.nor	154
abstract_inverted_index.out	47
abstract_inverted_index.the	10, 14, 28, 42, 131, 161, 177
abstract_inverted_index.via	60
abstract_inverted_index.This	139
abstract_inverted_index.data	59, 103
abstract_inverted_index.deep	5
abstract_inverted_index.each	164
abstract_inverted_index.from	145
abstract_inverted_index.only	57
abstract_inverted_index.show	168, 185
abstract_inverted_index.such	88
abstract_inverted_index.than	40
abstract_inverted_index.that	9
abstract_inverted_index.this	52, 105
abstract_inverted_index.used	98, 158, 173
abstract_inverted_index.vast	78
abstract_inverted_index.with	13, 69
abstract_inverted_index.Since	84
abstract_inverted_index.Value	121
abstract_inverted_index.case,	53
abstract_inverted_index.data.	26, 83
abstract_inverted_index.human	62
abstract_inverted_index.joint	127
abstract_inverted_index.large	31
abstract_inverted_index.model	129, 140
abstract_inverted_index.novel	108
abstract_inverted_index.state	146, 178
abstract_inverted_index.trend	3
abstract_inverted_index.using	135
abstract_inverted_index.value	162
abstract_inverted_index.which	124
abstract_inverted_index.would	73
abstract_inverted_index.(DVF),	123
abstract_inverted_index.(i.e.,	148
abstract_inverted_index.access	150
abstract_inverted_index.action	165
abstract_inverted_index.amount	23
abstract_inverted_index.called	119
abstract_inverted_index.cannot	96
abstract_inverted_index.costly	61
abstract_inverted_index.fairly	1
abstract_inverted_index.later,	41
abstract_inverted_index.learns	125
abstract_inverted_index.model.	138
abstract_inverted_index.models	32
abstract_inverted_index.number	15
abstract_inverted_index.reward	152
abstract_inverted_index.scales	12
abstract_inverted_index.simple	117
abstract_inverted_index.sooner	39
abstract_inverted_index.amounts	79
abstract_inverted_index.capture	176
abstract_inverted_index.cloning	91
abstract_inverted_index.control	86
abstract_inverted_index.instead	54
abstract_inverted_index.learned	144
abstract_inverted_index.measure	180
abstract_inverted_index.problem	44
abstract_inverted_index.propose	115
abstract_inverted_index.results	190
abstract_inverted_index.risking	65
abstract_inverted_index.running	46
abstract_inverted_index.scaling	21
abstract_inverted_index.without	149
abstract_inverted_index.Diffused	120
abstract_inverted_index.Function	122
abstract_inverted_index.address,	38
abstract_inverted_index.appetite	29
abstract_inverted_index.behavior	90
abstract_inverted_index.control.	113
abstract_inverted_index.dynamics	134
abstract_inverted_index.effects,	71
abstract_inverted_index.estimate	160
abstract_inverted_index.learning	7, 95
abstract_inverted_index.leverage	77
abstract_inverted_index.multiple	182
abstract_inverted_index.provided	18
abstract_inverted_index.reliable	2
abstract_inverted_index.robotics	193
abstract_inverted_index.solution	106
abstract_inverted_index.temporal	93
abstract_inverted_index.training	25, 109
abstract_inverted_index.transfer	68
abstract_inverted_index.warrants	107
abstract_inverted_index.actions),	155
abstract_inverted_index.algorithm	118
abstract_inverted_index.classical	85
abstract_inverted_index.diffusion	137
abstract_inverted_index.functions	153
abstract_inverted_index.paradigms	110
abstract_inverted_index.potential	43
abstract_inverted_index.promising	186
abstract_inverted_index.sequences	147
abstract_inverted_index.uncertain	70
abstract_inverted_index.algorithms	87
abstract_inverted_index.beneficial	75
abstract_inverted_index.collecting	56
abstract_inverted_index.continuous	112
abstract_inverted_index.difference	94
abstract_inverted_index.imperative	36
abstract_inverted_index.increases,	33
abstract_inverted_index.multi-step	128
abstract_inverted_index.visitation	179
abstract_inverted_index.action-free	102
abstract_inverted_index.benchmarks.	194
abstract_inverted_index.challenging	192
abstract_inverted_index.efficiently	143, 175
abstract_inverted_index.interaction	133
abstract_inverted_index.low-quality	82
abstract_inverted_index.parameters,	17
abstract_inverted_index.performance	11
abstract_inverted_index.qualitative	187
abstract_inverted_index.reward-free	100
abstract_inverted_index.controllers,	183
abstract_inverted_index.high-quality	49
abstract_inverted_index.quantitative	189
abstract_inverted_index.subsequently	157
abstract_inverted_index.complimentary	20
abstract_inverted_index.reinforcement	6
abstract_inverted_index.demonstrations	63
abstract_inverted_index.demonstrations.	50
abstract_inverted_index.out-of-the-box,	104
abstract_inverted_index.out-of-the-box.	166
abstract_inverted_index.environment-robot	132
abstract_inverted_index.readily-available	81
abstract_inverted_index.simulation-to-real	67
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	6
citation_normalized_percentile