LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models Article Swipe

PDF

Qianyue Hao , Yong Sang Song , Qingmin Liao , Jian Yuan , Yijia Cao ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2505.15293

Policy exploration is critical in reinforcement learning (RL), where existing approaches include greedy, Gaussian process, etc. However, these approaches utilize preset stochastic processes and are indiscriminately applied in all kinds of RL tasks without considering task-specific features that influence policy exploration. Moreover, during RL training, the evolution of such stochastic processes is rigid, which typically only incorporates a decay in the variance, failing to adjust flexibly according to the agent's real-time learning status. Inspired by the analyzing and reasoning capability of large language models (LLMs), we design LLM-Explorer to adaptively generate task-specific exploration strategies with LLMs, enhancing the policy exploration in RL. In our design, we sample the learning trajectory of the agent during the RL training in a given task and prompt the LLM to analyze the agent's current policy learning status and then generate a probability distribution for future policy exploration. Updating the probability distribution periodically, we derive a stochastic process specialized for the particular task and dynamically adjusted to adapt to the learning process. Our design is a plug-in module compatible with various widely applied RL algorithms, including the DQN series, DDPG, TD3, and any possible variants developed based on them. Through extensive experiments on the Atari and MuJoCo benchmarks, we demonstrate LLM-Explorer's capability to enhance RL policy exploration, achieving an average performance improvement up to 37.27%. Our code is open-source at https://github.com/tsinghua-fib-lab/LLM-Explorer for reproducibility.

Related Topics

Truth And Reconciliation Commission Of Canada

2025 Nba Draft

28 Years Later

Reich Ministry Of Public Enlightenment And Propaganda

Concepts

No concepts available.

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2505.15293
PDF: https://arxiv.org/pdf/2505.15293
OA Status: green
OpenAlex ID: https://openalex.org/W4415025005

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4415025005

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2505.15293

Digital Object Identifier
Title: LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-05-21

Full publication date if available
Authors: Qianyue Hao, Yong Sang Song, Qingmin Liao, Jian Yuan, Yijia Cao

List of authors in order
Landing page: https://arxiv.org/abs/2505.15293

Publisher landing page
PDF URL: https://arxiv.org/pdf/2505.15293

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2505.15293

Direct OA link when available
Cited by: 0

Total citation count in OpenAlex

Full payload

id	https://openalex.org/W4415025005
doi	https://doi.org/10.48550/arxiv.2505.15293
ids.doi	https://doi.org/10.48550/arxiv.2505.15293
ids.openalex	https://openalex.org/W4415025005
fwci
type	preprint
title	LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10462
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.6302000284194946
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Reinforcement Learning in Robotics
topics[1].id	https://openalex.org/T10260
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.559499979019165
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1710
topics[1].subfield.display_name	Information Systems
topics[1].display_name	Software Engineering Research
topics[2].id	https://openalex.org/T12535
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.5534999966621399
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1702
topics[2].subfield.display_name	Artificial Intelligence
topics[2].display_name	Machine Learning and Data Classification
is_xpac	False
apc_list
apc_paid
language	en
locations[0].id	pmh:oai:arXiv.org:2505.15293
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license	cc-by
locations[0].pdf_url	https://arxiv.org/pdf/2505.15293
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id	https://openalex.org/licenses/cc-by
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2505.15293
locations[1].id	doi:10.48550/arxiv.2505.15293
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2505.15293
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5051274227
authorships[0].author.orcid	https://orcid.org/0000-0002-7109-3588
authorships[0].author.display_name	Qianyue Hao
authorships[0].author_position	first
authorships[0].raw_author_name	Hao, Qianyue
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5004406086
authorships[1].author.orcid	https://orcid.org/0000-0001-7115-4021
authorships[1].author.display_name	Yong Sang Song
authorships[1].author_position	middle
authorships[1].raw_author_name	Song, Yiwen
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5009239895
authorships[2].author.orcid	https://orcid.org/0000-0002-7509-3964
authorships[2].author.display_name	Qingmin Liao
authorships[2].author_position	middle
authorships[2].raw_author_name	Liao, Qingmin
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5100347994
authorships[3].author.orcid	https://orcid.org/0000-0001-9734-6056
authorships[3].author.display_name	Jian Yuan
authorships[3].author_position	middle
authorships[3].raw_author_name	Yuan, Jian
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5043383546
authorships[4].author.orcid	https://orcid.org/0000-0001-9365-6452
authorships[4].author.display_name	Yijia Cao
authorships[4].author_position	last
authorships[4].raw_author_name	Li, Yong
authorships[4].is_corresponding	False
has_content.pdf	True
has_content.grobid_xml	True
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2505.15293
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models
has_fulltext	True
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10462
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.6302000284194946
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Reinforcement Learning in Robotics
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2505.15293
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license	cc-by
best_oa_location.pdf_url	https://arxiv.org/pdf/2505.15293
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id	https://openalex.org/licenses/cc-by
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2505.15293
primary_location.id	pmh:oai:arXiv.org:2505.15293
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license	cc-by
primary_location.pdf_url	https://arxiv.org/pdf/2505.15293
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id	https://openalex.org/licenses/cc-by
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2505.15293
publication_date	2025-05-21
publication_year	2025
referenced_works_count	0
abstract_inverted_index.a	57, 118, 136, 150, 170
abstract_inverted_index.In	102
abstract_inverted_index.RL	31, 43, 115, 178, 209
abstract_inverted_index.an	213
abstract_inverted_index.at	224
abstract_inverted_index.by	74
abstract_inverted_index.in	4, 27, 59, 100, 117
abstract_inverted_index.is	2, 51, 169, 222
abstract_inverted_index.of	30, 47, 80, 110
abstract_inverted_index.on	192, 197
abstract_inverted_index.to	63, 67, 88, 125, 161, 163, 207, 218
abstract_inverted_index.up	217
abstract_inverted_index.we	85, 105, 148, 203
abstract_inverted_index.DQN	182
abstract_inverted_index.LLM	124
abstract_inverted_index.Our	167, 220
abstract_inverted_index.RL.	101
abstract_inverted_index.all	28
abstract_inverted_index.and	23, 77, 121, 133, 158, 186, 200
abstract_inverted_index.any	187
abstract_inverted_index.are	24
abstract_inverted_index.for	139, 154, 226
abstract_inverted_index.our	103
abstract_inverted_index.the	45, 60, 68, 75, 97, 107, 111, 114, 123, 127, 144, 155, 164, 181, 198
abstract_inverted_index.TD3,	185
abstract_inverted_index.code	221
abstract_inverted_index.etc.	15
abstract_inverted_index.only	55
abstract_inverted_index.such	48
abstract_inverted_index.task	120, 157
abstract_inverted_index.that	37
abstract_inverted_index.then	134
abstract_inverted_index.with	94, 174
abstract_inverted_index.(RL),	7
abstract_inverted_index.Atari	199
abstract_inverted_index.DDPG,	184
abstract_inverted_index.LLMs,	95
abstract_inverted_index.adapt	162
abstract_inverted_index.agent	112
abstract_inverted_index.based	191
abstract_inverted_index.decay	58
abstract_inverted_index.given	119
abstract_inverted_index.kinds	29
abstract_inverted_index.large	81
abstract_inverted_index.tasks	32
abstract_inverted_index.them.	193
abstract_inverted_index.these	17
abstract_inverted_index.where	8
abstract_inverted_index.which	53
abstract_inverted_index.MuJoCo	201
abstract_inverted_index.Policy	0
abstract_inverted_index.adjust	64
abstract_inverted_index.derive	149
abstract_inverted_index.design	86, 168
abstract_inverted_index.during	42, 113
abstract_inverted_index.future	140
abstract_inverted_index.models	83
abstract_inverted_index.module	172
abstract_inverted_index.policy	39, 98, 130, 141, 210
abstract_inverted_index.preset	20
abstract_inverted_index.prompt	122
abstract_inverted_index.rigid,	52
abstract_inverted_index.sample	106
abstract_inverted_index.status	132
abstract_inverted_index.widely	176
abstract_inverted_index.(LLMs),	84
abstract_inverted_index.37.27%.	219
abstract_inverted_index.Through	194
abstract_inverted_index.agent's	69, 128
abstract_inverted_index.analyze	126
abstract_inverted_index.applied	26, 177
abstract_inverted_index.average	214
abstract_inverted_index.current	129
abstract_inverted_index.design,	104
abstract_inverted_index.enhance	208
abstract_inverted_index.failing	62
abstract_inverted_index.greedy,	12
abstract_inverted_index.include	11
abstract_inverted_index.plug-in	171
abstract_inverted_index.process	152
abstract_inverted_index.series,	183
abstract_inverted_index.status.	72
abstract_inverted_index.utilize	19
abstract_inverted_index.various	175
abstract_inverted_index.without	33
abstract_inverted_index.Gaussian	13
abstract_inverted_index.However,	16
abstract_inverted_index.Inspired	73
abstract_inverted_index.Updating	143
abstract_inverted_index.adjusted	160
abstract_inverted_index.critical	3
abstract_inverted_index.existing	9
abstract_inverted_index.features	36
abstract_inverted_index.flexibly	65
abstract_inverted_index.generate	90, 135
abstract_inverted_index.language	82
abstract_inverted_index.learning	6, 71, 108, 131, 165
abstract_inverted_index.possible	188
abstract_inverted_index.process,	14
abstract_inverted_index.process.	166
abstract_inverted_index.training	116
abstract_inverted_index.variants	189
abstract_inverted_index.Moreover,	41
abstract_inverted_index.according	66
abstract_inverted_index.achieving	212
abstract_inverted_index.analyzing	76
abstract_inverted_index.developed	190
abstract_inverted_index.enhancing	96
abstract_inverted_index.evolution	46
abstract_inverted_index.extensive	195
abstract_inverted_index.including	180
abstract_inverted_index.influence	38
abstract_inverted_index.processes	22, 50
abstract_inverted_index.real-time	70
abstract_inverted_index.reasoning	78
abstract_inverted_index.training,	44
abstract_inverted_index.typically	54
abstract_inverted_index.variance,	61
abstract_inverted_index.adaptively	89
abstract_inverted_index.approaches	10, 18
abstract_inverted_index.capability	79, 206
abstract_inverted_index.compatible	173
abstract_inverted_index.particular	156
abstract_inverted_index.stochastic	21, 49, 151
abstract_inverted_index.strategies	93
abstract_inverted_index.trajectory	109
abstract_inverted_index.algorithms,	179
abstract_inverted_index.benchmarks,	202
abstract_inverted_index.considering	34
abstract_inverted_index.demonstrate	204
abstract_inverted_index.dynamically	159
abstract_inverted_index.experiments	196
abstract_inverted_index.exploration	1, 92, 99
abstract_inverted_index.improvement	216
abstract_inverted_index.open-source	223
abstract_inverted_index.performance	215
abstract_inverted_index.probability	137, 145
abstract_inverted_index.specialized	153
abstract_inverted_index.LLM-Explorer	87
abstract_inverted_index.distribution	138, 146
abstract_inverted_index.exploration,	211
abstract_inverted_index.exploration.	40, 142
abstract_inverted_index.incorporates	56
abstract_inverted_index.periodically,	147
abstract_inverted_index.reinforcement	5
abstract_inverted_index.task-specific	35, 91
abstract_inverted_index.LLM-Explorer's	205
abstract_inverted_index.indiscriminately	25
abstract_inverted_index.reproducibility.	227
abstract_inverted_index.https://github.com/tsinghua-fib-lab/LLM-Explorer	225
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	5
citation_normalized_percentile