Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving Article Swipe

PDF

Saisai Wu , Jiaxu Liu , Xiangyu Yin , Guangliang Cheng , Fang Meng , Xingyu Zhao , Xinping Yi , Xiaowei Huang ·

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2410.12568

The integration of Large Language Models (LLMs) into autonomous driving systems demonstrates strong common sense and reasoning abilities, effectively addressing the pitfalls of purely data-driven methods. Current LLM-based agents require lengthy inference times and face challenges in interacting with real-time autonomous driving environments. A key open question is whether we can effectively leverage the knowledge from LLMs to train an efficient and robust Reinforcement Learning (RL) agent. This paper introduces RAPID, a novel \underline{\textbf{R}}obust \underline{\textbf{A}}daptive \underline{\textbf{P}}olicy \underline{\textbf{I}}nfusion and \underline{\textbf{D}}istillation framework, which trains specialized mix-of-policy RL agents using data synthesized by an LLM-based driving agent and online adaptation. RAPID features three key designs: 1) utilization of offline data collected from an LLM agent to distil expert knowledge into RL policies for faster real-time inference; 2) introduction of robust distillation in RL to inherit both performance and robustness from LLM-based teacher; and 3) employment of a mix-of-policy approach for joint decision decoding with a policy adapter. Through fine-tuning via online environment interaction, RAPID reduces the forgetting of LLM knowledge while maintaining adaptability to different tasks. Extensive experiments demonstrate RAPID's capability to effectively integrate LLM knowledge into scaled-down RL policies in an efficient, adaptable, and robust way. Code and checkpoints will be made publicly available upon acceptance.

Related Topics

Computer Science

Neuroscience

Concepts

Adaptation (eye) Computer science Psychology Neuroscience

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2410.12568
PDF: https://arxiv.org/pdf/2410.12568
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4403578360

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4403578360

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2410.12568

Digital Object Identifier
Title: Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-10-16

Full publication date if available
Authors: Saisai Wu, Jiaxu Liu, Xiangyu Yin, Guangliang Cheng, Fang Meng, Xingyu Zhao, Xinping Yi, Xiaowei Huang

List of authors in order
Landing page: https://arxiv.org/abs/2410.12568

Publisher landing page
PDF URL: https://arxiv.org/pdf/2410.12568

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2410.12568

Direct OA link when available
Concepts: Adaptation (eye), Computer science, Psychology, Neuroscience

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4403578360
doi	https://doi.org/10.48550/arxiv.2410.12568
ids.doi	https://doi.org/10.48550/arxiv.2410.12568
ids.openalex	https://openalex.org/W4403578360
fwci
type	preprint
title	Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11195
topics[0].field.id	https://openalex.org/fields/18
topics[0].field.display_name	Decision Sciences
topics[0].score	0.9348000288009644
topics[0].domain.id	https://openalex.org/domains/2
topics[0].domain.display_name	Social Sciences
topics[0].subfield.id	https://openalex.org/subfields/1803
topics[0].subfield.display_name	Management Science and Operations Research
topics[0].display_name	Simulation Techniques and Applications
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C139807058
concepts[0].level	2
concepts[0].score	0.5876008868217468
concepts[0].wikidata	https://www.wikidata.org/wiki/Q352374
concepts[0].display_name	Adaptation (eye)
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.4397912919521332
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C15744967
concepts[2].level	0
concepts[2].score	0.16496342420578003
concepts[2].wikidata	https://www.wikidata.org/wiki/Q9418
concepts[2].display_name	Psychology
concepts[3].id	https://openalex.org/C169760540
concepts[3].level	1
concepts[3].score	0.07730019092559814
concepts[3].wikidata	https://www.wikidata.org/wiki/Q207011
concepts[3].display_name	Neuroscience
keywords[0].id	https://openalex.org/keywords/adaptation
keywords[0].score	0.5876008868217468
keywords[0].display_name	Adaptation (eye)
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.4397912919521332
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/psychology
keywords[2].score	0.16496342420578003
keywords[2].display_name	Psychology
keywords[3].id	https://openalex.org/keywords/neuroscience
keywords[3].score	0.07730019092559814
keywords[3].display_name	Neuroscience
language	en
locations[0].id	pmh:oai:arXiv.org:2410.12568
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2410.12568
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2410.12568
locations[1].id	doi:10.48550/arxiv.2410.12568
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2410.12568
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5072238082
authorships[0].author.orcid	https://orcid.org/0000-0002-4584-6312
authorships[0].author.display_name	Saisai Wu
authorships[0].author_position	first
authorships[0].raw_author_name	Wu, Sihao
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5038889450
authorships[1].author.orcid	https://orcid.org/0000-0003-0815-3979
authorships[1].author.display_name	Jiaxu Liu
authorships[1].author_position	middle
authorships[1].raw_author_name	Liu, Jiaxu
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5101904222
authorships[2].author.orcid	https://orcid.org/0000-0002-8363-648X
authorships[2].author.display_name	Xiangyu Yin
authorships[2].author_position	middle
authorships[2].raw_author_name	Yin, Xiangyu
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5045854934
authorships[3].author.orcid	https://orcid.org/0000-0002-1428-8848
authorships[3].author.display_name	Guangliang Cheng
authorships[3].author_position	middle
authorships[3].raw_author_name	Cheng, Guangliang
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5087456682
authorships[4].author.orcid	https://orcid.org/0000-0002-7595-5018
authorships[4].author.display_name	Fang Meng
authorships[4].author_position	middle
authorships[4].raw_author_name	Fang, Meng
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5115600547
authorships[5].author.orcid	https://orcid.org/0009-0008-3213-0295
authorships[5].author.display_name	Xingyu Zhao
authorships[5].author_position	middle
authorships[5].raw_author_name	Zhao, Xingyu
authorships[5].is_corresponding	False
authorships[6].author.id	https://openalex.org/A5029033908
authorships[6].author.orcid	https://orcid.org/0000-0001-5163-2364
authorships[6].author.display_name	Xinping Yi
authorships[6].author_position	middle
authorships[6].raw_author_name	Yi, Xinping
authorships[6].is_corresponding	False
authorships[7].author.id	https://openalex.org/A5083538605
authorships[7].author.orcid
authorships[7].author.display_name	Xiaowei Huang
authorships[7].author_position	last
authorships[7].raw_author_name	Huang, Xiaowei
authorships[7].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2410.12568
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2024-10-20T00:00:00
display_name	Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11195
primary_topic.field.id	https://openalex.org/fields/18
primary_topic.field.display_name	Decision Sciences
primary_topic.score	0.9348000288009644
primary_topic.domain.id	https://openalex.org/domains/2
primary_topic.domain.display_name	Social Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1803
primary_topic.subfield.display_name	Management Science and Operations Research
primary_topic.display_name	Simulation Techniques and Applications
related_works	https://openalex.org/W4391375266, https://openalex.org/W2899084033, https://openalex.org/W2748952813, https://openalex.org/W2390279801, https://openalex.org/W4391913857, https://openalex.org/W2358668433, https://openalex.org/W4396701345, https://openalex.org/W2376932109, https://openalex.org/W2001405890, https://openalex.org/W4396696052
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2410.12568
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2410.12568
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2410.12568
primary_location.id	pmh:oai:arXiv.org:2410.12568
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2410.12568
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2410.12568
publication_date	2024-10-16
publication_year	2024
referenced_works_count	0
abstract_inverted_index.A	43
abstract_inverted_index.a	71, 143, 151
abstract_inverted_index.1)	102
abstract_inverted_index.2)	123
abstract_inverted_index.3)	140
abstract_inverted_index.RL	84, 117, 129, 185
abstract_inverted_index.an	59, 90, 109, 188
abstract_inverted_index.be	198
abstract_inverted_index.by	89
abstract_inverted_index.in	36, 128, 187
abstract_inverted_index.is	47
abstract_inverted_index.of	2, 22, 104, 125, 142, 164
abstract_inverted_index.to	57, 112, 130, 170, 178
abstract_inverted_index.we	49
abstract_inverted_index.LLM	110, 165, 181
abstract_inverted_index.The	0
abstract_inverted_index.and	15, 33, 61, 77, 94, 134, 139, 191, 195
abstract_inverted_index.can	50
abstract_inverted_index.for	119, 146
abstract_inverted_index.key	44, 100
abstract_inverted_index.the	20, 53, 162
abstract_inverted_index.via	156
abstract_inverted_index.(RL)	65
abstract_inverted_index.Code	194
abstract_inverted_index.LLMs	56
abstract_inverted_index.This	67
abstract_inverted_index.both	132
abstract_inverted_index.data	87, 106
abstract_inverted_index.face	34
abstract_inverted_index.from	55, 108, 136
abstract_inverted_index.into	7, 116, 183
abstract_inverted_index.made	199
abstract_inverted_index.open	45
abstract_inverted_index.upon	202
abstract_inverted_index.way.	193
abstract_inverted_index.will	197
abstract_inverted_index.with	38, 150
abstract_inverted_index.Large	3
abstract_inverted_index.RAPID	97, 160
abstract_inverted_index.agent	93, 111
abstract_inverted_index.joint	147
abstract_inverted_index.novel	72
abstract_inverted_index.paper	68
abstract_inverted_index.sense	14
abstract_inverted_index.three	99
abstract_inverted_index.times	32
abstract_inverted_index.train	58
abstract_inverted_index.using	86
abstract_inverted_index.which	80
abstract_inverted_index.while	167
abstract_inverted_index.(LLMs)	6
abstract_inverted_index.Models	5
abstract_inverted_index.RAPID,	70
abstract_inverted_index.agent.	66
abstract_inverted_index.agents	28, 85
abstract_inverted_index.common	13
abstract_inverted_index.distil	113
abstract_inverted_index.expert	114
abstract_inverted_index.faster	120
abstract_inverted_index.online	95, 157
abstract_inverted_index.policy	152
abstract_inverted_index.purely	23
abstract_inverted_index.robust	62, 126, 192
abstract_inverted_index.strong	12
abstract_inverted_index.tasks.	172
abstract_inverted_index.trains	81
abstract_inverted_index.Current	26
abstract_inverted_index.RAPID's	176
abstract_inverted_index.Through	154
abstract_inverted_index.driving	9, 41, 92
abstract_inverted_index.inherit	131
abstract_inverted_index.lengthy	30
abstract_inverted_index.offline	105
abstract_inverted_index.reduces	161
abstract_inverted_index.require	29
abstract_inverted_index.systems	10
abstract_inverted_index.whether	48
abstract_inverted_index.Language	4
abstract_inverted_index.Learning	64
abstract_inverted_index.adapter.	153
abstract_inverted_index.approach	145
abstract_inverted_index.decision	148
abstract_inverted_index.decoding	149
abstract_inverted_index.designs:	101
abstract_inverted_index.features	98
abstract_inverted_index.leverage	52
abstract_inverted_index.methods.	25
abstract_inverted_index.pitfalls	21
abstract_inverted_index.policies	118, 186
abstract_inverted_index.publicly	200
abstract_inverted_index.question	46
abstract_inverted_index.teacher;	138
abstract_inverted_index.Extensive	173
abstract_inverted_index.LLM-based	27, 91, 137
abstract_inverted_index.available	201
abstract_inverted_index.collected	107
abstract_inverted_index.different	171
abstract_inverted_index.efficient	60
abstract_inverted_index.inference	31
abstract_inverted_index.integrate	180
abstract_inverted_index.knowledge	54, 115, 166, 182
abstract_inverted_index.real-time	39, 121
abstract_inverted_index.reasoning	16
abstract_inverted_index.abilities,	17
abstract_inverted_index.adaptable,	190
abstract_inverted_index.addressing	19
abstract_inverted_index.autonomous	8, 40
abstract_inverted_index.capability	177
abstract_inverted_index.challenges	35
abstract_inverted_index.efficient,	189
abstract_inverted_index.employment	141
abstract_inverted_index.forgetting	163
abstract_inverted_index.framework,	79
abstract_inverted_index.inference;	122
abstract_inverted_index.introduces	69
abstract_inverted_index.robustness	135
abstract_inverted_index.acceptance.	203
abstract_inverted_index.adaptation.	96
abstract_inverted_index.checkpoints	196
abstract_inverted_index.data-driven	24
abstract_inverted_index.demonstrate	175
abstract_inverted_index.effectively	18, 51, 179
abstract_inverted_index.environment	158
abstract_inverted_index.experiments	174
abstract_inverted_index.fine-tuning	155
abstract_inverted_index.integration	1
abstract_inverted_index.interacting	37
abstract_inverted_index.maintaining	168
abstract_inverted_index.performance	133
abstract_inverted_index.scaled-down	184
abstract_inverted_index.specialized	82
abstract_inverted_index.synthesized	88
abstract_inverted_index.utilization	103
abstract_inverted_index.adaptability	169
abstract_inverted_index.demonstrates	11
abstract_inverted_index.distillation	127
abstract_inverted_index.interaction,	159
abstract_inverted_index.introduction	124
abstract_inverted_index.Reinforcement	63
abstract_inverted_index.environments.	42
abstract_inverted_index.mix-of-policy	83, 144
abstract_inverted_index.\underline{\textbf{P}}olicy	75
abstract_inverted_index.\underline{\textbf{R}}obust	73
abstract_inverted_index.\underline{\textbf{A}}daptive	74
abstract_inverted_index.\underline{\textbf{I}}nfusion	76
abstract_inverted_index.\underline{\textbf{D}}istillation	78
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	8
citation_normalized_percentile