Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective Article Swipe

PDF

Zhoujun Cheng , Shibo Hao , Tianyang Liu , Fan Zhou , Y. H. Xie , Feng Yao , Yuexin Bian , Yonghao Zhuang , Nolan Dey , Yuanyuan Zha , Yi Gu , Kun Zhou , Haijun Yu , Yuan Li , Richard E. Fan , Jianshu She , Cunxu Gao , Abulhair Saparov , Haonan Li , Taylor W. Killian , Mikhail Yurochkin , Zhengzhong Liu , Eric P. Xing , Zhiting Hu ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2506.14965

Reinforcement learning (RL) has emerged as a promising approach to improve large language model (LLM) reasoning, yet most open efforts focus narrowly on math and code, limiting our understanding of its broader applicability to general reasoning. A key challenge lies in the lack of reliable, scalable RL reward signals across diverse reasoning domains. We introduce Guru, a curated RL reasoning corpus of 92K verifiable examples spanning six reasoning domains--Math, Code, Science, Logic, Simulation, and Tabular--each built through domain-specific reward design, deduplication, and filtering to ensure reliability and effectiveness for RL training. Based on Guru, we systematically revisit established findings in RL for LLM reasoning and observe significant variation across domains. For example, while prior work suggests that RL primarily elicits existing knowledge from pretrained models, our results reveal a more nuanced pattern: domains frequently seen during pretraining (Math, Code, Science) easily benefit from cross-domain RL training, while domains with limited pretraining exposure (Logic, Simulation, and Tabular) require in-domain training to achieve meaningful performance gains, suggesting that RL is likely to facilitate genuine skill acquisition. Finally, we present Guru-7B and Guru-32B, two models that achieve state-of-the-art performance among open models RL-trained with publicly available data, outperforming best baselines by 7.9% and 6.7% on our 17-task evaluation suite across six reasoning domains. We also show that our models effectively improve the Pass@k performance of their base models, particularly on complex tasks less likely to appear in pretraining data. We release data, models, training and evaluation code to facilitate general-purpose reasoning at: https://github.com/LLM360/Reasoning360

Related Topics

Learning Curve

Learning Theory (Education)

Practice (Learning Method)

Machine Learning

Deep Learning

Learning Standards

Attention (Machine Learning)

Learning

Learning Disability

Decision Tree Learning

Q-Learning

Higher Learning

Concepts

No concepts available.

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2506.14965
PDF: https://arxiv.org/pdf/2506.14965
OA Status: green
OpenAlex ID: https://openalex.org/W4415333332

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4415333332

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2506.14965

Digital Object Identifier
Title: Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-06-17

Full publication date if available
Authors: Zhoujun Cheng, Shibo Hao, Tianyang Liu, Fan Zhou, Y. H. Xie, Feng Yao, Yuexin Bian, Yonghao Zhuang, Nolan Dey, Yuanyuan Zha, Yi Gu, Kun Zhou, Haijun Yu, Yuan Li, Richard E. Fan, Jianshu She, Cunxu Gao, Abulhair Saparov, Haonan Li, Taylor W. Killian, Mikhail Yurochkin, Zhengzhong Liu, Eric P. Xing, Zhiting Hu

List of authors in order
Landing page: https://arxiv.org/abs/2506.14965

Publisher landing page
PDF URL: https://arxiv.org/pdf/2506.14965

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2506.14965

Direct OA link when available
Cited by: 0

Total citation count in OpenAlex

Full payload

id	https://openalex.org/W4415333332
doi	https://doi.org/10.48550/arxiv.2506.14965
ids.doi	https://doi.org/10.48550/arxiv.2506.14965
ids.openalex	https://openalex.org/W4415333332
fwci
type	preprint
title	Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10456
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.886900007724762
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Multi-Agent Systems and Negotiation
is_xpac	False
apc_list
apc_paid
language	en
locations[0].id	pmh:oai:arXiv.org:2506.14965
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2506.14965
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2506.14965
locations[1].id	doi:10.48550/arxiv.2506.14965
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2506.14965
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5058829926
authorships[0].author.orcid
authorships[0].author.display_name	Zhoujun Cheng
authorships[0].author_position	first
authorships[0].raw_author_name	Cheng, Zhoujun
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5081122144
authorships[1].author.orcid
authorships[1].author.display_name	Shibo Hao
authorships[1].author_position	middle
authorships[1].raw_author_name	Hao, Shibo
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5020794355
authorships[2].author.orcid	https://orcid.org/0000-0002-1932-8917
authorships[2].author.display_name	Tianyang Liu
authorships[2].author_position	middle
authorships[2].raw_author_name	Liu, Tianyang
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5100403505
authorships[3].author.orcid	https://orcid.org/0000-0002-8038-8150
authorships[3].author.display_name	Fan Zhou
authorships[3].author_position	middle
authorships[3].raw_author_name	Zhou, Fan
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5103167622
authorships[4].author.orcid	https://orcid.org/0000-0002-6031-3426
authorships[4].author.display_name	Y. H. Xie
authorships[4].author_position	middle
authorships[4].raw_author_name	Xie, Yutao
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5100381169
authorships[5].author.orcid	https://orcid.org/0000-0002-8837-6533
authorships[5].author.display_name	Feng Yao
authorships[5].author_position	middle
authorships[5].raw_author_name	Yao, Feng
authorships[5].is_corresponding	False
authorships[6].author.id	https://openalex.org/A5080322155
authorships[6].author.orcid	https://orcid.org/0000-0002-7669-493X
authorships[6].author.display_name	Yuexin Bian
authorships[6].author_position	middle
authorships[6].raw_author_name	Bian, Yuexin
authorships[6].is_corresponding	False
authorships[7].author.id	https://openalex.org/A5076407338
authorships[7].author.orcid
authorships[7].author.display_name	Yonghao Zhuang
authorships[7].author_position	middle
authorships[7].raw_author_name	Zhuang, Yonghao
authorships[7].is_corresponding	False
authorships[8].author.id	https://openalex.org/A5012727636
authorships[8].author.orcid
authorships[8].author.display_name	Nolan Dey
authorships[8].author_position	middle
authorships[8].raw_author_name	Dey, Nilabjo
authorships[8].is_corresponding	False
authorships[9].author.id	https://openalex.org/A5082480209
authorships[9].author.orcid	https://orcid.org/0000-0003-4323-0730
authorships[9].author.display_name	Yuanyuan Zha
authorships[9].author_position	middle
authorships[9].raw_author_name	Zha, Yuheng
authorships[9].is_corresponding	False
authorships[10].author.id	https://openalex.org/A5014319412
authorships[10].author.orcid	https://orcid.org/0000-0001-7962-9466
authorships[10].author.display_name	Yi Gu
authorships[10].author_position	middle
authorships[10].raw_author_name	Gu, Yi
authorships[10].is_corresponding	False
authorships[11].author.id	https://openalex.org/A5063459528
authorships[11].author.orcid	https://orcid.org/0000-0003-0650-9521
authorships[11].author.display_name	Kun Zhou
authorships[11].author_position	middle
authorships[11].raw_author_name	Zhou, Kun
authorships[11].is_corresponding	False
authorships[12].author.id	https://openalex.org/A5022118078
authorships[12].author.orcid	https://orcid.org/0000-0002-3398-0880
authorships[12].author.display_name	Haijun Yu
authorships[12].author_position	middle
authorships[12].raw_author_name	Wang, Yuqi
authorships[12].is_corresponding	False
authorships[13].author.id	https://openalex.org/A5100390903
authorships[13].author.orcid	https://orcid.org/0000-0002-8479-3049
authorships[13].author.display_name	Yuan Li
authorships[13].author_position	middle
authorships[13].raw_author_name	Li, Yuan
authorships[13].is_corresponding	False
authorships[14].author.id	https://openalex.org/A5063971801
authorships[14].author.orcid	https://orcid.org/0000-0001-7716-0377
authorships[14].author.display_name	Richard E. Fan
authorships[14].author_position	middle
authorships[14].raw_author_name	Fan, Richard
authorships[14].is_corresponding	False
authorships[15].author.id	https://openalex.org/A5120032842
authorships[15].author.orcid
authorships[15].author.display_name	Jianshu She
authorships[15].author_position	middle
authorships[15].raw_author_name	She, Jianshu
authorships[15].is_corresponding	False
authorships[16].author.id	https://openalex.org/A5045742148
authorships[16].author.orcid	https://orcid.org/0000-0001-5633-477X
authorships[16].author.display_name	Cunxu Gao
authorships[16].author_position	middle
authorships[16].raw_author_name	Gao, Chengqian
authorships[16].is_corresponding	False
authorships[17].author.id	https://openalex.org/A5086408788
authorships[17].author.orcid
authorships[17].author.display_name	Abulhair Saparov
authorships[17].author_position	middle
authorships[17].raw_author_name	Saparov, Abulhair
authorships[17].is_corresponding	False
authorships[18].author.id	https://openalex.org/A5107274823
authorships[18].author.orcid	https://orcid.org/0000-0003-0357-0888
authorships[18].author.display_name	Haonan Li
authorships[18].author_position	middle
authorships[18].raw_author_name	Li, Haonan
authorships[18].is_corresponding	False
authorships[19].author.id	https://openalex.org/A5007476482
authorships[19].author.orcid
authorships[19].author.display_name	Taylor W. Killian
authorships[19].author_position	middle
authorships[19].raw_author_name	Killian, Taylor W.
authorships[19].is_corresponding	False
authorships[20].author.id	https://openalex.org/A5026283694
authorships[20].author.orcid	https://orcid.org/0000-0003-0153-6811
authorships[20].author.display_name	Mikhail Yurochkin
authorships[20].author_position	middle
authorships[20].raw_author_name	Yurochkin, Mikhail
authorships[20].is_corresponding	False
authorships[21].author.id	https://openalex.org/A5029648803
authorships[21].author.orcid
authorships[21].author.display_name	Zhengzhong Liu
authorships[21].author_position	middle
authorships[21].raw_author_name	Liu, Zhengzhong
authorships[21].is_corresponding	False
authorships[22].author.id	https://openalex.org/A5009547049
authorships[22].author.orcid	https://orcid.org/0009-0005-9158-4201
authorships[22].author.display_name	Eric P. Xing
authorships[22].author_position	middle
authorships[22].raw_author_name	Xing, Eric P.
authorships[22].is_corresponding	False
authorships[23].author.id	https://openalex.org/A5114674037
authorships[23].author.orcid
authorships[23].author.display_name	Zhiting Hu
authorships[23].author_position	last
authorships[23].raw_author_name	Hu, Zhiting
authorships[23].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2506.14965
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-19T00:00:00
display_name	Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10456
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.886900007724762
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Multi-Agent Systems and Negotiation
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2506.14965
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2506.14965
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2506.14965
primary_location.id	pmh:oai:arXiv.org:2506.14965
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2506.14965
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2506.14965
publication_date	2025-06-17
publication_year	2025
referenced_works_count	0
abstract_inverted_index.A	36
abstract_inverted_index.a	6, 56, 128
abstract_inverted_index.RL	46, 58, 89, 100, 117, 144, 166
abstract_inverted_index.We	53, 210, 236
abstract_inverted_index.as	5
abstract_inverted_index.by	197
abstract_inverted_index.in	40, 99, 233
abstract_inverted_index.is	167
abstract_inverted_index.of	29, 43, 61, 221
abstract_inverted_index.on	22, 92, 201, 226
abstract_inverted_index.to	9, 33, 83, 159, 169, 231, 244
abstract_inverted_index.we	94, 175
abstract_inverted_index.92K	62
abstract_inverted_index.For	110
abstract_inverted_index.LLM	102
abstract_inverted_index.and	24, 73, 81, 86, 104, 154, 178, 199, 241
abstract_inverted_index.at:	248
abstract_inverted_index.for	88, 101
abstract_inverted_index.has	3
abstract_inverted_index.its	30
abstract_inverted_index.key	37
abstract_inverted_index.our	27, 125, 202, 214
abstract_inverted_index.six	66, 207
abstract_inverted_index.the	41, 218
abstract_inverted_index.two	180
abstract_inverted_index.yet	16
abstract_inverted_index.(RL)	2
abstract_inverted_index.6.7%	200
abstract_inverted_index.7.9%	198
abstract_inverted_index.also	211
abstract_inverted_index.base	223
abstract_inverted_index.best	195
abstract_inverted_index.code	243
abstract_inverted_index.from	122, 142
abstract_inverted_index.lack	42
abstract_inverted_index.less	229
abstract_inverted_index.lies	39
abstract_inverted_index.math	23
abstract_inverted_index.more	129
abstract_inverted_index.most	17
abstract_inverted_index.open	18, 187
abstract_inverted_index.seen	134
abstract_inverted_index.show	212
abstract_inverted_index.that	116, 165, 182, 213
abstract_inverted_index.with	148, 190
abstract_inverted_index.work	114
abstract_inverted_index.(LLM)	14
abstract_inverted_index.Based	91
abstract_inverted_index.Code,	69, 138
abstract_inverted_index.Guru,	55, 93
abstract_inverted_index.among	186
abstract_inverted_index.built	75
abstract_inverted_index.code,	25
abstract_inverted_index.data,	193, 238
abstract_inverted_index.data.	235
abstract_inverted_index.focus	20
abstract_inverted_index.large	11
abstract_inverted_index.model	13
abstract_inverted_index.prior	113
abstract_inverted_index.skill	172
abstract_inverted_index.suite	205
abstract_inverted_index.tasks	228
abstract_inverted_index.their	222
abstract_inverted_index.while	112, 146
abstract_inverted_index.(Math,	137
abstract_inverted_index.Logic,	71
abstract_inverted_index.Pass@k	219
abstract_inverted_index.across	49, 108, 206
abstract_inverted_index.appear	232
abstract_inverted_index.corpus	60
abstract_inverted_index.during	135
abstract_inverted_index.easily	140
abstract_inverted_index.ensure	84
abstract_inverted_index.gains,	163
abstract_inverted_index.likely	168, 230
abstract_inverted_index.models	181, 188, 215
abstract_inverted_index.reveal	127
abstract_inverted_index.reward	47, 78
abstract_inverted_index.(Logic,	152
abstract_inverted_index.17-task	203
abstract_inverted_index.Guru-7B	177
abstract_inverted_index.achieve	160, 183
abstract_inverted_index.benefit	141
abstract_inverted_index.broader	31
abstract_inverted_index.complex	227
abstract_inverted_index.curated	57
abstract_inverted_index.design,	79
abstract_inverted_index.diverse	50
abstract_inverted_index.domains	132, 147
abstract_inverted_index.efforts	19
abstract_inverted_index.elicits	119
abstract_inverted_index.emerged	4
abstract_inverted_index.general	34
abstract_inverted_index.genuine	171
abstract_inverted_index.improve	10, 217
abstract_inverted_index.limited	149
abstract_inverted_index.models,	124, 224, 239
abstract_inverted_index.nuanced	130
abstract_inverted_index.observe	105
abstract_inverted_index.present	176
abstract_inverted_index.release	237
abstract_inverted_index.require	156
abstract_inverted_index.results	126
abstract_inverted_index.revisit	96
abstract_inverted_index.signals	48
abstract_inverted_index.through	76
abstract_inverted_index.Finally,	174
abstract_inverted_index.Science)	139
abstract_inverted_index.Science,	70
abstract_inverted_index.Tabular)	155
abstract_inverted_index.approach	8
abstract_inverted_index.domains.	52, 109, 209
abstract_inverted_index.example,	111
abstract_inverted_index.examples	64
abstract_inverted_index.existing	120
abstract_inverted_index.exposure	151
abstract_inverted_index.findings	98
abstract_inverted_index.language	12
abstract_inverted_index.learning	1
abstract_inverted_index.limiting	26
abstract_inverted_index.narrowly	21
abstract_inverted_index.pattern:	131
abstract_inverted_index.publicly	191
abstract_inverted_index.scalable	45
abstract_inverted_index.spanning	65
abstract_inverted_index.suggests	115
abstract_inverted_index.training	158, 240
abstract_inverted_index.Guru-32B,	179
abstract_inverted_index.available	192
abstract_inverted_index.baselines	196
abstract_inverted_index.challenge	38
abstract_inverted_index.filtering	82
abstract_inverted_index.in-domain	157
abstract_inverted_index.introduce	54
abstract_inverted_index.knowledge	121
abstract_inverted_index.primarily	118
abstract_inverted_index.promising	7
abstract_inverted_index.reasoning	51, 59, 67, 103, 208, 247
abstract_inverted_index.reliable,	44
abstract_inverted_index.training,	145
abstract_inverted_index.training.	90
abstract_inverted_index.variation	107
abstract_inverted_index.RL-trained	189
abstract_inverted_index.evaluation	204, 242
abstract_inverted_index.facilitate	170, 245
abstract_inverted_index.frequently	133
abstract_inverted_index.meaningful	161
abstract_inverted_index.pretrained	123
abstract_inverted_index.reasoning,	15
abstract_inverted_index.reasoning.	35
abstract_inverted_index.suggesting	164
abstract_inverted_index.verifiable	63
abstract_inverted_index.Simulation,	72, 153
abstract_inverted_index.effectively	216
abstract_inverted_index.established	97
abstract_inverted_index.performance	162, 185, 220
abstract_inverted_index.pretraining	136, 150, 234
abstract_inverted_index.reliability	85
abstract_inverted_index.significant	106
abstract_inverted_index.acquisition.	173
abstract_inverted_index.cross-domain	143
abstract_inverted_index.particularly	225
abstract_inverted_index.Reinforcement	0
abstract_inverted_index.Tabular--each	74
abstract_inverted_index.applicability	32
abstract_inverted_index.effectiveness	87
abstract_inverted_index.outperforming	194
abstract_inverted_index.understanding	28
abstract_inverted_index.deduplication,	80
abstract_inverted_index.domains--Math,	68
abstract_inverted_index.systematically	95
abstract_inverted_index.domain-specific	77
abstract_inverted_index.general-purpose	246
abstract_inverted_index.state-of-the-art	184
abstract_inverted_index.https://github.com/LLM360/Reasoning360	249
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	24
citation_normalized_percentile