Full-Step-DPO: Self-Supervised Preference Optimization with Step-wise Rewards for Mathematical Reasoning Article Swipe

PDF

Huimin Xu , Xin Mao , Feng-Lin Li , Xiaobao Wu , Wang Chen , Wei Zhang , Anh Tuan Luu ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2502.14356

Direct Preference Optimization (DPO) often struggles with long-chain mathematical reasoning. Existing approaches, such as Step-DPO, typically improve this by focusing on the first erroneous step in the reasoning chain. However, they overlook all other steps and rely heavily on humans or GPT-4 to identify erroneous steps. To address these issues, we propose Full-Step-DPO, a novel DPO framework tailored for mathematical reasoning. Instead of optimizing only the first erroneous step, it leverages step-wise rewards from the entire reasoning chain. This is achieved by training a self-supervised process reward model, which automatically scores each step, providing rewards while avoiding reliance on external signals. Furthermore, we introduce a novel step-wise DPO loss, which dynamically updates gradients based on these step-wise rewards. This endows stronger reasoning capabilities to language models. Extensive evaluations on both in-domain and out-of-domain mathematical reasoning benchmarks across various base language models, demonstrate that Full-Step-DPO achieves superior performance compared to state-of-the-art baselines.

Related Topics

Computer Science

Artificial Intelligence

Mathematics

Statistics

Concepts

Preference Computer science Artificial intelligence Mathematical optimization Mathematics Statistics

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2502.14356
PDF: https://arxiv.org/pdf/2502.14356
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4407806679

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4407806679

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2502.14356

Digital Object Identifier
Title: Full-Step-DPO: Self-Supervised Preference Optimization with Step-wise Rewards for Mathematical Reasoning

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-02-20

Full publication date if available
Authors: Huimin Xu, Xin Mao, Feng-Lin Li, Xiaobao Wu, Wang Chen, Wei Zhang, Anh Tuan Luu

List of authors in order
Landing page: https://arxiv.org/abs/2502.14356

Publisher landing page
PDF URL: https://arxiv.org/pdf/2502.14356

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2502.14356

Direct OA link when available
Concepts: Preference, Computer science, Artificial intelligence, Mathematical optimization, Mathematics, Statistics

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4407806679
doi	https://doi.org/10.48550/arxiv.2502.14356
ids.doi	https://doi.org/10.48550/arxiv.2502.14356
ids.openalex	https://openalex.org/W4407806679
fwci
type	preprint
title	Full-Step-DPO: Self-Supervised Preference Optimization with Step-wise Rewards for Mathematical Reasoning
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11106
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9657999873161316
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1711
topics[0].subfield.display_name	Signal Processing
topics[0].display_name	Data Management and Algorithms
topics[1].id	https://openalex.org/T11596
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9341999888420105
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1705
topics[1].subfield.display_name	Computer Networks and Communications
topics[1].display_name	Constraint Satisfaction and Optimization
topics[2].id	https://openalex.org/T10820
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9122999906539917
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1702
topics[2].subfield.display_name	Artificial Intelligence
topics[2].display_name	Fuzzy Logic and Control Systems
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C2781249084
concepts[0].level	2
concepts[0].score	0.7135095596313477
concepts[0].wikidata	https://www.wikidata.org/wiki/Q908656
concepts[0].display_name	Preference
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.49958348274230957
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C154945302
concepts[2].level	1
concepts[2].score	0.49809789657592773
concepts[2].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[2].display_name	Artificial intelligence
concepts[3].id	https://openalex.org/C126255220
concepts[3].level	1
concepts[3].score	0.34632599353790283
concepts[3].wikidata	https://www.wikidata.org/wiki/Q141495
concepts[3].display_name	Mathematical optimization
concepts[4].id	https://openalex.org/C33923547
concepts[4].level	0
concepts[4].score	0.32005250453948975
concepts[4].wikidata	https://www.wikidata.org/wiki/Q395
concepts[4].display_name	Mathematics
concepts[5].id	https://openalex.org/C105795698
concepts[5].level	1
concepts[5].score	0.12946867942810059
concepts[5].wikidata	https://www.wikidata.org/wiki/Q12483
concepts[5].display_name	Statistics
keywords[0].id	https://openalex.org/keywords/preference
keywords[0].score	0.7135095596313477
keywords[0].display_name	Preference
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.49958348274230957
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/artificial-intelligence
keywords[2].score	0.49809789657592773
keywords[2].display_name	Artificial intelligence
keywords[3].id	https://openalex.org/keywords/mathematical-optimization
keywords[3].score	0.34632599353790283
keywords[3].display_name	Mathematical optimization
keywords[4].id	https://openalex.org/keywords/mathematics
keywords[4].score	0.32005250453948975
keywords[4].display_name	Mathematics
keywords[5].id	https://openalex.org/keywords/statistics
keywords[5].score	0.12946867942810059
keywords[5].display_name	Statistics
language	en
locations[0].id	pmh:oai:arXiv.org:2502.14356
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2502.14356
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2502.14356
locations[1].id	doi:10.48550/arxiv.2502.14356
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2502.14356
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5000871321
authorships[0].author.orcid
authorships[0].author.display_name	Huimin Xu
authorships[0].author_position	first
authorships[0].raw_author_name	Xu, Huimin
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5102756403
authorships[1].author.orcid	https://orcid.org/0000-0002-3740-8355
authorships[1].author.display_name	Xin Mao
authorships[1].author_position	middle
authorships[1].raw_author_name	Mao, Xin
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5101808283
authorships[2].author.orcid
authorships[2].author.display_name	Feng-Lin Li
authorships[2].author_position	middle
authorships[2].raw_author_name	Li, Feng-Lin
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5011376608
authorships[3].author.orcid	https://orcid.org/0000-0003-0076-3924
authorships[3].author.display_name	Xiaobao Wu
authorships[3].author_position	middle
authorships[3].raw_author_name	Wu, Xiaobao
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5100340740
authorships[4].author.orcid	https://orcid.org/0000-0001-7892-3575
authorships[4].author.display_name	Wang Chen
authorships[4].author_position	middle
authorships[4].raw_author_name	Chen, Wang
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5101555891
authorships[5].author.orcid	https://orcid.org/0009-0001-5847-663X
authorships[5].author.display_name	Wei Zhang
authorships[5].author_position	middle
authorships[5].raw_author_name	Zhang, Wei
authorships[5].is_corresponding	False
authorships[6].author.id	https://openalex.org/A5050386762
authorships[6].author.orcid	https://orcid.org/0000-0002-1927-9895
authorships[6].author.display_name	Anh Tuan Luu
authorships[6].author_position	last
authorships[6].raw_author_name	Luu, Anh Tuan
authorships[6].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2502.14356
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Full-Step-DPO: Self-Supervised Preference Optimization with Step-wise Rewards for Mathematical Reasoning
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11106
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9657999873161316
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1711
primary_topic.subfield.display_name	Signal Processing
primary_topic.display_name	Data Management and Algorithms
related_works	https://openalex.org/W2899084033, https://openalex.org/W2748952813, https://openalex.org/W4391375266, https://openalex.org/W1979597421, https://openalex.org/W2007980826, https://openalex.org/W2061531152, https://openalex.org/W3002753104, https://openalex.org/W2077600819, https://openalex.org/W2142036596, https://openalex.org/W2072657027
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2502.14356
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2502.14356
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2502.14356
primary_location.id	pmh:oai:arXiv.org:2502.14356
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2502.14356
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2502.14356
publication_date	2025-02-20
publication_year	2025
referenced_works_count	0
abstract_inverted_index.a	53, 83, 104
abstract_inverted_index.To	46
abstract_inverted_index.as	13
abstract_inverted_index.by	18, 81
abstract_inverted_index.in	25
abstract_inverted_index.is	79
abstract_inverted_index.it	69
abstract_inverted_index.of	62
abstract_inverted_index.on	20, 38, 98, 114, 128
abstract_inverted_index.or	40
abstract_inverted_index.to	42, 123, 148
abstract_inverted_index.we	50, 102
abstract_inverted_index.DPO	55, 107
abstract_inverted_index.all	32
abstract_inverted_index.and	35, 131
abstract_inverted_index.for	58
abstract_inverted_index.the	21, 26, 65, 74
abstract_inverted_index.This	78, 118
abstract_inverted_index.base	138
abstract_inverted_index.both	129
abstract_inverted_index.each	91
abstract_inverted_index.from	73
abstract_inverted_index.only	64
abstract_inverted_index.rely	36
abstract_inverted_index.step	24
abstract_inverted_index.such	12
abstract_inverted_index.that	142
abstract_inverted_index.they	30
abstract_inverted_index.this	17
abstract_inverted_index.with	6
abstract_inverted_index.(DPO)	3
abstract_inverted_index.GPT-4	41
abstract_inverted_index.based	113
abstract_inverted_index.first	22, 66
abstract_inverted_index.loss,	108
abstract_inverted_index.novel	54, 105
abstract_inverted_index.often	4
abstract_inverted_index.other	33
abstract_inverted_index.step,	68, 92
abstract_inverted_index.steps	34
abstract_inverted_index.these	48, 115
abstract_inverted_index.which	88, 109
abstract_inverted_index.while	95
abstract_inverted_index.Direct	0
abstract_inverted_index.across	136
abstract_inverted_index.chain.	28, 77
abstract_inverted_index.endows	119
abstract_inverted_index.entire	75
abstract_inverted_index.humans	39
abstract_inverted_index.model,	87
abstract_inverted_index.reward	86
abstract_inverted_index.scores	90
abstract_inverted_index.steps.	45
abstract_inverted_index.Instead	61
abstract_inverted_index.address	47
abstract_inverted_index.heavily	37
abstract_inverted_index.improve	16
abstract_inverted_index.issues,	49
abstract_inverted_index.models,	140
abstract_inverted_index.models.	125
abstract_inverted_index.process	85
abstract_inverted_index.propose	51
abstract_inverted_index.rewards	72, 94
abstract_inverted_index.updates	111
abstract_inverted_index.various	137
abstract_inverted_index.Existing	10
abstract_inverted_index.However,	29
abstract_inverted_index.achieved	80
abstract_inverted_index.achieves	144
abstract_inverted_index.avoiding	96
abstract_inverted_index.compared	147
abstract_inverted_index.external	99
abstract_inverted_index.focusing	19
abstract_inverted_index.identify	43
abstract_inverted_index.language	124, 139
abstract_inverted_index.overlook	31
abstract_inverted_index.reliance	97
abstract_inverted_index.rewards.	117
abstract_inverted_index.signals.	100
abstract_inverted_index.stronger	120
abstract_inverted_index.superior	145
abstract_inverted_index.tailored	57
abstract_inverted_index.training	82
abstract_inverted_index.Extensive	126
abstract_inverted_index.Step-DPO,	14
abstract_inverted_index.erroneous	23, 44, 67
abstract_inverted_index.framework	56
abstract_inverted_index.gradients	112
abstract_inverted_index.in-domain	130
abstract_inverted_index.introduce	103
abstract_inverted_index.leverages	70
abstract_inverted_index.providing	93
abstract_inverted_index.reasoning	27, 76, 121, 134
abstract_inverted_index.step-wise	71, 106, 116
abstract_inverted_index.struggles	5
abstract_inverted_index.typically	15
abstract_inverted_index.Preference	1
abstract_inverted_index.baselines.	150
abstract_inverted_index.benchmarks	135
abstract_inverted_index.long-chain	7
abstract_inverted_index.optimizing	63
abstract_inverted_index.reasoning.	9, 60
abstract_inverted_index.approaches,	11
abstract_inverted_index.demonstrate	141
abstract_inverted_index.dynamically	110
abstract_inverted_index.evaluations	127
abstract_inverted_index.performance	146
abstract_inverted_index.Furthermore,	101
abstract_inverted_index.Optimization	2
abstract_inverted_index.capabilities	122
abstract_inverted_index.mathematical	8, 59, 133
abstract_inverted_index.Full-Step-DPO	143
abstract_inverted_index.automatically	89
abstract_inverted_index.out-of-domain	132
abstract_inverted_index.Full-Step-DPO,	52
abstract_inverted_index.self-supervised	84
abstract_inverted_index.state-of-the-art	149
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	7
citation_normalized_percentile