Symmetric Rank-One Quasi-Newton Methods for Deep Learning Using Cubic Regularization Article Swipe

PDF

Aditya Ranganath , Mukesh Singhal , Roummel F. Marcia ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2502.12298

Stochastic gradient descent and other first-order variants, such as Adam and AdaGrad, are commonly used in the field of deep learning due to their computational efficiency and low-storage memory requirements. However, these methods do not exploit curvature information. Consequently, iterates can converge to saddle points or poor local minima. On the other hand, Quasi-Newton methods compute Hessian approximations which exploit this information with a comparable computational budget. Quasi-Newton methods re-use previously computed iterates and gradients to compute a low-rank structured update. The most widely used quasi-Newton update is the L-BFGS, which guarantees a positive semi-definite Hessian approximation, making it suitable in a line search setting. However, the loss functions in DNNs are non-convex, where the Hessian is potentially non-positive definite. In this paper, we propose using a limited-memory symmetric rank-one quasi-Newton approach which allows for indefinite Hessian approximations, enabling directions of negative curvature to be exploited. Furthermore, we use a modified adaptive regularized cubics approach, which generates a sequence of cubic subproblems that have closed-form solutions with suitable regularization choices. We investigate the performance of our proposed method on autoencoders and feed-forward neural network models and compare our approach to state-of-the-art first-order adaptive stochastic methods as well as other quasi-Newton methods.x

Related Topics

Mathematics

Combinatorics

Computer Science

Artificial Intelligence

Concepts

Regularization (linguistics) Rank (graph theory) Mathematics Applied mathematics Combinatorics Computer science Artificial intelligence

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2502.12298
PDF: https://arxiv.org/pdf/2502.12298
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4407759309

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4407759309

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2502.12298

Digital Object Identifier
Title: Symmetric Rank-One Quasi-Newton Methods for Deep Learning Using Cubic Regularization

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-02-17

Full publication date if available
Authors: Aditya Ranganath, Mukesh Singhal, Roummel F. Marcia

List of authors in order
Landing page: https://arxiv.org/abs/2502.12298

Publisher landing page
PDF URL: https://arxiv.org/pdf/2502.12298

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2502.12298

Direct OA link when available
Concepts: Regularization (linguistics), Rank (graph theory), Mathematics, Applied mathematics, Combinatorics, Computer science, Artificial intelligence

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4407759309
doi	https://doi.org/10.48550/arxiv.2502.12298
ids.doi	https://doi.org/10.48550/arxiv.2502.12298
ids.openalex	https://openalex.org/W4407759309
fwci
type	preprint
title	Symmetric Rank-One Quasi-Newton Methods for Deep Learning Using Cubic Regularization
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11206
topics[0].field.id	https://openalex.org/fields/31
topics[0].field.display_name	Physics and Astronomy
topics[0].score	0.9980000257492065
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/3109
topics[0].subfield.display_name	Statistical and Nonlinear Physics
topics[0].display_name	Model Reduction and Neural Networks
topics[1].id	https://openalex.org/T11205
topics[1].field.id	https://openalex.org/fields/26
topics[1].field.display_name	Mathematics
topics[1].score	0.9919000267982483
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/2610
topics[1].subfield.display_name	Mathematical Physics
topics[1].display_name	Numerical methods in inverse problems
topics[2].id	https://openalex.org/T11245
topics[2].field.id	https://openalex.org/fields/22
topics[2].field.display_name	Engineering
topics[2].score	0.9848999977111816
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/2206
topics[2].subfield.display_name	Computational Mechanics
topics[2].display_name	Advanced Numerical Analysis Techniques
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C2776135515
concepts[0].level	2
concepts[0].score	0.5774171352386475
concepts[0].wikidata	https://www.wikidata.org/wiki/Q17143721
concepts[0].display_name	Regularization (linguistics)
concepts[1].id	https://openalex.org/C164226766
concepts[1].level	2
concepts[1].score	0.5532882213592529
concepts[1].wikidata	https://www.wikidata.org/wiki/Q7293202
concepts[1].display_name	Rank (graph theory)
concepts[2].id	https://openalex.org/C33923547
concepts[2].level	0
concepts[2].score	0.45904794335365295
concepts[2].wikidata	https://www.wikidata.org/wiki/Q395
concepts[2].display_name	Mathematics
concepts[3].id	https://openalex.org/C28826006
concepts[3].level	1
concepts[3].score	0.4038230776786804
concepts[3].wikidata	https://www.wikidata.org/wiki/Q33521
concepts[3].display_name	Applied mathematics
concepts[4].id	https://openalex.org/C114614502
concepts[4].level	1
concepts[4].score	0.33403319120407104
concepts[4].wikidata	https://www.wikidata.org/wiki/Q76592
concepts[4].display_name	Combinatorics
concepts[5].id	https://openalex.org/C41008148
concepts[5].level	0
concepts[5].score	0.3129676580429077
concepts[5].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[5].display_name	Computer science
concepts[6].id	https://openalex.org/C154945302
concepts[6].level	1
concepts[6].score	0.30539804697036743
concepts[6].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[6].display_name	Artificial intelligence
keywords[0].id	https://openalex.org/keywords/regularization
keywords[0].score	0.5774171352386475
keywords[0].display_name	Regularization (linguistics)
keywords[1].id	https://openalex.org/keywords/rank
keywords[1].score	0.5532882213592529
keywords[1].display_name	Rank (graph theory)
keywords[2].id	https://openalex.org/keywords/mathematics
keywords[2].score	0.45904794335365295
keywords[2].display_name	Mathematics
keywords[3].id	https://openalex.org/keywords/applied-mathematics
keywords[3].score	0.4038230776786804
keywords[3].display_name	Applied mathematics
keywords[4].id	https://openalex.org/keywords/combinatorics
keywords[4].score	0.33403319120407104
keywords[4].display_name	Combinatorics
keywords[5].id	https://openalex.org/keywords/computer-science
keywords[5].score	0.3129676580429077
keywords[5].display_name	Computer science
keywords[6].id	https://openalex.org/keywords/artificial-intelligence
keywords[6].score	0.30539804697036743
keywords[6].display_name	Artificial intelligence
language	en
locations[0].id	pmh:oai:arXiv.org:2502.12298
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2502.12298
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2502.12298
locations[1].id	doi:10.48550/arxiv.2502.12298
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2502.12298
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5082077617
authorships[0].author.orcid	https://orcid.org/0000-0003-1272-6354
authorships[0].author.display_name	Aditya Ranganath
authorships[0].author_position	first
authorships[0].raw_author_name	Ranganath, Aditya
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5058282709
authorships[1].author.orcid	https://orcid.org/0000-0002-0497-1942
authorships[1].author.display_name	Mukesh Singhal
authorships[1].author_position	middle
authorships[1].raw_author_name	Singhal, Mukesh
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5005703929
authorships[2].author.orcid	https://orcid.org/0000-0001-6838-140X
authorships[2].author.display_name	Roummel F. Marcia
authorships[2].author_position	last
authorships[2].raw_author_name	Marcia, Roummel
authorships[2].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2502.12298
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Symmetric Rank-One Quasi-Newton Methods for Deep Learning Using Cubic Regularization
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11206
primary_topic.field.id	https://openalex.org/fields/31
primary_topic.field.display_name	Physics and Astronomy
primary_topic.score	0.9980000257492065
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/3109
primary_topic.subfield.display_name	Statistical and Nonlinear Physics
primary_topic.display_name	Model Reduction and Neural Networks
related_works	https://openalex.org/W4391375266, https://openalex.org/W2980963558, https://openalex.org/W2112835755, https://openalex.org/W4291951920, https://openalex.org/W1882246857, https://openalex.org/W2349674371, https://openalex.org/W3103304230, https://openalex.org/W2185360082, https://openalex.org/W1992365905, https://openalex.org/W1976691234
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2502.12298
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2502.12298
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2502.12298
primary_location.id	pmh:oai:arXiv.org:2502.12298
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2502.12298
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2502.12298
publication_date	2025-02-17
publication_year	2025
referenced_works_count	0
abstract_inverted_index.a	63, 77, 92, 101, 126, 149, 157
abstract_inverted_index.In	120
abstract_inverted_index.On	49
abstract_inverted_index.We	170
abstract_inverted_index.as	8, 195, 197
abstract_inverted_index.be	144
abstract_inverted_index.do	33
abstract_inverted_index.in	15, 100, 109
abstract_inverted_index.is	87, 116
abstract_inverted_index.it	98
abstract_inverted_index.of	18, 140, 159, 174
abstract_inverted_index.on	178
abstract_inverted_index.or	45
abstract_inverted_index.to	22, 42, 75, 143, 189
abstract_inverted_index.we	123, 147
abstract_inverted_index.The	81
abstract_inverted_index.and	3, 10, 26, 73, 180, 185
abstract_inverted_index.are	12, 111
abstract_inverted_index.can	40
abstract_inverted_index.due	21
abstract_inverted_index.for	134
abstract_inverted_index.not	34
abstract_inverted_index.our	175, 187
abstract_inverted_index.the	16, 50, 88, 106, 114, 172
abstract_inverted_index.use	148
abstract_inverted_index.Adam	9
abstract_inverted_index.DNNs	110
abstract_inverted_index.deep	19
abstract_inverted_index.have	163
abstract_inverted_index.line	102
abstract_inverted_index.loss	107
abstract_inverted_index.most	82
abstract_inverted_index.poor	46
abstract_inverted_index.such	7
abstract_inverted_index.that	162
abstract_inverted_index.this	60, 121
abstract_inverted_index.used	14, 84
abstract_inverted_index.well	196
abstract_inverted_index.with	62, 166
abstract_inverted_index.cubic	160
abstract_inverted_index.field	17
abstract_inverted_index.hand,	52
abstract_inverted_index.local	47
abstract_inverted_index.other	4, 51, 198
abstract_inverted_index.their	23
abstract_inverted_index.these	31
abstract_inverted_index.using	125
abstract_inverted_index.where	113
abstract_inverted_index.which	58, 90, 132, 155
abstract_inverted_index.allows	133
abstract_inverted_index.cubics	153
abstract_inverted_index.making	97
abstract_inverted_index.memory	28
abstract_inverted_index.method	177
abstract_inverted_index.models	184
abstract_inverted_index.neural	182
abstract_inverted_index.paper,	122
abstract_inverted_index.points	44
abstract_inverted_index.re-use	69
abstract_inverted_index.saddle	43
abstract_inverted_index.search	103
abstract_inverted_index.update	86
abstract_inverted_index.widely	83
abstract_inverted_index.Hessian	56, 95, 115, 136
abstract_inverted_index.L-BFGS,	89
abstract_inverted_index.budget.	66
abstract_inverted_index.compare	186
abstract_inverted_index.compute	55, 76
abstract_inverted_index.descent	2
abstract_inverted_index.exploit	35, 59
abstract_inverted_index.methods	32, 54, 68, 194
abstract_inverted_index.minima.	48
abstract_inverted_index.network	183
abstract_inverted_index.propose	124
abstract_inverted_index.update.	80
abstract_inverted_index.AdaGrad,	11
abstract_inverted_index.However,	30, 105
abstract_inverted_index.adaptive	151, 192
abstract_inverted_index.approach	131, 188
abstract_inverted_index.choices.	169
abstract_inverted_index.commonly	13
abstract_inverted_index.computed	71
abstract_inverted_index.converge	41
abstract_inverted_index.enabling	138
abstract_inverted_index.gradient	1
abstract_inverted_index.iterates	39, 72
abstract_inverted_index.learning	20
abstract_inverted_index.low-rank	78
abstract_inverted_index.modified	150
abstract_inverted_index.negative	141
abstract_inverted_index.positive	93
abstract_inverted_index.proposed	176
abstract_inverted_index.rank-one	129
abstract_inverted_index.sequence	158
abstract_inverted_index.setting.	104
abstract_inverted_index.suitable	99, 167
abstract_inverted_index.approach,	154
abstract_inverted_index.curvature	36, 142
abstract_inverted_index.definite.	119
abstract_inverted_index.functions	108
abstract_inverted_index.generates	156
abstract_inverted_index.gradients	74
abstract_inverted_index.methods.x	200
abstract_inverted_index.solutions	165
abstract_inverted_index.symmetric	128
abstract_inverted_index.variants,	6
abstract_inverted_index.Stochastic	0
abstract_inverted_index.comparable	64
abstract_inverted_index.directions	139
abstract_inverted_index.efficiency	25
abstract_inverted_index.exploited.	145
abstract_inverted_index.guarantees	91
abstract_inverted_index.indefinite	135
abstract_inverted_index.previously	70
abstract_inverted_index.stochastic	193
abstract_inverted_index.structured	79
abstract_inverted_index.closed-form	164
abstract_inverted_index.first-order	5, 191
abstract_inverted_index.information	61
abstract_inverted_index.investigate	171
abstract_inverted_index.low-storage	27
abstract_inverted_index.non-convex,	112
abstract_inverted_index.performance	173
abstract_inverted_index.potentially	117
abstract_inverted_index.regularized	152
abstract_inverted_index.subproblems	161
abstract_inverted_index.Furthermore,	146
abstract_inverted_index.Quasi-Newton	53, 67
abstract_inverted_index.autoencoders	179
abstract_inverted_index.feed-forward	181
abstract_inverted_index.information.	37
abstract_inverted_index.non-positive	118
abstract_inverted_index.quasi-Newton	85, 130, 199
abstract_inverted_index.Consequently,	38
abstract_inverted_index.computational	24, 65
abstract_inverted_index.requirements.	29
abstract_inverted_index.semi-definite	94
abstract_inverted_index.approximation,	96
abstract_inverted_index.approximations	57
abstract_inverted_index.limited-memory	127
abstract_inverted_index.regularization	168
abstract_inverted_index.approximations,	137
abstract_inverted_index.state-of-the-art	190
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	3
citation_normalized_percentile