A Study of the Mathematics of Deep Learning Article Swipe

PDF

Anirbit Mukherjee ·

YOU? · · 2021 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2104.14033

"Deep Learning"/"Deep Neural Nets" is a technological marvel that is now increasingly deployed at the cutting-edge of artificial intelligence tasks. This dramatic success of deep learning in the last few years has been hinged on an enormous amount of heuristics and it has turned out to be a serious mathematical challenge to be able to rigorously explain them. In this thesis, submitted to the Department of Applied Mathematics and Statistics, Johns Hopkins University we take several steps towards building strong theoretical foundations for these new paradigms of deep-learning. In chapter 2 we show new circuit complexity theorems for deep neural functions and prove classification theorems about these function spaces which in turn lead to exact algorithms for empirical risk minimization for depth 2 ReLU nets. We also motivate a measure of complexity of neural functions to constructively establish the existence of high-complexity neural functions. In chapter 3 we give the first algorithm which can train a ReLU gate in the realizable setting in linear time in an almost distribution free set up. In chapter 4 we give rigorous proofs towards explaining the phenomenon of autoencoders being able to do sparse-coding. In chapter 5 we give the first-of-its-kind proofs of convergence for stochastic and deterministic versions of the widely used adaptive gradient deep-learning algorithms, RMSProp and ADAM. This chapter also includes a detailed empirical study on autoencoders of the hyper-parameter values at which modern algorithms have a significant advantage over classical acceleration based methods. In the last chapter 6 we give new and improved PAC-Bayesian bounds for the risk of stochastic neural nets. This chapter also includes an experimental investigation revealing new geometric properties of the paths in weight space that are traced out by the net during the training.

Related Topics

Deep Learning

Mathematical Proof

Artificial Intelligence

Computer Science

Empirical Risk Minimization

Algorithm

Theoretical Computer Science

Concepts

Deep learning Mathematical proof Heuristics Artificial intelligence Artificial neural network Computer science Empirical risk minimization Deep neural networks Convergence (economics) Function (biology) Algorithm Theoretical computer science Machine learning Mathematics Economic growth Operating system Geometry Biology Economics Evolutionary biology

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2104.14033
PDF: https://arxiv.org/pdf/2104.14033
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4287197114

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4287197114

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2104.14033

Digital Object Identifier
Title: A Study of the Mathematics of Deep Learning

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2021

Year of publication
Publication date: 2021-04-28

Full publication date if available
Authors: Anirbit Mukherjee

List of authors in order
Landing page: https://arxiv.org/abs/2104.14033

Publisher landing page
PDF URL: https://arxiv.org/pdf/2104.14033

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2104.14033

Direct OA link when available
Concepts: Deep learning, Mathematical proof, Heuristics, Artificial intelligence, Artificial neural network, Computer science, Empirical risk minimization, Deep neural networks, Convergence (economics), Function (biology), Algorithm, Theoretical computer science, Machine learning, Mathematics, Economic growth, Operating system, Geometry, Biology, Economics, Evolutionary biology

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4287197114
doi	https://doi.org/10.48550/arxiv.2104.14033
ids.doi	https://doi.org/10.48550/arxiv.2104.14033
ids.openalex	https://openalex.org/W4287197114
fwci
type	preprint
title	A Study of the Mathematics of Deep Learning
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11612
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9657999873161316
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Stochastic Gradient Optimization Techniques
topics[1].id	https://openalex.org/T10320
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9480999708175659
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Neural Networks and Applications
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C108583219
concepts[0].level	2
concepts[0].score	0.7579235434532166
concepts[0].wikidata	https://www.wikidata.org/wiki/Q197536
concepts[0].display_name	Deep learning
concepts[1].id	https://openalex.org/C108710211
concepts[1].level	2
concepts[1].score	0.6841189861297607
concepts[1].wikidata	https://www.wikidata.org/wiki/Q11538
concepts[1].display_name	Mathematical proof
concepts[2].id	https://openalex.org/C127705205
concepts[2].level	2
concepts[2].score	0.6444051861763
concepts[2].wikidata	https://www.wikidata.org/wiki/Q5748245
concepts[2].display_name	Heuristics
concepts[3].id	https://openalex.org/C154945302
concepts[3].level	1
concepts[3].score	0.6200762391090393
concepts[3].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[3].display_name	Artificial intelligence
concepts[4].id	https://openalex.org/C50644808
concepts[4].level	2
concepts[4].score	0.5622870326042175
concepts[4].wikidata	https://www.wikidata.org/wiki/Q192776
concepts[4].display_name	Artificial neural network
concepts[5].id	https://openalex.org/C41008148
concepts[5].level	0
concepts[5].score	0.5566544532775879
concepts[5].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[5].display_name	Computer science
concepts[6].id	https://openalex.org/C107321475
concepts[6].level	2
concepts[6].score	0.5188252329826355
concepts[6].wikidata	https://www.wikidata.org/wiki/Q5374254
concepts[6].display_name	Empirical risk minimization
concepts[7].id	https://openalex.org/C2984842247
concepts[7].level	3
concepts[7].score	0.46547338366508484
concepts[7].wikidata	https://www.wikidata.org/wiki/Q197536
concepts[7].display_name	Deep neural networks
concepts[8].id	https://openalex.org/C2777303404
concepts[8].level	2
concepts[8].score	0.418288916349411
concepts[8].wikidata	https://www.wikidata.org/wiki/Q759757
concepts[8].display_name	Convergence (economics)
concepts[9].id	https://openalex.org/C14036430
concepts[9].level	2
concepts[9].score	0.41698095202445984
concepts[9].wikidata	https://www.wikidata.org/wiki/Q3736076
concepts[9].display_name	Function (biology)
concepts[10].id	https://openalex.org/C11413529
concepts[10].level	1
concepts[10].score	0.4127351939678192
concepts[10].wikidata	https://www.wikidata.org/wiki/Q8366
concepts[10].display_name	Algorithm
concepts[11].id	https://openalex.org/C80444323
concepts[11].level	1
concepts[11].score	0.33958524465560913
concepts[11].wikidata	https://www.wikidata.org/wiki/Q2878974
concepts[11].display_name	Theoretical computer science
concepts[12].id	https://openalex.org/C119857082
concepts[12].level	1
concepts[12].score	0.3274048864841461
concepts[12].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[12].display_name	Machine learning
concepts[13].id	https://openalex.org/C33923547
concepts[13].level	0
concepts[13].score	0.3119926154613495
concepts[13].wikidata	https://www.wikidata.org/wiki/Q395
concepts[13].display_name	Mathematics
concepts[14].id	https://openalex.org/C50522688
concepts[14].level	1
concepts[14].score	0.0
concepts[14].wikidata	https://www.wikidata.org/wiki/Q189833
concepts[14].display_name	Economic growth
concepts[15].id	https://openalex.org/C111919701
concepts[15].level	1
concepts[15].score	0.0
concepts[15].wikidata	https://www.wikidata.org/wiki/Q9135
concepts[15].display_name	Operating system
concepts[16].id	https://openalex.org/C2524010
concepts[16].level	1
concepts[16].score	0.0
concepts[16].wikidata	https://www.wikidata.org/wiki/Q8087
concepts[16].display_name	Geometry
concepts[17].id	https://openalex.org/C86803240
concepts[17].level	0
concepts[17].score	0.0
concepts[17].wikidata	https://www.wikidata.org/wiki/Q420
concepts[17].display_name	Biology
concepts[18].id	https://openalex.org/C162324750
concepts[18].level	0
concepts[18].score	0.0
concepts[18].wikidata	https://www.wikidata.org/wiki/Q8134
concepts[18].display_name	Economics
concepts[19].id	https://openalex.org/C78458016
concepts[19].level	1
concepts[19].score	0.0
concepts[19].wikidata	https://www.wikidata.org/wiki/Q840400
concepts[19].display_name	Evolutionary biology
keywords[0].id	https://openalex.org/keywords/deep-learning
keywords[0].score	0.7579235434532166
keywords[0].display_name	Deep learning
keywords[1].id	https://openalex.org/keywords/mathematical-proof
keywords[1].score	0.6841189861297607
keywords[1].display_name	Mathematical proof
keywords[2].id	https://openalex.org/keywords/heuristics
keywords[2].score	0.6444051861763
keywords[2].display_name	Heuristics
keywords[3].id	https://openalex.org/keywords/artificial-intelligence
keywords[3].score	0.6200762391090393
keywords[3].display_name	Artificial intelligence
keywords[4].id	https://openalex.org/keywords/artificial-neural-network
keywords[4].score	0.5622870326042175
keywords[4].display_name	Artificial neural network
keywords[5].id	https://openalex.org/keywords/computer-science
keywords[5].score	0.5566544532775879
keywords[5].display_name	Computer science
keywords[6].id	https://openalex.org/keywords/empirical-risk-minimization
keywords[6].score	0.5188252329826355
keywords[6].display_name	Empirical risk minimization
keywords[7].id	https://openalex.org/keywords/deep-neural-networks
keywords[7].score	0.46547338366508484
keywords[7].display_name	Deep neural networks
keywords[8].id	https://openalex.org/keywords/convergence
keywords[8].score	0.418288916349411
keywords[8].display_name	Convergence (economics)
keywords[9].id	https://openalex.org/keywords/function
keywords[9].score	0.41698095202445984
keywords[9].display_name	Function (biology)
keywords[10].id	https://openalex.org/keywords/algorithm
keywords[10].score	0.4127351939678192
keywords[10].display_name	Algorithm
keywords[11].id	https://openalex.org/keywords/theoretical-computer-science
keywords[11].score	0.33958524465560913
keywords[11].display_name	Theoretical computer science
keywords[12].id	https://openalex.org/keywords/machine-learning
keywords[12].score	0.3274048864841461
keywords[12].display_name	Machine learning
keywords[13].id	https://openalex.org/keywords/mathematics
keywords[13].score	0.3119926154613495
keywords[13].display_name	Mathematics
language	en
locations[0].id	pmh:oai:arXiv.org:2104.14033
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2104.14033
locations[0].version	submittedVersion
locations[0].raw_type
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2104.14033
locations[1].id	doi:10.48550/arxiv.2104.14033
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2104.14033
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5084835559
authorships[0].author.orcid	https://orcid.org/0000-0001-5189-8939
authorships[0].author.display_name	Anirbit Mukherjee
authorships[0].author_position	first
authorships[0].raw_author_name	Mukherjee, Anirbit
authorships[0].is_corresponding	True
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2104.14033
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	A Study of the Mathematics of Deep Learning
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11612
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9657999873161316
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Stochastic Gradient Optimization Techniques
related_works	https://openalex.org/W4394650907, https://openalex.org/W4254119641, https://openalex.org/W4377865163, https://openalex.org/W3193857078, https://openalex.org/W2888956734, https://openalex.org/W3000197790, https://openalex.org/W4315865067, https://openalex.org/W2979433843, https://openalex.org/W3208304128, https://openalex.org/W2785875001
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2104.14033
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2104.14033
best_oa_location.version	submittedVersion
best_oa_location.raw_type
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2104.14033
primary_location.id	pmh:oai:arXiv.org:2104.14033
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2104.14033
primary_location.version	submittedVersion
primary_location.raw_type
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2104.14033
publication_date	2021-04-28
publication_year	2021
referenced_works_count	0
abstract_inverted_index.2	90, 122
abstract_inverted_index.3	146
abstract_inverted_index.4	174
abstract_inverted_index.5	192
abstract_inverted_index.6	247
abstract_inverted_index.a	5, 47, 128, 155, 220, 235
abstract_inverted_index.In	58, 88, 144, 172, 190, 243
abstract_inverted_index.We	125
abstract_inverted_index.an	35, 166, 266
abstract_inverted_index.at	13, 230
abstract_inverted_index.be	46, 52
abstract_inverted_index.by	283
abstract_inverted_index.do	188
abstract_inverted_index.in	26, 110, 158, 162, 165, 276
abstract_inverted_index.is	4, 9
abstract_inverted_index.it	41
abstract_inverted_index.of	16, 23, 38, 65, 86, 130, 132, 140, 183, 198, 205, 226, 258, 273
abstract_inverted_index.on	34, 224
abstract_inverted_index.to	45, 51, 54, 62, 113, 135, 187
abstract_inverted_index.we	73, 91, 147, 175, 193, 248
abstract_inverted_index.and	40, 68, 101, 202, 214, 251
abstract_inverted_index.are	280
abstract_inverted_index.can	153
abstract_inverted_index.few	29
abstract_inverted_index.for	82, 97, 116, 120, 200, 255
abstract_inverted_index.has	31, 42
abstract_inverted_index.net	285
abstract_inverted_index.new	84, 93, 250, 270
abstract_inverted_index.now	10
abstract_inverted_index.out	44, 282
abstract_inverted_index.set	170
abstract_inverted_index.the	14, 27, 63, 138, 149, 159, 181, 195, 206, 227, 244, 256, 274, 284, 287
abstract_inverted_index.up.	171
abstract_inverted_index.ReLU	123, 156
abstract_inverted_index.This	20, 216, 262
abstract_inverted_index.able	53, 186
abstract_inverted_index.also	126, 218, 264
abstract_inverted_index.been	32
abstract_inverted_index.deep	24, 98
abstract_inverted_index.free	169
abstract_inverted_index.gate	157
abstract_inverted_index.give	148, 176, 194, 249
abstract_inverted_index.have	234
abstract_inverted_index.last	28, 245
abstract_inverted_index.lead	112
abstract_inverted_index.over	238
abstract_inverted_index.risk	118, 257
abstract_inverted_index.show	92
abstract_inverted_index.take	74
abstract_inverted_index.that	8, 279
abstract_inverted_index.this	59
abstract_inverted_index.time	164
abstract_inverted_index.turn	111
abstract_inverted_index.used	208
abstract_inverted_index."Deep	0
abstract_inverted_index.ADAM.	215
abstract_inverted_index.Johns	70
abstract_inverted_index.Nets"	3
abstract_inverted_index.about	105
abstract_inverted_index.based	241
abstract_inverted_index.being	185
abstract_inverted_index.depth	121
abstract_inverted_index.exact	114
abstract_inverted_index.first	150
abstract_inverted_index.nets.	124, 261
abstract_inverted_index.paths	275
abstract_inverted_index.prove	102
abstract_inverted_index.space	278
abstract_inverted_index.steps	76
abstract_inverted_index.study	223
abstract_inverted_index.them.	57
abstract_inverted_index.these	83, 106
abstract_inverted_index.train	154
abstract_inverted_index.which	109, 152, 231
abstract_inverted_index.years	30
abstract_inverted_index.Neural	2
abstract_inverted_index.almost	167
abstract_inverted_index.amount	37
abstract_inverted_index.bounds	254
abstract_inverted_index.during	286
abstract_inverted_index.hinged	33
abstract_inverted_index.linear	163
abstract_inverted_index.marvel	7
abstract_inverted_index.modern	232
abstract_inverted_index.neural	99, 133, 142, 260
abstract_inverted_index.proofs	178, 197
abstract_inverted_index.spaces	108
abstract_inverted_index.strong	79
abstract_inverted_index.tasks.	19
abstract_inverted_index.traced	281
abstract_inverted_index.turned	43
abstract_inverted_index.values	229
abstract_inverted_index.weight	277
abstract_inverted_index.widely	207
abstract_inverted_index.Applied	66
abstract_inverted_index.Hopkins	71
abstract_inverted_index.RMSProp	213
abstract_inverted_index.chapter	89, 145, 173, 191, 217, 246, 263
abstract_inverted_index.circuit	94
abstract_inverted_index.explain	56
abstract_inverted_index.measure	129
abstract_inverted_index.serious	48
abstract_inverted_index.setting	161
abstract_inverted_index.several	75
abstract_inverted_index.success	22
abstract_inverted_index.thesis,	60
abstract_inverted_index.towards	77, 179
abstract_inverted_index.adaptive	209
abstract_inverted_index.building	78
abstract_inverted_index.deployed	12
abstract_inverted_index.detailed	221
abstract_inverted_index.dramatic	21
abstract_inverted_index.enormous	36
abstract_inverted_index.function	107
abstract_inverted_index.gradient	210
abstract_inverted_index.improved	252
abstract_inverted_index.includes	219, 265
abstract_inverted_index.learning	25
abstract_inverted_index.methods.	242
abstract_inverted_index.motivate	127
abstract_inverted_index.rigorous	177
abstract_inverted_index.theorems	96, 104
abstract_inverted_index.versions	204
abstract_inverted_index.advantage	237
abstract_inverted_index.algorithm	151
abstract_inverted_index.challenge	50
abstract_inverted_index.classical	239
abstract_inverted_index.empirical	117, 222
abstract_inverted_index.establish	137
abstract_inverted_index.existence	139
abstract_inverted_index.functions	100, 134
abstract_inverted_index.geometric	271
abstract_inverted_index.paradigms	85
abstract_inverted_index.revealing	269
abstract_inverted_index.submitted	61
abstract_inverted_index.training.	288
abstract_inverted_index.Department	64
abstract_inverted_index.University	72
abstract_inverted_index.algorithms	115, 233
abstract_inverted_index.artificial	17
abstract_inverted_index.complexity	95, 131
abstract_inverted_index.explaining	180
abstract_inverted_index.functions.	143
abstract_inverted_index.heuristics	39
abstract_inverted_index.phenomenon	182
abstract_inverted_index.properties	272
abstract_inverted_index.realizable	160
abstract_inverted_index.rigorously	55
abstract_inverted_index.stochastic	201, 259
abstract_inverted_index.Mathematics	67
abstract_inverted_index.Statistics,	69
abstract_inverted_index.algorithms,	212
abstract_inverted_index.convergence	199
abstract_inverted_index.foundations	81
abstract_inverted_index.significant	236
abstract_inverted_index.theoretical	80
abstract_inverted_index.PAC-Bayesian	253
abstract_inverted_index.acceleration	240
abstract_inverted_index.autoencoders	184, 225
abstract_inverted_index.cutting-edge	15
abstract_inverted_index.distribution	168
abstract_inverted_index.experimental	267
abstract_inverted_index.increasingly	11
abstract_inverted_index.intelligence	18
abstract_inverted_index.mathematical	49
abstract_inverted_index.minimization	119
abstract_inverted_index.deep-learning	211
abstract_inverted_index.deterministic	203
abstract_inverted_index.investigation	268
abstract_inverted_index.technological	6
abstract_inverted_index.classification	103
abstract_inverted_index.constructively	136
abstract_inverted_index.deep-learning.	87
abstract_inverted_index.sparse-coding.	189
abstract_inverted_index.Learning"/"Deep	1
abstract_inverted_index.high-complexity	141
abstract_inverted_index.hyper-parameter	228
abstract_inverted_index.first-of-its-kind	196
cited_by_percentile_year
corresponding_author_ids	https://openalex.org/A5084835559
countries_distinct_count	0
institutions_distinct_count	1
citation_normalized_percentile