Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift Article Swipe

View

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.57702/o9raffed

Training Deep Neural Networks is complicated by the fact that the distribution of each layer's inputs changes during training, as the parameters of the previous layers change. This slows down the training by requiring lower learning rates and careful parameter initialization, and makes it notoriously hard to train models with saturating nonlinearities. We refer to this phenomenon as internal covariate shift, and address the problem by normalizing layer inputs. Our method draws its strength from making normalization a part of the model architecture and performing the normalization for each training mini-batch. Batch Normalization allows us to use much higher learning rates and be less careful about initialization. It also acts as a regularizer, in some cases eliminating the need for Dropout. Applied to a state-of-the-art image classification model, Batch Normalization achieves the same accuracy with 14 times fewer training steps, and beats the original model by a significant margin. Using an ensemble of batch-normalized networks, we improve upon the best published result on ImageNet classification: reaching 4.9% top-5 validation error (and 4.8% test error), exceeding the accuracy of human raters.

Related Topics

Computer Science

Artificial Intelligence

Deep Learning

Training, Validation, And Test Data Sets

Concepts

Normalization (sociology) Initialization Computer science Artificial intelligence Margin (machine learning) Artificial neural network Covariate Training (meteorology) Deep neural networks Word error rate Deep learning Training set Machine learning Pattern recognition (psychology) Sociology Meteorology Anthropology Programming language Physics

Metadata

Type: preprint
Language: en
Landing Page: http://export.arxiv.org/pdf/1502.03167
OA Status: green
Cited By: 15635
References: 16
Related Works: 20
OpenAlex ID: https://openalex.org/W2949117887

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W2949117887

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.57702/o9raffed

Digital Object Identifier
Title: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-01-01

Full publication date if available
Authors: Sergey Ioffe, Christian Szegedy

List of authors in order
Landing page: https://export.arxiv.org/pdf/1502.03167

Publisher landing page
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://export.arxiv.org/pdf/1502.03167

Direct OA link when available
Concepts: Normalization (sociology), Initialization, Computer science, Artificial intelligence, Margin (machine learning), Artificial neural network, Covariate, Training (meteorology), Deep neural networks, Word error rate, Deep learning, Training set, Machine learning, Pattern recognition (psychology), Sociology, Meteorology, Anthropology, Programming language, Physics

Top concepts (fields/topics) attached by OpenAlex
Cited by: 15635

Total citation count in OpenAlex
Citations by year (recent): 2025: 3, 2024: 8, 2023: 20, 2022: 129, 2021: 3260

Per-year citation counts (last 5 years)
References (count): 16

Number of works referenced by this work
Related works (count): 20

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W2949117887
doi	https://doi.org/10.57702/o9raffed
ids.doi	https://doi.org/10.57702/o9raffed
ids.mag	2949117887
ids.openalex	https://openalex.org/W2949117887
fwci
type	preprint
title	Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11307
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9997000098228455
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Domain Adaptation and Few-Shot Learning
topics[1].id	https://openalex.org/T10775
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9986000061035156
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1707
topics[1].subfield.display_name	Computer Vision and Pattern Recognition
topics[1].display_name	Generative Adversarial Networks and Image Synthesis
topics[2].id	https://openalex.org/T10036
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9980000257492065
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1707
topics[2].subfield.display_name	Computer Vision and Pattern Recognition
topics[2].display_name	Advanced Neural Network Applications
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C136886441
concepts[0].level	2
concepts[0].score	0.932510495185852
concepts[0].wikidata	https://www.wikidata.org/wiki/Q926129
concepts[0].display_name	Normalization (sociology)
concepts[1].id	https://openalex.org/C114466953
concepts[1].level	2
concepts[1].score	0.918904185295105
concepts[1].wikidata	https://www.wikidata.org/wiki/Q6034165
concepts[1].display_name	Initialization
concepts[2].id	https://openalex.org/C41008148
concepts[2].level	0
concepts[2].score	0.7289332151412964
concepts[2].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[2].display_name	Computer science
concepts[3].id	https://openalex.org/C154945302
concepts[3].level	1
concepts[3].score	0.5829833149909973
concepts[3].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[3].display_name	Artificial intelligence
concepts[4].id	https://openalex.org/C774472
concepts[4].level	2
concepts[4].score	0.5587779879570007
concepts[4].wikidata	https://www.wikidata.org/wiki/Q6760393
concepts[4].display_name	Margin (machine learning)
concepts[5].id	https://openalex.org/C50644808
concepts[5].level	2
concepts[5].score	0.5362868309020996
concepts[5].wikidata	https://www.wikidata.org/wiki/Q192776
concepts[5].display_name	Artificial neural network
concepts[6].id	https://openalex.org/C119043178
concepts[6].level	2
concepts[6].score	0.5331700444221497
concepts[6].wikidata	https://www.wikidata.org/wiki/Q320723
concepts[6].display_name	Covariate
concepts[7].id	https://openalex.org/C2777211547
concepts[7].level	2
concepts[7].score	0.5086577534675598
concepts[7].wikidata	https://www.wikidata.org/wiki/Q17141490
concepts[7].display_name	Training (meteorology)
concepts[8].id	https://openalex.org/C2984842247
concepts[8].level	3
concepts[8].score	0.506550669670105
concepts[8].wikidata	https://www.wikidata.org/wiki/Q197536
concepts[8].display_name	Deep neural networks
concepts[9].id	https://openalex.org/C40969351
concepts[9].level	2
concepts[9].score	0.47505757212638855
concepts[9].wikidata	https://www.wikidata.org/wiki/Q3516228
concepts[9].display_name	Word error rate
concepts[10].id	https://openalex.org/C108583219
concepts[10].level	2
concepts[10].score	0.45266589522361755
concepts[10].wikidata	https://www.wikidata.org/wiki/Q197536
concepts[10].display_name	Deep learning
concepts[11].id	https://openalex.org/C51632099
concepts[11].level	2
concepts[11].score	0.4503152370452881
concepts[11].wikidata	https://www.wikidata.org/wiki/Q3985153
concepts[11].display_name	Training set
concepts[12].id	https://openalex.org/C119857082
concepts[12].level	1
concepts[12].score	0.4181462228298187
concepts[12].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[12].display_name	Machine learning
concepts[13].id	https://openalex.org/C153180895
concepts[13].level	2
concepts[13].score	0.37772560119628906
concepts[13].wikidata	https://www.wikidata.org/wiki/Q7148389
concepts[13].display_name	Pattern recognition (psychology)
concepts[14].id	https://openalex.org/C144024400
concepts[14].level	0
concepts[14].score	0.0
concepts[14].wikidata	https://www.wikidata.org/wiki/Q21201
concepts[14].display_name	Sociology
concepts[15].id	https://openalex.org/C153294291
concepts[15].level	1
concepts[15].score	0.0
concepts[15].wikidata	https://www.wikidata.org/wiki/Q25261
concepts[15].display_name	Meteorology
concepts[16].id	https://openalex.org/C19165224
concepts[16].level	1
concepts[16].score	0.0
concepts[16].wikidata	https://www.wikidata.org/wiki/Q23404
concepts[16].display_name	Anthropology
concepts[17].id	https://openalex.org/C199360897
concepts[17].level	1
concepts[17].score	0.0
concepts[17].wikidata	https://www.wikidata.org/wiki/Q9143
concepts[17].display_name	Programming language
concepts[18].id	https://openalex.org/C121332964
concepts[18].level	0
concepts[18].score	0.0
concepts[18].wikidata	https://www.wikidata.org/wiki/Q413
concepts[18].display_name	Physics
keywords[0].id	https://openalex.org/keywords/normalization
keywords[0].score	0.932510495185852
keywords[0].display_name	Normalization (sociology)
keywords[1].id	https://openalex.org/keywords/initialization
keywords[1].score	0.918904185295105
keywords[1].display_name	Initialization
keywords[2].id	https://openalex.org/keywords/computer-science
keywords[2].score	0.7289332151412964
keywords[2].display_name	Computer science
keywords[3].id	https://openalex.org/keywords/artificial-intelligence
keywords[3].score	0.5829833149909973
keywords[3].display_name	Artificial intelligence
keywords[4].id	https://openalex.org/keywords/margin
keywords[4].score	0.5587779879570007
keywords[4].display_name	Margin (machine learning)
keywords[5].id	https://openalex.org/keywords/artificial-neural-network
keywords[5].score	0.5362868309020996
keywords[5].display_name	Artificial neural network
keywords[6].id	https://openalex.org/keywords/covariate
keywords[6].score	0.5331700444221497
keywords[6].display_name	Covariate
keywords[7].id	https://openalex.org/keywords/training
keywords[7].score	0.5086577534675598
keywords[7].display_name	Training (meteorology)
keywords[8].id	https://openalex.org/keywords/deep-neural-networks
keywords[8].score	0.506550669670105
keywords[8].display_name	Deep neural networks
keywords[9].id	https://openalex.org/keywords/word-error-rate
keywords[9].score	0.47505757212638855
keywords[9].display_name	Word error rate
keywords[10].id	https://openalex.org/keywords/deep-learning
keywords[10].score	0.45266589522361755
keywords[10].display_name	Deep learning
keywords[11].id	https://openalex.org/keywords/training-set
keywords[11].score	0.4503152370452881
keywords[11].display_name	Training set
keywords[12].id	https://openalex.org/keywords/machine-learning
keywords[12].score	0.4181462228298187
keywords[12].display_name	Machine learning
keywords[13].id	https://openalex.org/keywords/pattern-recognition
keywords[13].score	0.37772560119628906
keywords[13].display_name	Pattern recognition (psychology)
language	en
locations[0].id	mag:2949117887
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url
locations[0].version	submittedVersion
locations[0].raw_type
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name	arXiv (Cornell University)
locations[0].landing_page_url	http://export.arxiv.org/pdf/1502.03167
locations[1].id	doi:10.57702/o9raffed
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S7407053387
locations[1].source.type	repository
locations[1].source.is_oa	False
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	TIB Data Manager
locations[1].source.host_organization
locations[1].source.host_organization_name
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	dataset
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.57702/o9raffed
indexed_in	datacite
authorships[0].author.id	https://openalex.org/A5032800189
authorships[0].author.orcid
authorships[0].author.display_name	Sergey Ioffe
authorships[0].countries	US
authorships[0].affiliations[0].institution_ids	https://openalex.org/I1291425158
authorships[0].affiliations[0].raw_affiliation_string	Google, 1600 Amphitheatre Pkwy, Mountain View, CA 94043
authorships[0].institutions[0].id	https://openalex.org/I1291425158
authorships[0].institutions[0].ror	https://ror.org/00njsd438
authorships[0].institutions[0].type	company
authorships[0].institutions[0].lineage	https://openalex.org/I1291425158, https://openalex.org/I4210128969
authorships[0].institutions[0].country_code	US
authorships[0].institutions[0].display_name	Google (United States)
authorships[0].author_position	first
authorships[0].raw_author_name	Sergey Ioffe
authorships[0].is_corresponding	False
authorships[0].raw_affiliation_strings	Google, 1600 Amphitheatre Pkwy, Mountain View, CA 94043
authorships[1].author.id	https://openalex.org/A5002183320
authorships[1].author.orcid	https://orcid.org/0000-0003-4295-1851
authorships[1].author.display_name	Christian Szegedy
authorships[1].countries	US
authorships[1].affiliations[0].institution_ids	https://openalex.org/I1291425158
authorships[1].affiliations[0].raw_affiliation_string	Google, 1600 Amphitheatre Pkwy, Mountain View, CA 94043
authorships[1].institutions[0].id	https://openalex.org/I1291425158
authorships[1].institutions[0].ror	https://ror.org/00njsd438
authorships[1].institutions[0].type	company
authorships[1].institutions[0].lineage	https://openalex.org/I1291425158, https://openalex.org/I4210128969
authorships[1].institutions[0].country_code	US
authorships[1].institutions[0].display_name	Google (United States)
authorships[1].author_position	last
authorships[1].raw_author_name	Christian Szegedy
authorships[1].is_corresponding	False
authorships[1].raw_affiliation_strings	Google, 1600 Amphitheatre Pkwy, Mountain View, CA 94043
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	http://export.arxiv.org/pdf/1502.03167
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11307
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9997000098228455
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Domain Adaptation and Few-Shot Learning
related_works	https://openalex.org/W3118608800, https://openalex.org/W2964121744, https://openalex.org/W2963446712, https://openalex.org/W2919115771, https://openalex.org/W2194775991, https://openalex.org/W2183341477, https://openalex.org/W2163605009, https://openalex.org/W2117539524, https://openalex.org/W2112796928, https://openalex.org/W2108598243, https://openalex.org/W2099471712, https://openalex.org/W2097117768, https://openalex.org/W2095705004, https://openalex.org/W2064675550, https://openalex.org/W1903029394, https://openalex.org/W1901129140, https://openalex.org/W1686810756, https://openalex.org/W1677182931, https://openalex.org/W1665214252, https://openalex.org/W1533861849
cited_by_count	15635
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	3
counts_by_year[1].year	2024
counts_by_year[1].cited_by_count	8
counts_by_year[2].year	2023
counts_by_year[2].cited_by_count	20
counts_by_year[3].year	2022
counts_by_year[3].cited_by_count	129
counts_by_year[4].year	2021
counts_by_year[4].cited_by_count	3260
counts_by_year[5].year	2020
counts_by_year[5].cited_by_count	3906
counts_by_year[6].year	2019
counts_by_year[6].cited_by_count	3538
counts_by_year[7].year	2018
counts_by_year[7].cited_by_count	2482
counts_by_year[8].year	2017
counts_by_year[8].cited_by_count	1547
counts_by_year[9].year	2016
counts_by_year[9].cited_by_count	607
counts_by_year[10].year	2015
counts_by_year[10].cited_by_count	128
counts_by_year[11].year	2014
counts_by_year[11].cited_by_count	7
locations_count	2
best_oa_location.id	mag:2949117887
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url
best_oa_location.version	submittedVersion
best_oa_location.raw_type
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name	arXiv (Cornell University)
best_oa_location.landing_page_url	http://export.arxiv.org/pdf/1502.03167
primary_location.id	mag:2949117887
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url
primary_location.version	submittedVersion
primary_location.raw_type
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name	arXiv (Cornell University)
primary_location.landing_page_url	http://export.arxiv.org/pdf/1502.03167
publication_date	2024-01-01
publication_year	2024
referenced_works	https://openalex.org/W2127230474, https://openalex.org/W104184427, https://openalex.org/W2019866374, https://openalex.org/W2084894614, https://openalex.org/W2123649031, https://openalex.org/W2152424459, https://openalex.org/W2168231600, https://openalex.org/W2146502635, https://openalex.org/W2952020226, https://openalex.org/W2034368206, https://openalex.org/W1762484328, https://openalex.org/W2125930537, https://openalex.org/W2095705004, https://openalex.org/W2950179405, https://openalex.org/W1677182931, https://openalex.org/W2112796928
referenced_works_count	16
abstract_inverted_index.a	77, 111, 123, 146
abstract_inverted_index.14	135
abstract_inverted_index.It	107
abstract_inverted_index.We	52
abstract_inverted_index.an	150
abstract_inverted_index.as	19, 57, 110
abstract_inverted_index.be	102
abstract_inverted_index.by	6, 32, 65, 145
abstract_inverted_index.in	113
abstract_inverted_index.is	4
abstract_inverted_index.it	43
abstract_inverted_index.of	12, 22, 79, 152, 177
abstract_inverted_index.on	162
abstract_inverted_index.to	46, 54, 95, 122
abstract_inverted_index.us	94
abstract_inverted_index.we	155
abstract_inverted_index.Our	69
abstract_inverted_index.and	37, 41, 61, 83, 101, 140
abstract_inverted_index.for	87, 119
abstract_inverted_index.its	72
abstract_inverted_index.the	7, 10, 20, 23, 30, 63, 80, 85, 117, 131, 142, 158, 175
abstract_inverted_index.use	96
abstract_inverted_index.(and	170
abstract_inverted_index.4.8%	171
abstract_inverted_index.4.9%	166
abstract_inverted_index.Deep	1
abstract_inverted_index.This	27
abstract_inverted_index.acts	109
abstract_inverted_index.also	108
abstract_inverted_index.best	159
abstract_inverted_index.down	29
abstract_inverted_index.each	13, 88
abstract_inverted_index.fact	8
abstract_inverted_index.from	74
abstract_inverted_index.hard	45
abstract_inverted_index.less	103
abstract_inverted_index.much	97
abstract_inverted_index.need	118
abstract_inverted_index.part	78
abstract_inverted_index.same	132
abstract_inverted_index.some	114
abstract_inverted_index.test	172
abstract_inverted_index.that	9
abstract_inverted_index.this	55
abstract_inverted_index.upon	157
abstract_inverted_index.with	49, 134
abstract_inverted_index.Batch	91, 128
abstract_inverted_index.Using	149
abstract_inverted_index.about	105
abstract_inverted_index.beats	141
abstract_inverted_index.cases	115
abstract_inverted_index.draws	71
abstract_inverted_index.error	169
abstract_inverted_index.fewer	137
abstract_inverted_index.human	178
abstract_inverted_index.image	125
abstract_inverted_index.layer	67
abstract_inverted_index.lower	34
abstract_inverted_index.makes	42
abstract_inverted_index.model	81, 144
abstract_inverted_index.rates	36, 100
abstract_inverted_index.refer	53
abstract_inverted_index.slows	28
abstract_inverted_index.times	136
abstract_inverted_index.top-5	167
abstract_inverted_index.train	47
abstract_inverted_index.Neural	2
abstract_inverted_index.allows	93
abstract_inverted_index.during	17
abstract_inverted_index.higher	98
abstract_inverted_index.inputs	15
abstract_inverted_index.layers	25
abstract_inverted_index.making	75
abstract_inverted_index.method	70
abstract_inverted_index.model,	127
abstract_inverted_index.models	48
abstract_inverted_index.result	161
abstract_inverted_index.shift,	60
abstract_inverted_index.steps,	139
abstract_inverted_index.Applied	121
abstract_inverted_index.address	62
abstract_inverted_index.careful	38, 104
abstract_inverted_index.change.	26
abstract_inverted_index.changes	16
abstract_inverted_index.error),	173
abstract_inverted_index.improve	156
abstract_inverted_index.inputs.	68
abstract_inverted_index.layer's	14
abstract_inverted_index.margin.	148
abstract_inverted_index.problem	64
abstract_inverted_index.raters.	179
abstract_inverted_index.Dropout.	120
abstract_inverted_index.ImageNet	163
abstract_inverted_index.Networks	3
abstract_inverted_index.Training	0
abstract_inverted_index.accuracy	133, 176
abstract_inverted_index.achieves	130
abstract_inverted_index.ensemble	151
abstract_inverted_index.internal	58
abstract_inverted_index.learning	35, 99
abstract_inverted_index.original	143
abstract_inverted_index.previous	24
abstract_inverted_index.reaching	165
abstract_inverted_index.strength	73
abstract_inverted_index.training	31, 89, 138
abstract_inverted_index.covariate	59
abstract_inverted_index.exceeding	174
abstract_inverted_index.networks,	154
abstract_inverted_index.parameter	39
abstract_inverted_index.published	160
abstract_inverted_index.requiring	33
abstract_inverted_index.training,	18
abstract_inverted_index.parameters	21
abstract_inverted_index.performing	84
abstract_inverted_index.phenomenon	56
abstract_inverted_index.saturating	50
abstract_inverted_index.validation	168
abstract_inverted_index.complicated	5
abstract_inverted_index.eliminating	116
abstract_inverted_index.mini-batch.	90
abstract_inverted_index.normalizing	66
abstract_inverted_index.notoriously	44
abstract_inverted_index.significant	147
abstract_inverted_index.architecture	82
abstract_inverted_index.distribution	11
abstract_inverted_index.regularizer,	112
abstract_inverted_index.Normalization	92, 129
abstract_inverted_index.normalization	76, 86
abstract_inverted_index.classification	126
abstract_inverted_index.classification:	164
abstract_inverted_index.initialization,	40
abstract_inverted_index.initialization.	106
abstract_inverted_index.nonlinearities.	51
abstract_inverted_index.batch-normalized	153
abstract_inverted_index.state-of-the-art	124
cited_by_percentile_year
countries_distinct_count	1
institutions_distinct_count	2
sustainable_development_goals[0].id	https://metadata.un.org/sdg/4
sustainable_development_goals[0].score	0.699999988079071
sustainable_development_goals[0].display_name	Quality Education
citation_normalized_percentile