Mix-n-Match: Ensemble and Compositional Methods for Uncertainty\n Calibration in Deep Learning Article Swipe

PDF

Jize Zhang , Bhavya Kailkhura , T. Yong-Jin Han ·

YOU? · · 2020 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2003.07329

This paper studies the problem of post-hoc calibration of machine learning\nclassifiers. We introduce the following desiderata for uncertainty calibration:\n(a) accuracy-preserving, (b) data-efficient, and (c) high expressive power. We\nshow that none of the existing methods satisfy all three requirements, and\ndemonstrate how Mix-n-Match calibration strategies (i.e., ensemble and\ncomposition) can help achieve remarkably better data-efficiency and expressive\npower while provably maintaining the classification accuracy of the original\nclassifier. Mix-n-Match strategies are generic in the sense that they can be\nused to improve the performance of any off-the-shelf calibrator. We also reveal\npotential issues in standard evaluation practices. Popular approaches (e.g.,\nhistogram-based expected calibration error (ECE)) may provide misleading\nresults especially in small-data regime. Therefore, we propose an alternative\ndata-efficient kernel density-based estimator for a reliable evaluation of the\ncalibration performance and prove its asymptotically unbiasedness and\nconsistency. Our approaches outperform state-of-the-art solutions on both the\ncalibration as well as the evaluation tasks in most of the experimental\nsettings. Our codes are available at\nhttps://github.com/zhang64-llnl/Mix-n-Match-Calibration.\n

Related Topics

Computer Science

Calibration

Ensemble Learning

Artificial Intelligence

Concepts

Computer science Calibration Estimator Classifier (UML) Consistency (knowledge bases) Ensemble learning Artificial intelligence Machine learning Kernel (algebra) Data mining Algorithm Statistics Mathematics Combinatorics

Metadata

Type: preprint
Landing Page: http://arxiv.org/abs/2003.07329
PDF: https://arxiv.org/pdf/2003.07329
OA Status: green
Cited By: 47
Related Works: 10
OpenAlex ID: https://openalex.org/W3034905393

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W3034905393

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2003.07329

Digital Object Identifier
Title: Mix-n-Match: Ensemble and Compositional Methods for Uncertainty\n Calibration in Deep Learning

Work title
Type: preprint

OpenAlex work type
Publication year: 2020

Year of publication
Publication date: 2020-03-16

Full publication date if available
Authors: Jize Zhang, Bhavya Kailkhura, T. Yong-Jin Han

List of authors in order
Landing page: https://arxiv.org/abs/2003.07329

Publisher landing page
PDF URL: https://arxiv.org/pdf/2003.07329

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2003.07329

Direct OA link when available
Concepts: Computer science, Calibration, Estimator, Classifier (UML), Consistency (knowledge bases), Ensemble learning, Artificial intelligence, Machine learning, Kernel (algebra), Data mining, Algorithm, Statistics, Mathematics, Combinatorics

Top concepts (fields/topics) attached by OpenAlex
Cited by: 47

Total citation count in OpenAlex
Citations by year (recent): 2024: 5, 2023: 8, 2022: 10, 2021: 15, 2020: 9

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W3034905393
doi	https://doi.org/10.48550/arxiv.2003.07329
ids.mag	3034905393
ids.openalex	https://openalex.org/W3034905393
fwci	6.16810104
type	preprint
title	Mix-n-Match: Ensemble and Compositional Methods for Uncertainty\n Calibration in Deep Learning
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11512
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9994000196456909
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Anomaly Detection Techniques and Applications
topics[1].id	https://openalex.org/T11689
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9976999759674072
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Adversarial Robustness in Machine Learning
topics[2].id	https://openalex.org/T12535
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9965000152587891
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1702
topics[2].subfield.display_name	Artificial Intelligence
topics[2].display_name	Machine Learning and Data Classification
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C41008148
concepts[0].level	0
concepts[0].score	0.7500623464584351
concepts[0].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[0].display_name	Computer science
concepts[1].id	https://openalex.org/C165838908
concepts[1].level	2
concepts[1].score	0.7092698812484741
concepts[1].wikidata	https://www.wikidata.org/wiki/Q736777
concepts[1].display_name	Calibration
concepts[2].id	https://openalex.org/C185429906
concepts[2].level	2
concepts[2].score	0.6577190160751343
concepts[2].wikidata	https://www.wikidata.org/wiki/Q1130160
concepts[2].display_name	Estimator
concepts[3].id	https://openalex.org/C95623464
concepts[3].level	2
concepts[3].score	0.6523599624633789
concepts[3].wikidata	https://www.wikidata.org/wiki/Q1096149
concepts[3].display_name	Classifier (UML)
concepts[4].id	https://openalex.org/C2776436953
concepts[4].level	2
concepts[4].score	0.5897754430770874
concepts[4].wikidata	https://www.wikidata.org/wiki/Q5163215
concepts[4].display_name	Consistency (knowledge bases)
concepts[5].id	https://openalex.org/C45942800
concepts[5].level	2
concepts[5].score	0.538857638835907
concepts[5].wikidata	https://www.wikidata.org/wiki/Q245652
concepts[5].display_name	Ensemble learning
concepts[6].id	https://openalex.org/C154945302
concepts[6].level	1
concepts[6].score	0.5321570634841919
concepts[6].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[6].display_name	Artificial intelligence
concepts[7].id	https://openalex.org/C119857082
concepts[7].level	1
concepts[7].score	0.5203644633293152
concepts[7].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[7].display_name	Machine learning
concepts[8].id	https://openalex.org/C74193536
concepts[8].level	2
concepts[8].score	0.5197789072990417
concepts[8].wikidata	https://www.wikidata.org/wiki/Q574844
concepts[8].display_name	Kernel (algebra)
concepts[9].id	https://openalex.org/C124101348
concepts[9].level	1
concepts[9].score	0.3806314766407013
concepts[9].wikidata	https://www.wikidata.org/wiki/Q172491
concepts[9].display_name	Data mining
concepts[10].id	https://openalex.org/C11413529
concepts[10].level	1
concepts[10].score	0.34736132621765137
concepts[10].wikidata	https://www.wikidata.org/wiki/Q8366
concepts[10].display_name	Algorithm
concepts[11].id	https://openalex.org/C105795698
concepts[11].level	1
concepts[11].score	0.17986822128295898
concepts[11].wikidata	https://www.wikidata.org/wiki/Q12483
concepts[11].display_name	Statistics
concepts[12].id	https://openalex.org/C33923547
concepts[12].level	0
concepts[12].score	0.17941215634346008
concepts[12].wikidata	https://www.wikidata.org/wiki/Q395
concepts[12].display_name	Mathematics
concepts[13].id	https://openalex.org/C114614502
concepts[13].level	1
concepts[13].score	0.0
concepts[13].wikidata	https://www.wikidata.org/wiki/Q76592
concepts[13].display_name	Combinatorics
keywords[0].id	https://openalex.org/keywords/computer-science
keywords[0].score	0.7500623464584351
keywords[0].display_name	Computer science
keywords[1].id	https://openalex.org/keywords/calibration
keywords[1].score	0.7092698812484741
keywords[1].display_name	Calibration
keywords[2].id	https://openalex.org/keywords/estimator
keywords[2].score	0.6577190160751343
keywords[2].display_name	Estimator
keywords[3].id	https://openalex.org/keywords/classifier
keywords[3].score	0.6523599624633789
keywords[3].display_name	Classifier (UML)
keywords[4].id	https://openalex.org/keywords/consistency
keywords[4].score	0.5897754430770874
keywords[4].display_name	Consistency (knowledge bases)
keywords[5].id	https://openalex.org/keywords/ensemble-learning
keywords[5].score	0.538857638835907
keywords[5].display_name	Ensemble learning
keywords[6].id	https://openalex.org/keywords/artificial-intelligence
keywords[6].score	0.5321570634841919
keywords[6].display_name	Artificial intelligence
keywords[7].id	https://openalex.org/keywords/machine-learning
keywords[7].score	0.5203644633293152
keywords[7].display_name	Machine learning
keywords[8].id	https://openalex.org/keywords/kernel
keywords[8].score	0.5197789072990417
keywords[8].display_name	Kernel (algebra)
keywords[9].id	https://openalex.org/keywords/data-mining
keywords[9].score	0.3806314766407013
keywords[9].display_name	Data mining
keywords[10].id	https://openalex.org/keywords/algorithm
keywords[10].score	0.34736132621765137
keywords[10].display_name	Algorithm
keywords[11].id	https://openalex.org/keywords/statistics
keywords[11].score	0.17986822128295898
keywords[11].display_name	Statistics
keywords[12].id	https://openalex.org/keywords/mathematics
keywords[12].score	0.17941215634346008
keywords[12].display_name	Mathematics
language
locations[0].id	pmh:oai:arXiv.org:2003.07329
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2003.07329
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2003.07329
indexed_in	arxiv
authorships[0].author.id	https://openalex.org/A5060905917
authorships[0].author.orcid	https://orcid.org/0000-0002-0553-3979
authorships[0].author.display_name	Jize Zhang
authorships[0].author_position	first
authorships[0].raw_author_name	Jize Zhang
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5041470575
authorships[1].author.orcid	https://orcid.org/0000-0002-2819-2919
authorships[1].author.display_name	Bhavya Kailkhura
authorships[1].author_position	middle
authorships[1].raw_author_name	Bhavya Kailkhura
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5067913179
authorships[2].author.orcid	https://orcid.org/0000-0002-3000-2782
authorships[2].author.display_name	T. Yong-Jin Han
authorships[2].author_position	last
authorships[2].raw_author_name	T. Yong-Jin Han
authorships[2].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2003.07329
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2020-06-19T00:00:00
display_name	Mix-n-Match: Ensemble and Compositional Methods for Uncertainty\n Calibration in Deep Learning
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T03:46:38.306776
primary_topic.id	https://openalex.org/T11512
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9994000196456909
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Anomaly Detection Techniques and Applications
related_works	https://openalex.org/W4287880334, https://openalex.org/W4366700029, https://openalex.org/W4285230481, https://openalex.org/W4385769873, https://openalex.org/W2015759683, https://openalex.org/W4281634296, https://openalex.org/W4319161863, https://openalex.org/W2371687270, https://openalex.org/W4307819175, https://openalex.org/W4311888330
cited_by_count	47
counts_by_year[0].year	2024
counts_by_year[0].cited_by_count	5
counts_by_year[1].year	2023
counts_by_year[1].cited_by_count	8
counts_by_year[2].year	2022
counts_by_year[2].cited_by_count	10
counts_by_year[3].year	2021
counts_by_year[3].cited_by_count	15
counts_by_year[4].year	2020
counts_by_year[4].cited_by_count	9
locations_count	1
best_oa_location.id	pmh:oai:arXiv.org:2003.07329
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2003.07329
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2003.07329
primary_location.id	pmh:oai:arXiv.org:2003.07329
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2003.07329
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2003.07329
publication_date	2020-03-16
publication_year	2020
referenced_works_count	0
abstract_inverted_index.a	113
abstract_inverted_index.We	11, 82
abstract_inverted_index.an	107
abstract_inverted_index.as	133, 135
abstract_inverted_index.in	67, 86, 101, 139
abstract_inverted_index.of	5, 8, 30, 60, 78, 116, 141
abstract_inverted_index.on	130
abstract_inverted_index.to	74
abstract_inverted_index.we	105
abstract_inverted_index.(b)	20
abstract_inverted_index.(c)	23
abstract_inverted_index.Our	125, 144
abstract_inverted_index.all	35
abstract_inverted_index.and	22, 52, 119
abstract_inverted_index.any	79
abstract_inverted_index.are	65, 146
abstract_inverted_index.can	46, 72
abstract_inverted_index.for	16, 112
abstract_inverted_index.how	39
abstract_inverted_index.its	121
abstract_inverted_index.may	97
abstract_inverted_index.the	3, 13, 31, 57, 61, 68, 76, 136, 142
abstract_inverted_index.This	0
abstract_inverted_index.also	83
abstract_inverted_index.both	131
abstract_inverted_index.help	47
abstract_inverted_index.high	24
abstract_inverted_index.most	140
abstract_inverted_index.none	29
abstract_inverted_index.that	28, 70
abstract_inverted_index.they	71
abstract_inverted_index.well	134
abstract_inverted_index.codes	145
abstract_inverted_index.error	95
abstract_inverted_index.paper	1
abstract_inverted_index.prove	120
abstract_inverted_index.sense	69
abstract_inverted_index.tasks	138
abstract_inverted_index.three	36
abstract_inverted_index.while	54
abstract_inverted_index.(ECE))	96
abstract_inverted_index.(i.e.,	43
abstract_inverted_index.better	50
abstract_inverted_index.issues	85
abstract_inverted_index.kernel	109
abstract_inverted_index.power.	26
abstract_inverted_index.Popular	90
abstract_inverted_index.achieve	48
abstract_inverted_index.generic	66
abstract_inverted_index.improve	75
abstract_inverted_index.machine	9
abstract_inverted_index.methods	33
abstract_inverted_index.problem	4
abstract_inverted_index.propose	106
abstract_inverted_index.provide	98
abstract_inverted_index.regime.	103
abstract_inverted_index.satisfy	34
abstract_inverted_index.studies	2
abstract_inverted_index.We\nshow	27
abstract_inverted_index.accuracy	59
abstract_inverted_index.be\nused	73
abstract_inverted_index.ensemble	44
abstract_inverted_index.existing	32
abstract_inverted_index.expected	93
abstract_inverted_index.post-hoc	6
abstract_inverted_index.provably	55
abstract_inverted_index.reliable	114
abstract_inverted_index.standard	87
abstract_inverted_index.available	147
abstract_inverted_index.estimator	111
abstract_inverted_index.following	14
abstract_inverted_index.introduce	12
abstract_inverted_index.solutions	129
abstract_inverted_index.Therefore,	104
abstract_inverted_index.approaches	91, 126
abstract_inverted_index.desiderata	15
abstract_inverted_index.especially	100
abstract_inverted_index.evaluation	88, 115, 137
abstract_inverted_index.expressive	25
abstract_inverted_index.outperform	127
abstract_inverted_index.practices.	89
abstract_inverted_index.remarkably	49
abstract_inverted_index.small-data	102
abstract_inverted_index.strategies	42, 64
abstract_inverted_index.Mix-n-Match	40, 63
abstract_inverted_index.calibration	7, 41, 94
abstract_inverted_index.calibrator.	81
abstract_inverted_index.maintaining	56
abstract_inverted_index.performance	77, 118
abstract_inverted_index.uncertainty	17
abstract_inverted_index.unbiasedness	123
abstract_inverted_index.density-based	110
abstract_inverted_index.off-the-shelf	80
abstract_inverted_index.requirements,	37
abstract_inverted_index.asymptotically	122
abstract_inverted_index.classification	58
abstract_inverted_index.data-efficiency	51
abstract_inverted_index.data-efficient,	21
abstract_inverted_index.and\ndemonstrate	38
abstract_inverted_index.state-of-the-art	128
abstract_inverted_index.the\ncalibration	117, 132
abstract_inverted_index.and\ncomposition)	45
abstract_inverted_index.and\nconsistency.	124
abstract_inverted_index.calibration:\n(a)	18
abstract_inverted_index.expressive\npower	53
abstract_inverted_index.reveal\npotential	84
abstract_inverted_index.misleading\nresults	99
abstract_inverted_index.accuracy-preserving,	19
abstract_inverted_index.original\nclassifier.	62
abstract_inverted_index.learning\nclassifiers.	10
abstract_inverted_index.(e.g.,\nhistogram-based	92
abstract_inverted_index.experimental\nsettings.	143
abstract_inverted_index.alternative\ndata-efficient	108
abstract_inverted_index.at\nhttps://github.com/zhang64-llnl/Mix-n-Match-Calibration.\n	148
cited_by_percentile_year.max	99
cited_by_percentile_year.min	98
countries_distinct_count	0
institutions_distinct_count	3
citation_normalized_percentile.value	0.96722072
citation_normalized_percentile.is_in_top_1_percent	False
citation_normalized_percentile.is_in_top_10_percent	True