An information-Theoretic Approach to Semi-supervised Transfer Learning Article Swipe

PDF

Daniel Jakubovitz , David Uliel , Miguel Tréfaut Rodrigues , Raja Giryes ·

YOU? · · 2023 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2306.06731

Transfer learning is a valuable tool in deep learning as it allows propagating information from one "source dataset" to another "target dataset", especially in the case of a small number of training examples in the latter. Yet, discrepancies between the underlying distributions of the source and target data are commonplace and are known to have a substantial impact on algorithm performance. In this work we suggest novel information-theoretic approaches for the analysis of the performance of deep neural networks in the context of transfer learning. We focus on the task of semi-supervised transfer learning, in which unlabeled samples from the target dataset are available during network training on the source dataset. Our theory suggests that one may improve the transferability of a deep neural network by incorporating regularization terms on the target data based on information-theoretic quantities, namely the Mutual Information and the Lautum Information. We demonstrate the effectiveness of the proposed approaches in various semi-supervised transfer learning experiments.

Related Topics

Computer Science

Artificial Intelligence

Concepts

Transfer of learning Computer science Artificial intelligence Machine learning Transferability Deep learning Regularization (linguistics) Artificial neural network Context (archaeology) Labeled data Semi-supervised learning Supervised learning Deep neural networks Logit Biology Paleontology

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2306.06731
PDF: https://arxiv.org/pdf/2306.06731
OA Status: green
Cited By: 1
Related Works: 10
OpenAlex ID: https://openalex.org/W4380558421

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4380558421

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2306.06731

Digital Object Identifier
Title: An information-Theoretic Approach to Semi-supervised Transfer Learning

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2023

Year of publication
Publication date: 2023-06-11

Full publication date if available
Authors: Daniel Jakubovitz, David Uliel, Miguel Tréfaut Rodrigues, Raja Giryes

List of authors in order
Landing page: https://arxiv.org/abs/2306.06731

Publisher landing page
PDF URL: https://arxiv.org/pdf/2306.06731

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2306.06731

Direct OA link when available
Concepts: Transfer of learning, Computer science, Artificial intelligence, Machine learning, Transferability, Deep learning, Regularization (linguistics), Artificial neural network, Context (archaeology), Labeled data, Semi-supervised learning, Supervised learning, Deep neural networks, Logit, Biology, Paleontology

Top concepts (fields/topics) attached by OpenAlex
Cited by: 1

Total citation count in OpenAlex
Citations by year (recent): 2024: 1

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4380558421
doi	https://doi.org/10.48550/arxiv.2306.06731
ids.doi	https://doi.org/10.48550/arxiv.2306.06731
ids.openalex	https://openalex.org/W4380558421
fwci
type	preprint
title	An information-Theoretic Approach to Semi-supervised Transfer Learning
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11307
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9969000220298767
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Domain Adaptation and Few-Shot Learning
topics[1].id	https://openalex.org/T11609
topics[1].field.id	https://openalex.org/fields/22
topics[1].field.display_name	Engineering
topics[1].score	0.9573000073432922
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/2212
topics[1].subfield.display_name	Ocean Engineering
topics[1].display_name	Geophysical Methods and Applications
topics[2].id	https://openalex.org/T10201
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9419000148773193
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1702
topics[2].subfield.display_name	Artificial Intelligence
topics[2].display_name	Speech Recognition and Synthesis
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C150899416
concepts[0].level	2
concepts[0].score	0.8014212846755981
concepts[0].wikidata	https://www.wikidata.org/wiki/Q1820378
concepts[0].display_name	Transfer of learning
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.749965250492096
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C154945302
concepts[2].level	1
concepts[2].score	0.7055720686912537
concepts[2].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[2].display_name	Artificial intelligence
concepts[3].id	https://openalex.org/C119857082
concepts[3].level	1
concepts[3].score	0.6465377807617188
concepts[3].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[3].display_name	Machine learning
concepts[4].id	https://openalex.org/C61272859
concepts[4].level	3
concepts[4].score	0.6011431813240051
concepts[4].wikidata	https://www.wikidata.org/wiki/Q7834031
concepts[4].display_name	Transferability
concepts[5].id	https://openalex.org/C108583219
concepts[5].level	2
concepts[5].score	0.5475245714187622
concepts[5].wikidata	https://www.wikidata.org/wiki/Q197536
concepts[5].display_name	Deep learning
concepts[6].id	https://openalex.org/C2776135515
concepts[6].level	2
concepts[6].score	0.5146032571792603
concepts[6].wikidata	https://www.wikidata.org/wiki/Q17143721
concepts[6].display_name	Regularization (linguistics)
concepts[7].id	https://openalex.org/C50644808
concepts[7].level	2
concepts[7].score	0.5126768350601196
concepts[7].wikidata	https://www.wikidata.org/wiki/Q192776
concepts[7].display_name	Artificial neural network
concepts[8].id	https://openalex.org/C2779343474
concepts[8].level	2
concepts[8].score	0.49796128273010254
concepts[8].wikidata	https://www.wikidata.org/wiki/Q3109175
concepts[8].display_name	Context (archaeology)
concepts[9].id	https://openalex.org/C2776145971
concepts[9].level	2
concepts[9].score	0.45422792434692383
concepts[9].wikidata	https://www.wikidata.org/wiki/Q30673951
concepts[9].display_name	Labeled data
concepts[10].id	https://openalex.org/C58973888
concepts[10].level	2
concepts[10].score	0.45203864574432373
concepts[10].wikidata	https://www.wikidata.org/wiki/Q1041418
concepts[10].display_name	Semi-supervised learning
concepts[11].id	https://openalex.org/C136389625
concepts[11].level	3
concepts[11].score	0.45141178369522095
concepts[11].wikidata	https://www.wikidata.org/wiki/Q334384
concepts[11].display_name	Supervised learning
concepts[12].id	https://openalex.org/C2984842247
concepts[12].level	3
concepts[12].score	0.41903793811798096
concepts[12].wikidata	https://www.wikidata.org/wiki/Q197536
concepts[12].display_name	Deep neural networks
concepts[13].id	https://openalex.org/C140331021
concepts[13].level	2
concepts[13].score	0.0
concepts[13].wikidata	https://www.wikidata.org/wiki/Q1868104
concepts[13].display_name	Logit
concepts[14].id	https://openalex.org/C86803240
concepts[14].level	0
concepts[14].score	0.0
concepts[14].wikidata	https://www.wikidata.org/wiki/Q420
concepts[14].display_name	Biology
concepts[15].id	https://openalex.org/C151730666
concepts[15].level	1
concepts[15].score	0.0
concepts[15].wikidata	https://www.wikidata.org/wiki/Q7205
concepts[15].display_name	Paleontology
keywords[0].id	https://openalex.org/keywords/transfer-of-learning
keywords[0].score	0.8014212846755981
keywords[0].display_name	Transfer of learning
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.749965250492096
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/artificial-intelligence
keywords[2].score	0.7055720686912537
keywords[2].display_name	Artificial intelligence
keywords[3].id	https://openalex.org/keywords/machine-learning
keywords[3].score	0.6465377807617188
keywords[3].display_name	Machine learning
keywords[4].id	https://openalex.org/keywords/transferability
keywords[4].score	0.6011431813240051
keywords[4].display_name	Transferability
keywords[5].id	https://openalex.org/keywords/deep-learning
keywords[5].score	0.5475245714187622
keywords[5].display_name	Deep learning
keywords[6].id	https://openalex.org/keywords/regularization
keywords[6].score	0.5146032571792603
keywords[6].display_name	Regularization (linguistics)
keywords[7].id	https://openalex.org/keywords/artificial-neural-network
keywords[7].score	0.5126768350601196
keywords[7].display_name	Artificial neural network
keywords[8].id	https://openalex.org/keywords/context
keywords[8].score	0.49796128273010254
keywords[8].display_name	Context (archaeology)
keywords[9].id	https://openalex.org/keywords/labeled-data
keywords[9].score	0.45422792434692383
keywords[9].display_name	Labeled data
keywords[10].id	https://openalex.org/keywords/semi-supervised-learning
keywords[10].score	0.45203864574432373
keywords[10].display_name	Semi-supervised learning
keywords[11].id	https://openalex.org/keywords/supervised-learning
keywords[11].score	0.45141178369522095
keywords[11].display_name	Supervised learning
keywords[12].id	https://openalex.org/keywords/deep-neural-networks
keywords[12].score	0.41903793811798096
keywords[12].display_name	Deep neural networks
language	en
locations[0].id	pmh:oai:arXiv.org:2306.06731
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2306.06731
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2306.06731
locations[1].id	doi:10.48550/arxiv.2306.06731
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2306.06731
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5027176174
authorships[0].author.orcid	https://orcid.org/0000-0001-7368-2370
authorships[0].author.display_name	Daniel Jakubovitz
authorships[0].author_position	first
authorships[0].raw_author_name	Jakubovitz, Daniel
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5092160831
authorships[1].author.orcid
authorships[1].author.display_name	David Uliel
authorships[1].author_position	middle
authorships[1].raw_author_name	Uliel, David
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5026028064
authorships[2].author.orcid	https://orcid.org/0000-0003-3958-9919
authorships[2].author.display_name	Miguel Tréfaut Rodrigues
authorships[2].author_position	middle
authorships[2].raw_author_name	Rodrigues, Miguel
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5072571599
authorships[3].author.orcid	https://orcid.org/0000-0002-2830-0297
authorships[3].author.display_name	Raja Giryes
authorships[3].author_position	last
authorships[3].raw_author_name	Giryes, Raja
authorships[3].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2306.06731
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	An information-Theoretic Approach to Semi-supervised Transfer Learning
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11307
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9969000220298767
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Domain Adaptation and Few-Shot Learning
related_works	https://openalex.org/W4312414840, https://openalex.org/W34092691, https://openalex.org/W2794908468, https://openalex.org/W4206276646, https://openalex.org/W2943467239, https://openalex.org/W1571801203, https://openalex.org/W101422005, https://openalex.org/W192740413, https://openalex.org/W3004135598, https://openalex.org/W2952937263
cited_by_count	1
counts_by_year[0].year	2024
counts_by_year[0].cited_by_count	1
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2306.06731
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2306.06731
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2306.06731
primary_location.id	pmh:oai:arXiv.org:2306.06731
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2306.06731
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2306.06731
publication_date	2023-06-11
publication_year	2023
referenced_works_count	0
abstract_inverted_index.a	3, 27, 55, 121
abstract_inverted_index.In	61
abstract_inverted_index.We	85, 145
abstract_inverted_index.as	9
abstract_inverted_index.by	125
abstract_inverted_index.in	6, 23, 33, 79, 94, 153
abstract_inverted_index.is	2
abstract_inverted_index.it	10
abstract_inverted_index.of	26, 30, 42, 72, 75, 82, 90, 120, 149
abstract_inverted_index.on	58, 87, 107, 129, 134
abstract_inverted_index.to	18, 53
abstract_inverted_index.we	64
abstract_inverted_index.Our	111
abstract_inverted_index.and	45, 50, 141
abstract_inverted_index.are	48, 51, 102
abstract_inverted_index.for	69
abstract_inverted_index.may	116
abstract_inverted_index.one	15, 115
abstract_inverted_index.the	24, 34, 39, 43, 70, 73, 80, 88, 99, 108, 118, 130, 138, 142, 147, 150
abstract_inverted_index.Yet,	36
abstract_inverted_index.case	25
abstract_inverted_index.data	47, 132
abstract_inverted_index.deep	7, 76, 122
abstract_inverted_index.from	14, 98
abstract_inverted_index.have	54
abstract_inverted_index.task	89
abstract_inverted_index.that	114
abstract_inverted_index.this	62
abstract_inverted_index.tool	5
abstract_inverted_index.work	63
abstract_inverted_index.based	133
abstract_inverted_index.focus	86
abstract_inverted_index.known	52
abstract_inverted_index.novel	66
abstract_inverted_index.small	28
abstract_inverted_index.terms	128
abstract_inverted_index.which	95
abstract_inverted_index.Lautum	143
abstract_inverted_index.Mutual	139
abstract_inverted_index.allows	11
abstract_inverted_index.during	104
abstract_inverted_index.impact	57
abstract_inverted_index.namely	137
abstract_inverted_index.neural	77, 123
abstract_inverted_index.number	29
abstract_inverted_index.source	44, 109
abstract_inverted_index.target	46, 100, 131
abstract_inverted_index.theory	112
abstract_inverted_index."source	16
abstract_inverted_index."target	20
abstract_inverted_index.another	19
abstract_inverted_index.between	38
abstract_inverted_index.context	81
abstract_inverted_index.dataset	101
abstract_inverted_index.improve	117
abstract_inverted_index.latter.	35
abstract_inverted_index.network	105, 124
abstract_inverted_index.samples	97
abstract_inverted_index.suggest	65
abstract_inverted_index.various	154
abstract_inverted_index.Transfer	0
abstract_inverted_index.analysis	71
abstract_inverted_index.dataset"	17
abstract_inverted_index.dataset.	110
abstract_inverted_index.examples	32
abstract_inverted_index.learning	1, 8, 157
abstract_inverted_index.networks	78
abstract_inverted_index.proposed	151
abstract_inverted_index.suggests	113
abstract_inverted_index.training	31, 106
abstract_inverted_index.transfer	83, 92, 156
abstract_inverted_index.valuable	4
abstract_inverted_index.algorithm	59
abstract_inverted_index.available	103
abstract_inverted_index.dataset",	21
abstract_inverted_index.learning,	93
abstract_inverted_index.learning.	84
abstract_inverted_index.unlabeled	96
abstract_inverted_index.approaches	68, 152
abstract_inverted_index.especially	22
abstract_inverted_index.underlying	40
abstract_inverted_index.Information	140
abstract_inverted_index.commonplace	49
abstract_inverted_index.demonstrate	146
abstract_inverted_index.information	13
abstract_inverted_index.performance	74
abstract_inverted_index.propagating	12
abstract_inverted_index.quantities,	136
abstract_inverted_index.substantial	56
abstract_inverted_index.Information.	144
abstract_inverted_index.experiments.	158
abstract_inverted_index.performance.	60
abstract_inverted_index.discrepancies	37
abstract_inverted_index.distributions	41
abstract_inverted_index.effectiveness	148
abstract_inverted_index.incorporating	126
abstract_inverted_index.regularization	127
abstract_inverted_index.semi-supervised	91, 155
abstract_inverted_index.transferability	119
abstract_inverted_index.information-theoretic	67, 135
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	4
citation_normalized_percentile