SILC: Improving Vision Language Pretraining with Self-Distillation Article Swipe

PDF

Muhammad Ferjad Naeem , Yongqin Xian , Xiaohua Zhai , Lukas Hoyer , Luc Van Gool , Federico Tombari ·

YOU? · · 2023 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2310.13355

Image-Text pretraining on web-scale image caption datasets has become the default recipe for open vocabulary classification and retrieval models thanks to the success of CLIP and its variants. Several works have also used CLIP features for dense prediction tasks and have shown the emergence of open-set abilities. However, the contrastive objective used by these models only focuses on image-text alignment and does not incentivise image feature learning for dense prediction tasks. In this work, we introduce SILC, a novel framework for vision language pretraining. SILC improves image-text contrastive learning with the simple addition of local-to-global correspondence learning by self-distillation. We show that distilling local image features from an exponential moving average (EMA) teacher model significantly improves model performance on dense predictions tasks like detection and segmentation, while also providing improvements on image-level tasks such as classification and retrieval. SILC models sets a new state of the art for zero-shot classification, few shot classification, image and text retrieval, zero-shot segmentation, and open vocabulary segmentation. We further show that SILC features greatly benefit open vocabulary detection, captioning and visual question answering.

Related Topics

Computer Science

Artificial Intelligence

Concepts

Closed captioning Computer science Artificial intelligence Vocabulary Feature (linguistics) Image (mathematics) Segmentation Set (abstract data type) Language model Contextual image classification Matching (statistics) Feature extraction Natural language processing Pattern recognition (psychology) Machine learning Mathematics Statistics Programming language Philosophy Linguistics

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2310.13355
PDF: https://arxiv.org/pdf/2310.13355
OA Status: green
Cited By: 1
Related Works: 10
OpenAlex ID: https://openalex.org/W4387891890

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4387891890

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2310.13355

Digital Object Identifier
Title: SILC: Improving Vision Language Pretraining with Self-Distillation

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2023

Year of publication
Publication date: 2023-10-20

Full publication date if available
Authors: Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari

List of authors in order
Landing page: https://arxiv.org/abs/2310.13355

Publisher landing page
PDF URL: https://arxiv.org/pdf/2310.13355

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2310.13355

Direct OA link when available
Concepts: Closed captioning, Computer science, Artificial intelligence, Vocabulary, Feature (linguistics), Image (mathematics), Segmentation, Set (abstract data type), Language model, Contextual image classification, Matching (statistics), Feature extraction, Natural language processing, Pattern recognition (psychology), Machine learning, Mathematics, Statistics, Programming language, Philosophy, Linguistics

Top concepts (fields/topics) attached by OpenAlex
Cited by: 1

Total citation count in OpenAlex
Citations by year (recent): 2025: 1

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4387891890
doi	https://doi.org/10.48550/arxiv.2310.13355
ids.doi	https://doi.org/10.48550/arxiv.2310.13355
ids.openalex	https://openalex.org/W4387891890
fwci
type	preprint
title	SILC: Improving Vision Language Pretraining with Self-Distillation
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11714
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9995999932289124
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1707
topics[0].subfield.display_name	Computer Vision and Pattern Recognition
topics[0].display_name	Multimodal Machine Learning Applications
topics[1].id	https://openalex.org/T11307
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9697999954223633
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Domain Adaptation and Few-Shot Learning
topics[2].id	https://openalex.org/T10028
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9506999850273132
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1702
topics[2].subfield.display_name	Artificial Intelligence
topics[2].display_name	Topic Modeling
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C157657479
concepts[0].level	3
concepts[0].score	0.7909376621246338
concepts[0].wikidata	https://www.wikidata.org/wiki/Q2367247
concepts[0].display_name	Closed captioning
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.7837022542953491
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C154945302
concepts[2].level	1
concepts[2].score	0.6636314392089844
concepts[2].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[2].display_name	Artificial intelligence
concepts[3].id	https://openalex.org/C2777601683
concepts[3].level	2
concepts[3].score	0.5965683460235596
concepts[3].wikidata	https://www.wikidata.org/wiki/Q6499736
concepts[3].display_name	Vocabulary
concepts[4].id	https://openalex.org/C2776401178
concepts[4].level	2
concepts[4].score	0.5762534737586975
concepts[4].wikidata	https://www.wikidata.org/wiki/Q12050496
concepts[4].display_name	Feature (linguistics)
concepts[5].id	https://openalex.org/C115961682
concepts[5].level	2
concepts[5].score	0.5729260444641113
concepts[5].wikidata	https://www.wikidata.org/wiki/Q860623
concepts[5].display_name	Image (mathematics)
concepts[6].id	https://openalex.org/C89600930
concepts[6].level	2
concepts[6].score	0.5713436603546143
concepts[6].wikidata	https://www.wikidata.org/wiki/Q1423946
concepts[6].display_name	Segmentation
concepts[7].id	https://openalex.org/C177264268
concepts[7].level	2
concepts[7].score	0.4948970675468445
concepts[7].wikidata	https://www.wikidata.org/wiki/Q1514741
concepts[7].display_name	Set (abstract data type)
concepts[8].id	https://openalex.org/C137293760
concepts[8].level	2
concepts[8].score	0.48018231987953186
concepts[8].wikidata	https://www.wikidata.org/wiki/Q3621696
concepts[8].display_name	Language model
concepts[9].id	https://openalex.org/C75294576
concepts[9].level	3
concepts[9].score	0.4472009539604187
concepts[9].wikidata	https://www.wikidata.org/wiki/Q5165192
concepts[9].display_name	Contextual image classification
concepts[10].id	https://openalex.org/C165064840
concepts[10].level	2
concepts[10].score	0.442632257938385
concepts[10].wikidata	https://www.wikidata.org/wiki/Q1321061
concepts[10].display_name	Matching (statistics)
concepts[11].id	https://openalex.org/C52622490
concepts[11].level	2
concepts[11].score	0.41427159309387207
concepts[11].wikidata	https://www.wikidata.org/wiki/Q1026626
concepts[11].display_name	Feature extraction
concepts[12].id	https://openalex.org/C204321447
concepts[12].level	1
concepts[12].score	0.40512463450431824
concepts[12].wikidata	https://www.wikidata.org/wiki/Q30642
concepts[12].display_name	Natural language processing
concepts[13].id	https://openalex.org/C153180895
concepts[13].level	2
concepts[13].score	0.4024888873100281
concepts[13].wikidata	https://www.wikidata.org/wiki/Q7148389
concepts[13].display_name	Pattern recognition (psychology)
concepts[14].id	https://openalex.org/C119857082
concepts[14].level	1
concepts[14].score	0.36771607398986816
concepts[14].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[14].display_name	Machine learning
concepts[15].id	https://openalex.org/C33923547
concepts[15].level	0
concepts[15].score	0.10324326157569885
concepts[15].wikidata	https://www.wikidata.org/wiki/Q395
concepts[15].display_name	Mathematics
concepts[16].id	https://openalex.org/C105795698
concepts[16].level	1
concepts[16].score	0.0
concepts[16].wikidata	https://www.wikidata.org/wiki/Q12483
concepts[16].display_name	Statistics
concepts[17].id	https://openalex.org/C199360897
concepts[17].level	1
concepts[17].score	0.0
concepts[17].wikidata	https://www.wikidata.org/wiki/Q9143
concepts[17].display_name	Programming language
concepts[18].id	https://openalex.org/C138885662
concepts[18].level	0
concepts[18].score	0.0
concepts[18].wikidata	https://www.wikidata.org/wiki/Q5891
concepts[18].display_name	Philosophy
concepts[19].id	https://openalex.org/C41895202
concepts[19].level	1
concepts[19].score	0.0
concepts[19].wikidata	https://www.wikidata.org/wiki/Q8162
concepts[19].display_name	Linguistics
keywords[0].id	https://openalex.org/keywords/closed-captioning
keywords[0].score	0.7909376621246338
keywords[0].display_name	Closed captioning
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.7837022542953491
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/artificial-intelligence
keywords[2].score	0.6636314392089844
keywords[2].display_name	Artificial intelligence
keywords[3].id	https://openalex.org/keywords/vocabulary
keywords[3].score	0.5965683460235596
keywords[3].display_name	Vocabulary
keywords[4].id	https://openalex.org/keywords/feature
keywords[4].score	0.5762534737586975
keywords[4].display_name	Feature (linguistics)
keywords[5].id	https://openalex.org/keywords/image
keywords[5].score	0.5729260444641113
keywords[5].display_name	Image (mathematics)
keywords[6].id	https://openalex.org/keywords/segmentation
keywords[6].score	0.5713436603546143
keywords[6].display_name	Segmentation
keywords[7].id	https://openalex.org/keywords/set
keywords[7].score	0.4948970675468445
keywords[7].display_name	Set (abstract data type)
keywords[8].id	https://openalex.org/keywords/language-model
keywords[8].score	0.48018231987953186
keywords[8].display_name	Language model
keywords[9].id	https://openalex.org/keywords/contextual-image-classification
keywords[9].score	0.4472009539604187
keywords[9].display_name	Contextual image classification
keywords[10].id	https://openalex.org/keywords/matching
keywords[10].score	0.442632257938385
keywords[10].display_name	Matching (statistics)
keywords[11].id	https://openalex.org/keywords/feature-extraction
keywords[11].score	0.41427159309387207
keywords[11].display_name	Feature extraction
keywords[12].id	https://openalex.org/keywords/natural-language-processing
keywords[12].score	0.40512463450431824
keywords[12].display_name	Natural language processing
keywords[13].id	https://openalex.org/keywords/pattern-recognition
keywords[13].score	0.4024888873100281
keywords[13].display_name	Pattern recognition (psychology)
keywords[14].id	https://openalex.org/keywords/machine-learning
keywords[14].score	0.36771607398986816
keywords[14].display_name	Machine learning
keywords[15].id	https://openalex.org/keywords/mathematics
keywords[15].score	0.10324326157569885
keywords[15].display_name	Mathematics
language	en
locations[0].id	pmh:oai:arXiv.org:2310.13355
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2310.13355
locations[0].version	submittedVersion
locations[0].raw_type
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2310.13355
locations[1].id	doi:10.48550/arxiv.2310.13355
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2310.13355
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5103091877
authorships[0].author.orcid	https://orcid.org/0000-0001-7455-7280
authorships[0].author.display_name	Muhammad Ferjad Naeem
authorships[0].author_position	first
authorships[0].raw_author_name	Naeem, Muhammad Ferjad
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5012209802
authorships[1].author.orcid	https://orcid.org/0000-0001-7186-1295
authorships[1].author.display_name	Yongqin Xian
authorships[1].author_position	middle
authorships[1].raw_author_name	Xian, Yongqin
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5071668416
authorships[2].author.orcid
authorships[2].author.display_name	Xiaohua Zhai
authorships[2].author_position	middle
authorships[2].raw_author_name	Zhai, Xiaohua
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5053328232
authorships[3].author.orcid	https://orcid.org/0000-0002-7391-0676
authorships[3].author.display_name	Lukas Hoyer
authorships[3].author_position	middle
authorships[3].raw_author_name	Hoyer, Lukas
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5001254143
authorships[4].author.orcid	https://orcid.org/0000-0002-3445-5711
authorships[4].author.display_name	Luc Van Gool
authorships[4].author_position	middle
authorships[4].raw_author_name	Van Gool, Luc
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5041092666
authorships[5].author.orcid	https://orcid.org/0000-0001-5598-5212
authorships[5].author.display_name	Federico Tombari
authorships[5].author_position	last
authorships[5].raw_author_name	Tombari, Federico
authorships[5].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2310.13355
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	SILC: Improving Vision Language Pretraining with Self-Distillation
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11714
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9995999932289124
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1707
primary_topic.subfield.display_name	Computer Vision and Pattern Recognition
primary_topic.display_name	Multimodal Machine Learning Applications
related_works	https://openalex.org/W4210416330, https://openalex.org/W2775506363, https://openalex.org/W3088136942, https://openalex.org/W2949362007, https://openalex.org/W4290852288, https://openalex.org/W4388893791, https://openalex.org/W4283207562, https://openalex.org/W2963177403, https://openalex.org/W2330246314, https://openalex.org/W2565656575
cited_by_count	1
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	1
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2310.13355
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2310.13355
best_oa_location.version	submittedVersion
best_oa_location.raw_type
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2310.13355
primary_location.id	pmh:oai:arXiv.org:2310.13355
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2310.13355
primary_location.version	submittedVersion
primary_location.raw_type
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2310.13355
publication_date	2023-10-20
publication_year	2023
referenced_works_count	0
abstract_inverted_index.a	77, 141
abstract_inverted_index.In	71
abstract_inverted_index.We	99, 163
abstract_inverted_index.an	107
abstract_inverted_index.as	134
abstract_inverted_index.by	52, 97
abstract_inverted_index.of	23, 44, 93, 144
abstract_inverted_index.on	2, 57, 118, 130
abstract_inverted_index.to	20
abstract_inverted_index.we	74
abstract_inverted_index.and	16, 25, 39, 60, 124, 136, 154, 159, 175
abstract_inverted_index.art	146
abstract_inverted_index.few	150
abstract_inverted_index.for	12, 35, 67, 80, 147
abstract_inverted_index.has	7
abstract_inverted_index.its	26
abstract_inverted_index.new	142
abstract_inverted_index.not	62
abstract_inverted_index.the	9, 21, 42, 48, 90, 145
abstract_inverted_index.CLIP	24, 33
abstract_inverted_index.SILC	84, 138, 167
abstract_inverted_index.also	31, 127
abstract_inverted_index.does	61
abstract_inverted_index.from	106
abstract_inverted_index.have	30, 40
abstract_inverted_index.like	122
abstract_inverted_index.only	55
abstract_inverted_index.open	13, 160, 171
abstract_inverted_index.sets	140
abstract_inverted_index.shot	151
abstract_inverted_index.show	100, 165
abstract_inverted_index.such	133
abstract_inverted_index.text	155
abstract_inverted_index.that	101, 166
abstract_inverted_index.this	72
abstract_inverted_index.used	32, 51
abstract_inverted_index.with	89
abstract_inverted_index.(EMA)	111
abstract_inverted_index.SILC,	76
abstract_inverted_index.dense	36, 68, 119
abstract_inverted_index.image	4, 64, 104, 153
abstract_inverted_index.local	103
abstract_inverted_index.model	113, 116
abstract_inverted_index.novel	78
abstract_inverted_index.shown	41
abstract_inverted_index.state	143
abstract_inverted_index.tasks	38, 121, 132
abstract_inverted_index.these	53
abstract_inverted_index.while	126
abstract_inverted_index.work,	73
abstract_inverted_index.works	29
abstract_inverted_index.become	8
abstract_inverted_index.models	18, 54, 139
abstract_inverted_index.moving	109
abstract_inverted_index.recipe	11
abstract_inverted_index.simple	91
abstract_inverted_index.tasks.	70
abstract_inverted_index.thanks	19
abstract_inverted_index.vision	81
abstract_inverted_index.visual	176
abstract_inverted_index.Several	28
abstract_inverted_index.average	110
abstract_inverted_index.benefit	170
abstract_inverted_index.caption	5
abstract_inverted_index.default	10
abstract_inverted_index.feature	65
abstract_inverted_index.focuses	56
abstract_inverted_index.further	164
abstract_inverted_index.greatly	169
abstract_inverted_index.success	22
abstract_inverted_index.teacher	112
abstract_inverted_index.However,	47
abstract_inverted_index.addition	92
abstract_inverted_index.datasets	6
abstract_inverted_index.features	34, 105, 168
abstract_inverted_index.improves	85, 115
abstract_inverted_index.language	82
abstract_inverted_index.learning	66, 88, 96
abstract_inverted_index.open-set	45
abstract_inverted_index.question	177
abstract_inverted_index.alignment	59
abstract_inverted_index.detection	123
abstract_inverted_index.emergence	43
abstract_inverted_index.framework	79
abstract_inverted_index.introduce	75
abstract_inverted_index.objective	50
abstract_inverted_index.providing	128
abstract_inverted_index.retrieval	17
abstract_inverted_index.variants.	27
abstract_inverted_index.web-scale	3
abstract_inverted_index.zero-shot	148, 157
abstract_inverted_index.Image-Text	0
abstract_inverted_index.abilities.	46
abstract_inverted_index.answering.	178
abstract_inverted_index.captioning	174
abstract_inverted_index.detection,	173
abstract_inverted_index.distilling	102
abstract_inverted_index.image-text	58, 86
abstract_inverted_index.prediction	37, 69
abstract_inverted_index.retrieval,	156
abstract_inverted_index.retrieval.	137
abstract_inverted_index.vocabulary	14, 161, 172
abstract_inverted_index.contrastive	49, 87
abstract_inverted_index.exponential	108
abstract_inverted_index.image-level	131
abstract_inverted_index.incentivise	63
abstract_inverted_index.performance	117
abstract_inverted_index.predictions	120
abstract_inverted_index.pretraining	1
abstract_inverted_index.improvements	129
abstract_inverted_index.pretraining.	83
abstract_inverted_index.segmentation,	125, 158
abstract_inverted_index.segmentation.	162
abstract_inverted_index.significantly	114
abstract_inverted_index.classification	15, 135
abstract_inverted_index.correspondence	95
abstract_inverted_index.classification,	149, 152
abstract_inverted_index.local-to-global	94
abstract_inverted_index.self-distillation.	98
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	6
sustainable_development_goals[0].id	https://metadata.un.org/sdg/4
sustainable_development_goals[0].score	0.8399999737739563
sustainable_development_goals[0].display_name	Quality Education
citation_normalized_percentile