RegionCLIP: Region-based Language-Image Pretraining Article Swipe

PDF

Yiwu Zhong , Jianwei Yang , Pengchuan Zhang , Chunyuan Li , Noel Codella , Liunian Harold Li , Luowei Zhou , Xiyang Dai , Lu Yuan , Yin Li , Jianfeng Gao ·

YOU? · · 2021 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2112.09106

Contrastive language-image pretraining (CLIP) using image-text pairs has achieved impressive results on image classification in both zero-shot and transfer learning settings. However, we show that directly applying such models to recognize image regions for object detection leads to poor performance due to a domain shift: CLIP was trained to match an image as a whole to a text description, without capturing the fine-grained alignment between image regions and text spans. To mitigate this issue, we propose a new method called RegionCLIP that significantly extends CLIP to learn region-level visual representations, thus enabling fine-grained alignment between image regions and textual concepts. Our method leverages a CLIP model to match image regions with template captions and then pretrains our model to align these region-text pairs in the feature space. When transferring our pretrained model to the open-vocabulary object detection tasks, our method significantly outperforms the state of the art by 3.8 AP50 and 2.2 AP for novel categories on COCO and LVIS datasets, respectively. Moreoever, the learned region representations support zero-shot inference for object detection, showing promising results on both COCO and LVIS datasets. Our code is available at https://github.com/microsoft/RegionCLIP.

Related Topics

Computer Science

Artificial Intelligence

Concepts

Computer science Image (mathematics) Artificial intelligence Vocabulary Inference Feature (linguistics) Object (grammar) Closed captioning Image editing Pattern recognition (psychology) Code (set theory) Natural language processing Object detection Computer vision Linguistics Programming language Philosophy Set (abstract data type)

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2112.09106
PDF: https://arxiv.org/pdf/2112.09106
OA Status: green
Cited By: 12
Related Works: 10
OpenAlex ID: https://openalex.org/W4226021361

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4226021361

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2112.09106

Digital Object Identifier
Title: RegionCLIP: Region-based Language-Image Pretraining

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2021

Year of publication
Publication date: 2021-12-16

Full publication date if available
Authors: Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, Jianfeng Gao

List of authors in order
Landing page: https://arxiv.org/abs/2112.09106

Publisher landing page
PDF URL: https://arxiv.org/pdf/2112.09106

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2112.09106

Direct OA link when available
Concepts: Computer science, Image (mathematics), Artificial intelligence, Vocabulary, Inference, Feature (linguistics), Object (grammar), Closed captioning, Image editing, Pattern recognition (psychology), Code (set theory), Natural language processing, Object detection, Computer vision, Linguistics, Programming language, Philosophy, Set (abstract data type)

Top concepts (fields/topics) attached by OpenAlex
Cited by: 12

Total citation count in OpenAlex
Citations by year (recent): 2025: 5, 2024: 4, 2023: 3

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4226021361
doi	https://doi.org/10.48550/arxiv.2112.09106
ids.doi	https://doi.org/10.48550/arxiv.2112.09106
ids.openalex	https://openalex.org/W4226021361
fwci
type	preprint
title	RegionCLIP: Region-based Language-Image Pretraining
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11714
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9994000196456909
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1707
topics[0].subfield.display_name	Computer Vision and Pattern Recognition
topics[0].display_name	Multimodal Machine Learning Applications
topics[1].id	https://openalex.org/T11307
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.995199978351593
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Domain Adaptation and Few-Shot Learning
topics[2].id	https://openalex.org/T11775
topics[2].field.id	https://openalex.org/fields/27
topics[2].field.display_name	Medicine
topics[2].score	0.9621999859809875
topics[2].domain.id	https://openalex.org/domains/4
topics[2].domain.display_name	Health Sciences
topics[2].subfield.id	https://openalex.org/subfields/2741
topics[2].subfield.display_name	Radiology, Nuclear Medicine and Imaging
topics[2].display_name	COVID-19 diagnosis using AI
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C41008148
concepts[0].level	0
concepts[0].score	0.8162432312965393
concepts[0].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[0].display_name	Computer science
concepts[1].id	https://openalex.org/C115961682
concepts[1].level	2
concepts[1].score	0.7046232223510742
concepts[1].wikidata	https://www.wikidata.org/wiki/Q860623
concepts[1].display_name	Image (mathematics)
concepts[2].id	https://openalex.org/C154945302
concepts[2].level	1
concepts[2].score	0.7015968561172485
concepts[2].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[2].display_name	Artificial intelligence
concepts[3].id	https://openalex.org/C2777601683
concepts[3].level	2
concepts[3].score	0.6044337749481201
concepts[3].wikidata	https://www.wikidata.org/wiki/Q6499736
concepts[3].display_name	Vocabulary
concepts[4].id	https://openalex.org/C2776214188
concepts[4].level	2
concepts[4].score	0.5926016569137573
concepts[4].wikidata	https://www.wikidata.org/wiki/Q408386
concepts[4].display_name	Inference
concepts[5].id	https://openalex.org/C2776401178
concepts[5].level	2
concepts[5].score	0.5818583965301514
concepts[5].wikidata	https://www.wikidata.org/wiki/Q12050496
concepts[5].display_name	Feature (linguistics)
concepts[6].id	https://openalex.org/C2781238097
concepts[6].level	2
concepts[6].score	0.5814992189407349
concepts[6].wikidata	https://www.wikidata.org/wiki/Q175026
concepts[6].display_name	Object (grammar)
concepts[7].id	https://openalex.org/C157657479
concepts[7].level	3
concepts[7].score	0.5408874154090881
concepts[7].wikidata	https://www.wikidata.org/wiki/Q2367247
concepts[7].display_name	Closed captioning
concepts[8].id	https://openalex.org/C2776674983
concepts[8].level	3
concepts[8].score	0.5150746703147888
concepts[8].wikidata	https://www.wikidata.org/wiki/Q545981
concepts[8].display_name	Image editing
concepts[9].id	https://openalex.org/C153180895
concepts[9].level	2
concepts[9].score	0.4657951593399048
concepts[9].wikidata	https://www.wikidata.org/wiki/Q7148389
concepts[9].display_name	Pattern recognition (psychology)
concepts[10].id	https://openalex.org/C2776760102
concepts[10].level	3
concepts[10].score	0.4630221724510193
concepts[10].wikidata	https://www.wikidata.org/wiki/Q5139990
concepts[10].display_name	Code (set theory)
concepts[11].id	https://openalex.org/C204321447
concepts[11].level	1
concepts[11].score	0.4609352648258209
concepts[11].wikidata	https://www.wikidata.org/wiki/Q30642
concepts[11].display_name	Natural language processing
concepts[12].id	https://openalex.org/C2776151529
concepts[12].level	3
concepts[12].score	0.4296780228614807
concepts[12].wikidata	https://www.wikidata.org/wiki/Q3045304
concepts[12].display_name	Object detection
concepts[13].id	https://openalex.org/C31972630
concepts[13].level	1
concepts[13].score	0.3987557590007782
concepts[13].wikidata	https://www.wikidata.org/wiki/Q844240
concepts[13].display_name	Computer vision
concepts[14].id	https://openalex.org/C41895202
concepts[14].level	1
concepts[14].score	0.08861497044563293
concepts[14].wikidata	https://www.wikidata.org/wiki/Q8162
concepts[14].display_name	Linguistics
concepts[15].id	https://openalex.org/C199360897
concepts[15].level	1
concepts[15].score	0.07428047060966492
concepts[15].wikidata	https://www.wikidata.org/wiki/Q9143
concepts[15].display_name	Programming language
concepts[16].id	https://openalex.org/C138885662
concepts[16].level	0
concepts[16].score	0.0
concepts[16].wikidata	https://www.wikidata.org/wiki/Q5891
concepts[16].display_name	Philosophy
concepts[17].id	https://openalex.org/C177264268
concepts[17].level	2
concepts[17].score	0.0
concepts[17].wikidata	https://www.wikidata.org/wiki/Q1514741
concepts[17].display_name	Set (abstract data type)
keywords[0].id	https://openalex.org/keywords/computer-science
keywords[0].score	0.8162432312965393
keywords[0].display_name	Computer science
keywords[1].id	https://openalex.org/keywords/image
keywords[1].score	0.7046232223510742
keywords[1].display_name	Image (mathematics)
keywords[2].id	https://openalex.org/keywords/artificial-intelligence
keywords[2].score	0.7015968561172485
keywords[2].display_name	Artificial intelligence
keywords[3].id	https://openalex.org/keywords/vocabulary
keywords[3].score	0.6044337749481201
keywords[3].display_name	Vocabulary
keywords[4].id	https://openalex.org/keywords/inference
keywords[4].score	0.5926016569137573
keywords[4].display_name	Inference
keywords[5].id	https://openalex.org/keywords/feature
keywords[5].score	0.5818583965301514
keywords[5].display_name	Feature (linguistics)
keywords[6].id	https://openalex.org/keywords/object
keywords[6].score	0.5814992189407349
keywords[6].display_name	Object (grammar)
keywords[7].id	https://openalex.org/keywords/closed-captioning
keywords[7].score	0.5408874154090881
keywords[7].display_name	Closed captioning
keywords[8].id	https://openalex.org/keywords/image-editing
keywords[8].score	0.5150746703147888
keywords[8].display_name	Image editing
keywords[9].id	https://openalex.org/keywords/pattern-recognition
keywords[9].score	0.4657951593399048
keywords[9].display_name	Pattern recognition (psychology)
keywords[10].id	https://openalex.org/keywords/code
keywords[10].score	0.4630221724510193
keywords[10].display_name	Code (set theory)
keywords[11].id	https://openalex.org/keywords/natural-language-processing
keywords[11].score	0.4609352648258209
keywords[11].display_name	Natural language processing
keywords[12].id	https://openalex.org/keywords/object-detection
keywords[12].score	0.4296780228614807
keywords[12].display_name	Object detection
keywords[13].id	https://openalex.org/keywords/computer-vision
keywords[13].score	0.3987557590007782
keywords[13].display_name	Computer vision
keywords[14].id	https://openalex.org/keywords/linguistics
keywords[14].score	0.08861497044563293
keywords[14].display_name	Linguistics
keywords[15].id	https://openalex.org/keywords/programming-language
keywords[15].score	0.07428047060966492
keywords[15].display_name	Programming language
language	en
locations[0].id	pmh:oai:arXiv.org:2112.09106
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2112.09106
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2112.09106
locations[1].id	doi:10.48550/arxiv.2112.09106
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2112.09106
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5040199499
authorships[0].author.orcid
authorships[0].author.display_name	Yiwu Zhong
authorships[0].author_position	first
authorships[0].raw_author_name	Zhong, Yiwu
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5100632859
authorships[1].author.orcid	https://orcid.org/0000-0002-2022-6002
authorships[1].author.display_name	Jianwei Yang
authorships[1].author_position	middle
authorships[1].raw_author_name	Yang, Jianwei
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5059735251
authorships[2].author.orcid	https://orcid.org/0000-0003-1155-9507
authorships[2].author.display_name	Pengchuan Zhang
authorships[2].author_position	middle
authorships[2].raw_author_name	Zhang, Pengchuan
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5107893340
authorships[3].author.orcid
authorships[3].author.display_name	Chunyuan Li
authorships[3].author_position	middle
authorships[3].raw_author_name	Li, Chunyuan
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5073027533
authorships[4].author.orcid	https://orcid.org/0000-0001-6735-9067
authorships[4].author.display_name	Noel Codella
authorships[4].author_position	middle
authorships[4].raw_author_name	Codella, Noel
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5004824034
authorships[5].author.orcid
authorships[5].author.display_name	Liunian Harold Li
authorships[5].author_position	middle
authorships[5].raw_author_name	Li, Liunian Harold
authorships[5].is_corresponding	False
authorships[6].author.id	https://openalex.org/A5084879213
authorships[6].author.orcid	https://orcid.org/0000-0003-1197-0101
authorships[6].author.display_name	Luowei Zhou
authorships[6].author_position	middle
authorships[6].raw_author_name	Zhou, Luowei
authorships[6].is_corresponding	False
authorships[7].author.id	https://openalex.org/A5057293861
authorships[7].author.orcid	https://orcid.org/0000-0003-1761-8715
authorships[7].author.display_name	Xiyang Dai
authorships[7].author_position	middle
authorships[7].raw_author_name	Dai, Xiyang
authorships[7].is_corresponding	False
authorships[8].author.id	https://openalex.org/A5100390820
authorships[8].author.orcid	https://orcid.org/0000-0001-7879-0389
authorships[8].author.display_name	Lu Yuan
authorships[8].author_position	middle
authorships[8].raw_author_name	Yuan, Lu
authorships[8].is_corresponding	False
authorships[9].author.id	https://openalex.org/A5100451141
authorships[9].author.orcid	https://orcid.org/0000-0003-4173-9453
authorships[9].author.display_name	Yin Li
authorships[9].author_position	middle
authorships[9].raw_author_name	Li, Yin
authorships[9].is_corresponding	False
authorships[10].author.id	https://openalex.org/A5047233371
authorships[10].author.orcid	https://orcid.org/0000-0002-6371-505X
authorships[10].author.display_name	Jianfeng Gao
authorships[10].author_position	last
authorships[10].raw_author_name	Gao, Jianfeng
authorships[10].is_corresponding	False
has_content.pdf	True
has_content.grobid_xml	True
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2112.09106
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	RegionCLIP: Region-based Language-Image Pretraining
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11714
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9994000196456909
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1707
primary_topic.subfield.display_name	Computer Vision and Pattern Recognition
primary_topic.display_name	Multimodal Machine Learning Applications
related_works	https://openalex.org/W4210416330, https://openalex.org/W2775506363, https://openalex.org/W3088136942, https://openalex.org/W4290852288, https://openalex.org/W2949362007, https://openalex.org/W4388893791, https://openalex.org/W4283207562, https://openalex.org/W2963177403, https://openalex.org/W2330246314, https://openalex.org/W2949522393
cited_by_count	12
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	5
counts_by_year[1].year	2024
counts_by_year[1].cited_by_count	4
counts_by_year[2].year	2023
counts_by_year[2].cited_by_count	3
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2112.09106
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2112.09106
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2112.09106
primary_location.id	pmh:oai:arXiv.org:2112.09106
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2112.09106
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2112.09106
publication_date	2021-12-16
publication_year	2021
referenced_works_count	0
abstract_inverted_index.a	42, 53, 56, 76, 103
abstract_inverted_index.AP	152
abstract_inverted_index.To	70
abstract_inverted_index.an	50
abstract_inverted_index.as	52
abstract_inverted_index.at	186
abstract_inverted_index.by	147
abstract_inverted_index.in	14, 123
abstract_inverted_index.is	184
abstract_inverted_index.of	144
abstract_inverted_index.on	11, 156, 176
abstract_inverted_index.to	29, 37, 41, 48, 55, 85, 106, 118, 132
abstract_inverted_index.we	22, 74
abstract_inverted_index.2.2	151
abstract_inverted_index.3.8	148
abstract_inverted_index.Our	100, 182
abstract_inverted_index.and	17, 67, 97, 113, 150, 158, 179
abstract_inverted_index.art	146
abstract_inverted_index.due	40
abstract_inverted_index.for	33, 153, 170
abstract_inverted_index.has	7
abstract_inverted_index.new	77
abstract_inverted_index.our	116, 129, 138
abstract_inverted_index.the	61, 124, 133, 142, 145, 163
abstract_inverted_index.was	46
abstract_inverted_index.AP50	149
abstract_inverted_index.CLIP	45, 84, 104
abstract_inverted_index.COCO	157, 178
abstract_inverted_index.LVIS	159, 180
abstract_inverted_index.When	127
abstract_inverted_index.both	15, 177
abstract_inverted_index.code	183
abstract_inverted_index.poor	38
abstract_inverted_index.show	23
abstract_inverted_index.such	27
abstract_inverted_index.text	57, 68
abstract_inverted_index.that	24, 81
abstract_inverted_index.then	114
abstract_inverted_index.this	72
abstract_inverted_index.thus	90
abstract_inverted_index.with	110
abstract_inverted_index.align	119
abstract_inverted_index.image	12, 31, 51, 65, 95, 108
abstract_inverted_index.leads	36
abstract_inverted_index.learn	86
abstract_inverted_index.match	49, 107
abstract_inverted_index.model	105, 117, 131
abstract_inverted_index.novel	154
abstract_inverted_index.pairs	6, 122
abstract_inverted_index.state	143
abstract_inverted_index.these	120
abstract_inverted_index.using	4
abstract_inverted_index.whole	54
abstract_inverted_index.(CLIP)	3
abstract_inverted_index.called	79
abstract_inverted_index.domain	43
abstract_inverted_index.issue,	73
abstract_inverted_index.method	78, 101, 139
abstract_inverted_index.models	28
abstract_inverted_index.object	34, 135, 171
abstract_inverted_index.region	165
abstract_inverted_index.shift:	44
abstract_inverted_index.space.	126
abstract_inverted_index.spans.	69
abstract_inverted_index.tasks,	137
abstract_inverted_index.visual	88
abstract_inverted_index.between	64, 94
abstract_inverted_index.extends	83
abstract_inverted_index.feature	125
abstract_inverted_index.learned	164
abstract_inverted_index.propose	75
abstract_inverted_index.regions	32, 66, 96, 109
abstract_inverted_index.results	10, 175
abstract_inverted_index.showing	173
abstract_inverted_index.support	167
abstract_inverted_index.textual	98
abstract_inverted_index.trained	47
abstract_inverted_index.without	59
abstract_inverted_index.However,	21
abstract_inverted_index.achieved	8
abstract_inverted_index.applying	26
abstract_inverted_index.captions	112
abstract_inverted_index.directly	25
abstract_inverted_index.enabling	91
abstract_inverted_index.learning	19
abstract_inverted_index.mitigate	71
abstract_inverted_index.template	111
abstract_inverted_index.transfer	18
abstract_inverted_index.alignment	63, 93
abstract_inverted_index.available	185
abstract_inverted_index.capturing	60
abstract_inverted_index.concepts.	99
abstract_inverted_index.datasets,	160
abstract_inverted_index.datasets.	181
abstract_inverted_index.detection	35, 136
abstract_inverted_index.inference	169
abstract_inverted_index.leverages	102
abstract_inverted_index.pretrains	115
abstract_inverted_index.promising	174
abstract_inverted_index.recognize	30
abstract_inverted_index.settings.	20
abstract_inverted_index.zero-shot	16, 168
abstract_inverted_index.Moreoever,	162
abstract_inverted_index.RegionCLIP	80
abstract_inverted_index.categories	155
abstract_inverted_index.detection,	172
abstract_inverted_index.image-text	5
abstract_inverted_index.impressive	9
abstract_inverted_index.pretrained	130
abstract_inverted_index.Contrastive	0
abstract_inverted_index.outperforms	141
abstract_inverted_index.performance	39
abstract_inverted_index.pretraining	2
abstract_inverted_index.region-text	121
abstract_inverted_index.description,	58
abstract_inverted_index.fine-grained	62, 92
abstract_inverted_index.region-level	87
abstract_inverted_index.transferring	128
abstract_inverted_index.respectively.	161
abstract_inverted_index.significantly	82, 140
abstract_inverted_index.classification	13
abstract_inverted_index.language-image	1
abstract_inverted_index.open-vocabulary	134
abstract_inverted_index.representations	166
abstract_inverted_index.representations,	89
abstract_inverted_index.https://github.com/microsoft/RegionCLIP.	187
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	11
sustainable_development_goals[0].id	https://metadata.un.org/sdg/4
sustainable_development_goals[0].score	0.6100000143051147
sustainable_development_goals[0].display_name	Quality Education
citation_normalized_percentile