IIITD-20K: Dense captioning for Text-Image ReID Article Swipe

PDF

A V Subramanyam , N. Sundararajan , Vibhu Dubey , Brejesh Lall ·

YOU? · · 2023 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2305.04497

Text-to-Image (T2I) ReID has attracted a lot of attention in the recent past. CUHK-PEDES, RSTPReid and ICFG-PEDES are the three available benchmarks to evaluate T2I ReID methods. RSTPReid and ICFG-PEDES comprise of identities from MSMT17 but due to limited number of unique persons, the diversity is limited. On the other hand, CUHK-PEDES comprises of 13,003 identities but has relatively shorter text description on average. Further, these datasets are captured in a restricted environment with limited number of cameras. In order to further diversify the identities and provide dense captions, we propose a novel dataset called IIITD-20K. IIITD-20K comprises of 20,000 unique identities captured in the wild and provides a rich dataset for text-to-image ReID. With a minimum of 26 words for a description, each image is densely captioned. We further synthetically generate images and fine-grained captions using Stable-diffusion and BLIP models trained on our dataset. We perform elaborate experiments using state-of-art text-to-image ReID models and vision-language pre-trained models and present a comprehensive analysis of the dataset. Our experiments also reveal that synthetically generated data leads to a substantial performance improvement in both same dataset as well as cross dataset settings. Our dataset is available at https://bit.ly/3pkA3Rj.

Related Topics

Computer Science

Artificial Intelligence

Machine Learning

Concepts

Closed captioning Computer science Image (mathematics) Artificial intelligence Pattern recognition (psychology) Natural language processing Information retrieval Machine learning

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2305.04497
PDF: https://arxiv.org/pdf/2305.04497
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4375958880

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4375958880

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2305.04497

Digital Object Identifier
Title: IIITD-20K: Dense captioning for Text-Image ReID

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2023

Year of publication
Publication date: 2023-05-08

Full publication date if available
Authors: A V Subramanyam, N. Sundararajan, Vibhu Dubey, Brejesh Lall

List of authors in order
Landing page: https://arxiv.org/abs/2305.04497

Publisher landing page
PDF URL: https://arxiv.org/pdf/2305.04497

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2305.04497

Direct OA link when available
Concepts: Closed captioning, Computer science, Image (mathematics), Artificial intelligence, Pattern recognition (psychology), Natural language processing, Information retrieval, Machine learning

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4375958880
doi	https://doi.org/10.48550/arxiv.2305.04497
ids.doi	https://doi.org/10.48550/arxiv.2305.04497
ids.openalex	https://openalex.org/W4375958880
fwci
type	preprint
title	IIITD-20K: Dense captioning for Text-Image ReID
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11714
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9937999844551086
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1707
topics[0].subfield.display_name	Computer Vision and Pattern Recognition
topics[0].display_name	Multimodal Machine Learning Applications
topics[1].id	https://openalex.org/T10601
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9896000027656555
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1707
topics[1].subfield.display_name	Computer Vision and Pattern Recognition
topics[1].display_name	Handwritten Text Recognition Techniques
topics[2].id	https://openalex.org/T10775
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9677000045776367
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1707
topics[2].subfield.display_name	Computer Vision and Pattern Recognition
topics[2].display_name	Generative Adversarial Networks and Image Synthesis
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C157657479
concepts[0].level	3
concepts[0].score	0.9063925743103027
concepts[0].wikidata	https://www.wikidata.org/wiki/Q2367247
concepts[0].display_name	Closed captioning
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.8210544586181641
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C115961682
concepts[2].level	2
concepts[2].score	0.6447674036026001
concepts[2].wikidata	https://www.wikidata.org/wiki/Q860623
concepts[2].display_name	Image (mathematics)
concepts[3].id	https://openalex.org/C154945302
concepts[3].level	1
concepts[3].score	0.5908806324005127
concepts[3].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[3].display_name	Artificial intelligence
concepts[4].id	https://openalex.org/C153180895
concepts[4].level	2
concepts[4].score	0.408699631690979
concepts[4].wikidata	https://www.wikidata.org/wiki/Q7148389
concepts[4].display_name	Pattern recognition (psychology)
concepts[5].id	https://openalex.org/C204321447
concepts[5].level	1
concepts[5].score	0.3703334927558899
concepts[5].wikidata	https://www.wikidata.org/wiki/Q30642
concepts[5].display_name	Natural language processing
concepts[6].id	https://openalex.org/C23123220
concepts[6].level	1
concepts[6].score	0.34005382657051086
concepts[6].wikidata	https://www.wikidata.org/wiki/Q816826
concepts[6].display_name	Information retrieval
concepts[7].id	https://openalex.org/C119857082
concepts[7].level	1
concepts[7].score	0.3238178491592407
concepts[7].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[7].display_name	Machine learning
keywords[0].id	https://openalex.org/keywords/closed-captioning
keywords[0].score	0.9063925743103027
keywords[0].display_name	Closed captioning
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.8210544586181641
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/image
keywords[2].score	0.6447674036026001
keywords[2].display_name	Image (mathematics)
keywords[3].id	https://openalex.org/keywords/artificial-intelligence
keywords[3].score	0.5908806324005127
keywords[3].display_name	Artificial intelligence
keywords[4].id	https://openalex.org/keywords/pattern-recognition
keywords[4].score	0.408699631690979
keywords[4].display_name	Pattern recognition (psychology)
keywords[5].id	https://openalex.org/keywords/natural-language-processing
keywords[5].score	0.3703334927558899
keywords[5].display_name	Natural language processing
keywords[6].id	https://openalex.org/keywords/information-retrieval
keywords[6].score	0.34005382657051086
keywords[6].display_name	Information retrieval
keywords[7].id	https://openalex.org/keywords/machine-learning
keywords[7].score	0.3238178491592407
keywords[7].display_name	Machine learning
language	en
locations[0].id	pmh:oai:arXiv.org:2305.04497
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2305.04497
locations[0].version	submittedVersion
locations[0].raw_type
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2305.04497
locations[1].id	doi:10.48550/arxiv.2305.04497
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2305.04497
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5085785393
authorships[0].author.orcid	https://orcid.org/0000-0002-8873-4644
authorships[0].author.display_name	A V Subramanyam
authorships[0].author_position	first
authorships[0].raw_author_name	Subramanyam, A V
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5112589166
authorships[1].author.orcid
authorships[1].author.display_name	N. Sundararajan
authorships[1].author_position	middle
authorships[1].raw_author_name	Sundararajan, Niranjan
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5103089653
authorships[2].author.orcid	https://orcid.org/0009-0001-1599-228X
authorships[2].author.display_name	Vibhu Dubey
authorships[2].author_position	middle
authorships[2].raw_author_name	Dubey, Vibhu
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5066116024
authorships[3].author.orcid	https://orcid.org/0000-0003-2677-3071
authorships[3].author.display_name	Brejesh Lall
authorships[3].author_position	last
authorships[3].raw_author_name	Lall, Brejesh
authorships[3].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2305.04497
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	IIITD-20K: Dense captioning for Text-Image ReID
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11714
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9937999844551086
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1707
primary_topic.subfield.display_name	Computer Vision and Pattern Recognition
primary_topic.display_name	Multimodal Machine Learning Applications
related_works	https://openalex.org/W4210416330, https://openalex.org/W3164229987, https://openalex.org/W3215212336, https://openalex.org/W4290852288, https://openalex.org/W3217388757, https://openalex.org/W3122720459, https://openalex.org/W4298897568, https://openalex.org/W4289422896, https://openalex.org/W1938708284, https://openalex.org/W4380190185
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2305.04497
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2305.04497
best_oa_location.version	submittedVersion
best_oa_location.raw_type
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2305.04497
primary_location.id	pmh:oai:arXiv.org:2305.04497
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2305.04497
primary_location.version	submittedVersion
primary_location.raw_type
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2305.04497
publication_date	2023-05-08
publication_year	2023
referenced_works_count	0
abstract_inverted_index.a	5, 70, 91, 108, 115, 121, 160, 176
abstract_inverted_index.26	118
abstract_inverted_index.In	78
abstract_inverted_index.On	47
abstract_inverted_index.We	128, 145
abstract_inverted_index.as	184, 186
abstract_inverted_index.at	194
abstract_inverted_index.in	9, 69, 103, 180
abstract_inverted_index.is	45, 125, 192
abstract_inverted_index.of	7, 31, 40, 53, 76, 98, 117, 163
abstract_inverted_index.on	62, 142
abstract_inverted_index.to	22, 37, 80, 175
abstract_inverted_index.we	89
abstract_inverted_index.Our	166, 190
abstract_inverted_index.T2I	24
abstract_inverted_index.and	15, 28, 85, 106, 133, 138, 154, 158
abstract_inverted_index.are	17, 67
abstract_inverted_index.but	35, 56
abstract_inverted_index.due	36
abstract_inverted_index.for	111, 120
abstract_inverted_index.has	3, 57
abstract_inverted_index.lot	6
abstract_inverted_index.our	143
abstract_inverted_index.the	10, 18, 43, 48, 83, 104, 164
abstract_inverted_index.BLIP	139
abstract_inverted_index.ReID	2, 25, 152
abstract_inverted_index.With	114
abstract_inverted_index.also	168
abstract_inverted_index.both	181
abstract_inverted_index.data	173
abstract_inverted_index.each	123
abstract_inverted_index.from	33
abstract_inverted_index.rich	109
abstract_inverted_index.same	182
abstract_inverted_index.text	60
abstract_inverted_index.that	170
abstract_inverted_index.well	185
abstract_inverted_index.wild	105
abstract_inverted_index.with	73
abstract_inverted_index.(T2I)	1
abstract_inverted_index.ReID.	113
abstract_inverted_index.cross	187
abstract_inverted_index.dense	87
abstract_inverted_index.hand,	50
abstract_inverted_index.image	124
abstract_inverted_index.leads	174
abstract_inverted_index.novel	92
abstract_inverted_index.order	79
abstract_inverted_index.other	49
abstract_inverted_index.past.	12
abstract_inverted_index.these	65
abstract_inverted_index.three	19
abstract_inverted_index.using	136, 149
abstract_inverted_index.words	119
abstract_inverted_index.13,003	54
abstract_inverted_index.20,000	99
abstract_inverted_index.MSMT17	34
abstract_inverted_index.called	94
abstract_inverted_index.images	132
abstract_inverted_index.models	140, 153, 157
abstract_inverted_index.number	39, 75
abstract_inverted_index.recent	11
abstract_inverted_index.reveal	169
abstract_inverted_index.unique	41, 100
abstract_inverted_index.dataset	93, 110, 183, 188, 191
abstract_inverted_index.densely	126
abstract_inverted_index.further	81, 129
abstract_inverted_index.limited	38, 74
abstract_inverted_index.minimum	116
abstract_inverted_index.perform	146
abstract_inverted_index.present	159
abstract_inverted_index.propose	90
abstract_inverted_index.provide	86
abstract_inverted_index.shorter	59
abstract_inverted_index.trained	141
abstract_inverted_index.Further,	64
abstract_inverted_index.RSTPReid	14, 27
abstract_inverted_index.analysis	162
abstract_inverted_index.average.	63
abstract_inverted_index.cameras.	77
abstract_inverted_index.captions	135
abstract_inverted_index.captured	68, 102
abstract_inverted_index.comprise	30
abstract_inverted_index.dataset.	144, 165
abstract_inverted_index.datasets	66
abstract_inverted_index.evaluate	23
abstract_inverted_index.generate	131
abstract_inverted_index.limited.	46
abstract_inverted_index.methods.	26
abstract_inverted_index.persons,	42
abstract_inverted_index.provides	107
abstract_inverted_index.IIITD-20K	96
abstract_inverted_index.attention	8
abstract_inverted_index.attracted	4
abstract_inverted_index.available	20, 193
abstract_inverted_index.captions,	88
abstract_inverted_index.comprises	52, 97
abstract_inverted_index.diversify	82
abstract_inverted_index.diversity	44
abstract_inverted_index.elaborate	147
abstract_inverted_index.generated	172
abstract_inverted_index.settings.	189
abstract_inverted_index.CUHK-PEDES	51
abstract_inverted_index.ICFG-PEDES	16, 29
abstract_inverted_index.IIITD-20K.	95
abstract_inverted_index.benchmarks	21
abstract_inverted_index.captioned.	127
abstract_inverted_index.identities	32, 55, 84, 101
abstract_inverted_index.relatively	58
abstract_inverted_index.restricted	71
abstract_inverted_index.CUHK-PEDES,	13
abstract_inverted_index.description	61
abstract_inverted_index.environment	72
abstract_inverted_index.experiments	148, 167
abstract_inverted_index.improvement	179
abstract_inverted_index.performance	178
abstract_inverted_index.pre-trained	156
abstract_inverted_index.substantial	177
abstract_inverted_index.description,	122
abstract_inverted_index.fine-grained	134
abstract_inverted_index.state-of-art	150
abstract_inverted_index.Text-to-Image	0
abstract_inverted_index.comprehensive	161
abstract_inverted_index.synthetically	130, 171
abstract_inverted_index.text-to-image	112, 151
abstract_inverted_index.vision-language	155
abstract_inverted_index.Stable-diffusion	137
abstract_inverted_index.https://bit.ly/3pkA3Rj.	195
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	4
citation_normalized_percentile