UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation Article Swipe

PDF

Lunhao Duan , Shanshan Zhao , Wenjun Yan , Yinglun Li , Qing-Guo Chen , Xu Zhao , Weihua Luo , Kaifu Zhang , Mingming Gong , Gui-Song Xia ·

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2412.18928

Recently, text-to-image generation models have achieved remarkable advancements, particularly with diffusion models facilitating high-quality image synthesis from textual descriptions. However, these models often struggle with achieving precise control over pixel-level layouts, object appearances, and global styles when using text prompts alone. To mitigate this issue, previous works introduce conditional images as auxiliary inputs for image generation, enhancing control but typically necessitating specialized models tailored to different types of reference inputs. In this paper, we explore a new approach to unify controllable generation within a single framework. Specifically, we propose the unified image-instruction adapter (UNIC-Adapter) built on the Multi-Modal-Diffusion Transformer architecture, to enable flexible and controllable generation across diverse conditions without the need for multiple specialized models. Our UNIC-Adapter effectively extracts multi-modal instruction information by incorporating both conditional images and task instructions, injecting this information into the image generation process through a cross-attention mechanism enhanced by Rotary Position Embedding. Experimental results across a variety of tasks, including pixel-level spatial control, subject-driven image generation, and style-image-based image synthesis, demonstrate the effectiveness of our UNIC-Adapter in unified controllable image generation.

Related Topics

Transformer

Computer Science

Rayon

Artificial Intelligence

Electrical Engineering

Concepts

Adapter (computing) Transformer Computer science Modal Artificial intelligence Electrical engineering Engineering Computer hardware Voltage Materials science Polymer chemistry

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2412.18928
PDF: https://arxiv.org/pdf/2412.18928
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4405901452

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4405901452

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2412.18928

Digital Object Identifier
Title: UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-12-25

Full publication date if available
Authors: Lunhao Duan, Shanshan Zhao, Wenjun Yan, Yinglun Li, Qing-Guo Chen, Xu Zhao, Weihua Luo, Kaifu Zhang, Mingming Gong, Gui-Song Xia

List of authors in order
Landing page: https://arxiv.org/abs/2412.18928

Publisher landing page
PDF URL: https://arxiv.org/pdf/2412.18928

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2412.18928

Direct OA link when available
Concepts: Adapter (computing), Transformer, Computer science, Modal, Artificial intelligence, Electrical engineering, Engineering, Computer hardware, Voltage, Materials science, Polymer chemistry

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4405901452
doi	https://doi.org/10.48550/arxiv.2412.18928
ids.doi	https://doi.org/10.48550/arxiv.2412.18928
ids.openalex	https://openalex.org/W4405901452
fwci
type	preprint
title	UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10627
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.989799976348877
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1707
topics[0].subfield.display_name	Computer Vision and Pattern Recognition
topics[0].display_name	Advanced Image and Video Retrieval Techniques
topics[1].id	https://openalex.org/T10824
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9878000020980835
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1707
topics[1].subfield.display_name	Computer Vision and Pattern Recognition
topics[1].display_name	Image Retrieval and Classification Techniques
topics[2].id	https://openalex.org/T10052
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.984000027179718
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1707
topics[2].subfield.display_name	Computer Vision and Pattern Recognition
topics[2].display_name	Medical Image Segmentation Techniques
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C177284502
concepts[0].level	2
concepts[0].score	0.8145357370376587
concepts[0].wikidata	https://www.wikidata.org/wiki/Q1005390
concepts[0].display_name	Adapter (computing)
concepts[1].id	https://openalex.org/C66322947
concepts[1].level	3
concepts[1].score	0.5402547717094421
concepts[1].wikidata	https://www.wikidata.org/wiki/Q11658
concepts[1].display_name	Transformer
concepts[2].id	https://openalex.org/C41008148
concepts[2].level	0
concepts[2].score	0.5037333369255066
concepts[2].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[2].display_name	Computer science
concepts[3].id	https://openalex.org/C71139939
concepts[3].level	2
concepts[3].score	0.49431324005126953
concepts[3].wikidata	https://www.wikidata.org/wiki/Q910194
concepts[3].display_name	Modal
concepts[4].id	https://openalex.org/C154945302
concepts[4].level	1
concepts[4].score	0.3357456922531128
concepts[4].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[4].display_name	Artificial intelligence
concepts[5].id	https://openalex.org/C119599485
concepts[5].level	1
concepts[5].score	0.24835151433944702
concepts[5].wikidata	https://www.wikidata.org/wiki/Q43035
concepts[5].display_name	Electrical engineering
concepts[6].id	https://openalex.org/C127413603
concepts[6].level	0
concepts[6].score	0.20708879828453064
concepts[6].wikidata	https://www.wikidata.org/wiki/Q11023
concepts[6].display_name	Engineering
concepts[7].id	https://openalex.org/C9390403
concepts[7].level	1
concepts[7].score	0.17693600058555603
concepts[7].wikidata	https://www.wikidata.org/wiki/Q3966
concepts[7].display_name	Computer hardware
concepts[8].id	https://openalex.org/C165801399
concepts[8].level	2
concepts[8].score	0.12092691659927368
concepts[8].wikidata	https://www.wikidata.org/wiki/Q25428
concepts[8].display_name	Voltage
concepts[9].id	https://openalex.org/C192562407
concepts[9].level	0
concepts[9].score	0.07112890481948853
concepts[9].wikidata	https://www.wikidata.org/wiki/Q228736
concepts[9].display_name	Materials science
concepts[10].id	https://openalex.org/C188027245
concepts[10].level	1
concepts[10].score	0.0
concepts[10].wikidata	https://www.wikidata.org/wiki/Q750446
concepts[10].display_name	Polymer chemistry
keywords[0].id	https://openalex.org/keywords/adapter
keywords[0].score	0.8145357370376587
keywords[0].display_name	Adapter (computing)
keywords[1].id	https://openalex.org/keywords/transformer
keywords[1].score	0.5402547717094421
keywords[1].display_name	Transformer
keywords[2].id	https://openalex.org/keywords/computer-science
keywords[2].score	0.5037333369255066
keywords[2].display_name	Computer science
keywords[3].id	https://openalex.org/keywords/modal
keywords[3].score	0.49431324005126953
keywords[3].display_name	Modal
keywords[4].id	https://openalex.org/keywords/artificial-intelligence
keywords[4].score	0.3357456922531128
keywords[4].display_name	Artificial intelligence
keywords[5].id	https://openalex.org/keywords/electrical-engineering
keywords[5].score	0.24835151433944702
keywords[5].display_name	Electrical engineering
keywords[6].id	https://openalex.org/keywords/engineering
keywords[6].score	0.20708879828453064
keywords[6].display_name	Engineering
keywords[7].id	https://openalex.org/keywords/computer-hardware
keywords[7].score	0.17693600058555603
keywords[7].display_name	Computer hardware
keywords[8].id	https://openalex.org/keywords/voltage
keywords[8].score	0.12092691659927368
keywords[8].display_name	Voltage
keywords[9].id	https://openalex.org/keywords/materials-science
keywords[9].score	0.07112890481948853
keywords[9].display_name	Materials science
language	en
locations[0].id	pmh:oai:arXiv.org:2412.18928
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2412.18928
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2412.18928
locations[1].id	doi:10.48550/arxiv.2412.18928
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2412.18928
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5017333360
authorships[0].author.orcid
authorships[0].author.display_name	Lunhao Duan
authorships[0].author_position	first
authorships[0].raw_author_name	Duan, Lunhao
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5101873692
authorships[1].author.orcid	https://orcid.org/0000-0002-7581-8179
authorships[1].author.display_name	Shanshan Zhao
authorships[1].author_position	middle
authorships[1].raw_author_name	Zhao, Shanshan
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5102159123
authorships[2].author.orcid
authorships[2].author.display_name	Wenjun Yan
authorships[2].author_position	middle
authorships[2].raw_author_name	Yan, Wenjun
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5102013082
authorships[3].author.orcid	https://orcid.org/0000-0002-2540-586X
authorships[3].author.display_name	Yinglun Li
authorships[3].author_position	middle
authorships[3].raw_author_name	Li, Yinglun
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5100638352
authorships[4].author.orcid	https://orcid.org/0000-0001-8938-5776
authorships[4].author.display_name	Qing-Guo Chen
authorships[4].author_position	middle
authorships[4].raw_author_name	Chen, Qing-Guo
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5100700870
authorships[5].author.orcid	https://orcid.org/0000-0002-1712-6588
authorships[5].author.display_name	Xu Zhao
authorships[5].author_position	middle
authorships[5].raw_author_name	Xu, Zhao
authorships[5].is_corresponding	False
authorships[6].author.id	https://openalex.org/A5085736941
authorships[6].author.orcid	https://orcid.org/0000-0002-5002-6933
authorships[6].author.display_name	Weihua Luo
authorships[6].author_position	middle
authorships[6].raw_author_name	Luo, Weihua
authorships[6].is_corresponding	False
authorships[7].author.id	https://openalex.org/A5103619995
authorships[7].author.orcid
authorships[7].author.display_name	Kaifu Zhang
authorships[7].author_position	middle
authorships[7].raw_author_name	Zhang, Kaifu
authorships[7].is_corresponding	False
authorships[8].author.id	https://openalex.org/A5102023771
authorships[8].author.orcid	https://orcid.org/0000-0001-7147-5589
authorships[8].author.display_name	Mingming Gong
authorships[8].author_position	middle
authorships[8].raw_author_name	Gong, Mingming
authorships[8].is_corresponding	False
authorships[9].author.id	https://openalex.org/A5073032922
authorships[9].author.orcid	https://orcid.org/0000-0001-7660-6090
authorships[9].author.display_name	Gui-Song Xia
authorships[9].author_position	last
authorships[9].raw_author_name	Xia, Gui-Song
authorships[9].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2412.18928
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2024-12-31T00:00:00
display_name	UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10627
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.989799976348877
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1707
primary_topic.subfield.display_name	Computer Vision and Pattern Recognition
primary_topic.display_name	Advanced Image and Video Retrieval Techniques
related_works	https://openalex.org/W4391375266, https://openalex.org/W2899084033, https://openalex.org/W2748952813, https://openalex.org/W2133028525, https://openalex.org/W4229060448, https://openalex.org/W4306381730, https://openalex.org/W2981692913, https://openalex.org/W3044188621, https://openalex.org/W3184035966, https://openalex.org/W2485605994
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2412.18928
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2412.18928
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2412.18928
primary_location.id	pmh:oai:arXiv.org:2412.18928
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2412.18928
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2412.18928
publication_date	2024-12-25
publication_year	2024
referenced_works_count	0
abstract_inverted_index.a	75, 83, 140, 151
abstract_inverted_index.In	70
abstract_inverted_index.To	41
abstract_inverted_index.as	50
abstract_inverted_index.by	123, 144
abstract_inverted_index.in	172
abstract_inverted_index.of	67, 153, 169
abstract_inverted_index.on	95
abstract_inverted_index.to	64, 78, 100
abstract_inverted_index.we	73, 87
abstract_inverted_index.Our	116
abstract_inverted_index.and	33, 103, 128, 162
abstract_inverted_index.but	58
abstract_inverted_index.for	53, 112
abstract_inverted_index.new	76
abstract_inverted_index.our	170
abstract_inverted_index.the	89, 96, 110, 135, 167
abstract_inverted_index.both	125
abstract_inverted_index.from	16
abstract_inverted_index.have	4
abstract_inverted_index.into	134
abstract_inverted_index.need	111
abstract_inverted_index.over	28
abstract_inverted_index.task	129
abstract_inverted_index.text	38
abstract_inverted_index.this	43, 71, 132
abstract_inverted_index.when	36
abstract_inverted_index.with	9, 24
abstract_inverted_index.built	94
abstract_inverted_index.image	14, 54, 136, 160, 164, 175
abstract_inverted_index.often	22
abstract_inverted_index.these	20
abstract_inverted_index.types	66
abstract_inverted_index.unify	79
abstract_inverted_index.using	37
abstract_inverted_index.works	46
abstract_inverted_index.Rotary	145
abstract_inverted_index.across	106, 150
abstract_inverted_index.alone.	40
abstract_inverted_index.enable	101
abstract_inverted_index.global	34
abstract_inverted_index.images	49, 127
abstract_inverted_index.inputs	52
abstract_inverted_index.issue,	44
abstract_inverted_index.models	3, 11, 21, 62
abstract_inverted_index.object	31
abstract_inverted_index.paper,	72
abstract_inverted_index.single	84
abstract_inverted_index.styles	35
abstract_inverted_index.tasks,	154
abstract_inverted_index.within	82
abstract_inverted_index.adapter	92
abstract_inverted_index.control	27, 57
abstract_inverted_index.diverse	107
abstract_inverted_index.explore	74
abstract_inverted_index.inputs.	69
abstract_inverted_index.models.	115
abstract_inverted_index.precise	26
abstract_inverted_index.process	138
abstract_inverted_index.prompts	39
abstract_inverted_index.propose	88
abstract_inverted_index.results	149
abstract_inverted_index.spatial	157
abstract_inverted_index.textual	17
abstract_inverted_index.through	139
abstract_inverted_index.unified	90, 173
abstract_inverted_index.variety	152
abstract_inverted_index.without	109
abstract_inverted_index.However,	19
abstract_inverted_index.Position	146
abstract_inverted_index.achieved	5
abstract_inverted_index.approach	77
abstract_inverted_index.control,	158
abstract_inverted_index.enhanced	143
abstract_inverted_index.extracts	119
abstract_inverted_index.flexible	102
abstract_inverted_index.layouts,	30
abstract_inverted_index.mitigate	42
abstract_inverted_index.multiple	113
abstract_inverted_index.previous	45
abstract_inverted_index.struggle	23
abstract_inverted_index.tailored	63
abstract_inverted_index.Recently,	0
abstract_inverted_index.achieving	25
abstract_inverted_index.auxiliary	51
abstract_inverted_index.different	65
abstract_inverted_index.diffusion	10
abstract_inverted_index.enhancing	56
abstract_inverted_index.including	155
abstract_inverted_index.injecting	131
abstract_inverted_index.introduce	47
abstract_inverted_index.mechanism	142
abstract_inverted_index.reference	68
abstract_inverted_index.synthesis	15
abstract_inverted_index.typically	59
abstract_inverted_index.Embedding.	147
abstract_inverted_index.conditions	108
abstract_inverted_index.framework.	85
abstract_inverted_index.generation	2, 81, 105, 137
abstract_inverted_index.remarkable	6
abstract_inverted_index.synthesis,	165
abstract_inverted_index.Transformer	98
abstract_inverted_index.conditional	48, 126
abstract_inverted_index.demonstrate	166
abstract_inverted_index.effectively	118
abstract_inverted_index.generation,	55, 161
abstract_inverted_index.generation.	176
abstract_inverted_index.information	122, 133
abstract_inverted_index.instruction	121
abstract_inverted_index.multi-modal	120
abstract_inverted_index.pixel-level	29, 156
abstract_inverted_index.specialized	61, 114
abstract_inverted_index.Experimental	148
abstract_inverted_index.UNIC-Adapter	117, 171
abstract_inverted_index.appearances,	32
abstract_inverted_index.controllable	80, 104, 174
abstract_inverted_index.facilitating	12
abstract_inverted_index.high-quality	13
abstract_inverted_index.particularly	8
abstract_inverted_index.Specifically,	86
abstract_inverted_index.advancements,	7
abstract_inverted_index.architecture,	99
abstract_inverted_index.descriptions.	18
abstract_inverted_index.effectiveness	168
abstract_inverted_index.incorporating	124
abstract_inverted_index.instructions,	130
abstract_inverted_index.necessitating	60
abstract_inverted_index.text-to-image	1
abstract_inverted_index.(UNIC-Adapter)	93
abstract_inverted_index.subject-driven	159
abstract_inverted_index.cross-attention	141
abstract_inverted_index.image-instruction	91
abstract_inverted_index.style-image-based	163
abstract_inverted_index.Multi-Modal-Diffusion	97
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	10
citation_normalized_percentile