Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks Article Swipe

PDF

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2409.07353

Large Vision-Language Models (LVLMs), trained on multimodal big datasets, have significantly advanced AI by excelling in vision-language tasks. However, these models remain vulnerable to adversarial attacks, particularly jailbreak attacks, which bypass safety protocols and cause the model to generate misleading or harmful responses. This vulnerability stems from both the inherent susceptibilities of LLMs and the expanded attack surface introduced by the visual modality. We propose Sim-CLIP+, a novel defense mechanism that adversarially fine-tunes the CLIP vision encoder by leveraging a Siamese architecture. This approach maximizes cosine similarity between perturbed and clean samples, facilitating resilience against adversarial manipulations. Sim-CLIP+ offers a plug-and-play solution, allowing seamless integration into existing LVLM architectures as a robust vision encoder. Unlike previous defenses, our method requires no structural modifications to the LVLM and incurs minimal computational overhead. Sim-CLIP+ demonstrates effectiveness against both gradient-based adversarial attacks and various jailbreak techniques. We evaluate Sim-CLIP+ against three distinct jailbreak attack strategies and perform clean evaluations using standard downstream datasets, including COCO for image captioning and OKVQA for visual question answering. Extensive experiments demonstrate that Sim-CLIP+ maintains high clean accuracy while substantially improving robustness against both gradient-based adversarial attacks and jailbreak techniques. Our code and robust vision encoders are available at https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-attack.git.

Related Topics

Computer Science

Artificial Intelligence

Computer Security

Computer Vision

Concepts

Adversarial system Computer science Encoder Artificial intelligence Computer security Computer vision Operating system

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2409.07353
PDF: https://arxiv.org/pdf/2409.07353
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4403621984

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4403621984

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2409.07353

Digital Object Identifier
Title: Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-09-11

Full publication date if available
Authors: Md Zarif Hossain, Ahmed Imteaj

List of authors in order
Landing page: https://arxiv.org/abs/2409.07353

Publisher landing page
PDF URL: https://arxiv.org/pdf/2409.07353

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2409.07353

Direct OA link when available
Concepts: Adversarial system, Computer science, Encoder, Artificial intelligence, Computer security, Computer vision, Operating system

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4403621984
doi	https://doi.org/10.48550/arxiv.2409.07353
ids.doi	https://doi.org/10.48550/arxiv.2409.07353
ids.openalex	https://openalex.org/W4403621984
fwci
type	preprint
title	Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11689
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9976999759674072
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Adversarial Robustness in Machine Learning
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C37736160
concepts[0].level	2
concepts[0].score	0.8337649703025818
concepts[0].wikidata	https://www.wikidata.org/wiki/Q1801315
concepts[0].display_name	Adversarial system
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.6477616429328918
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C118505674
concepts[2].level	2
concepts[2].score	0.640882134437561
concepts[2].wikidata	https://www.wikidata.org/wiki/Q42586063
concepts[2].display_name	Encoder
concepts[3].id	https://openalex.org/C154945302
concepts[3].level	1
concepts[3].score	0.4796372056007385
concepts[3].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[3].display_name	Artificial intelligence
concepts[4].id	https://openalex.org/C38652104
concepts[4].level	1
concepts[4].score	0.42471349239349365
concepts[4].wikidata	https://www.wikidata.org/wiki/Q3510521
concepts[4].display_name	Computer security
concepts[5].id	https://openalex.org/C31972630
concepts[5].level	1
concepts[5].score	0.39838290214538574
concepts[5].wikidata	https://www.wikidata.org/wiki/Q844240
concepts[5].display_name	Computer vision
concepts[6].id	https://openalex.org/C111919701
concepts[6].level	1
concepts[6].score	0.0
concepts[6].wikidata	https://www.wikidata.org/wiki/Q9135
concepts[6].display_name	Operating system
keywords[0].id	https://openalex.org/keywords/adversarial-system
keywords[0].score	0.8337649703025818
keywords[0].display_name	Adversarial system
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.6477616429328918
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/encoder
keywords[2].score	0.640882134437561
keywords[2].display_name	Encoder
keywords[3].id	https://openalex.org/keywords/artificial-intelligence
keywords[3].score	0.4796372056007385
keywords[3].display_name	Artificial intelligence
keywords[4].id	https://openalex.org/keywords/computer-security
keywords[4].score	0.42471349239349365
keywords[4].display_name	Computer security
keywords[5].id	https://openalex.org/keywords/computer-vision
keywords[5].score	0.39838290214538574
keywords[5].display_name	Computer vision
language	en
locations[0].id	pmh:oai:arXiv.org:2409.07353
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2409.07353
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2409.07353
locations[1].id	doi:10.48550/arxiv.2409.07353
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2409.07353
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5071571852
authorships[0].author.orcid
authorships[0].author.display_name	Md Zarif Hossain
authorships[0].author_position	first
authorships[0].raw_author_name	Hossain, Md Zarif
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5077711449
authorships[1].author.orcid	https://orcid.org/0000-0002-6975-3997
authorships[1].author.display_name	Ahmed Imteaj
authorships[1].author_position	last
authorships[1].raw_author_name	Imteaj, Ahmed
authorships[1].is_corresponding	False
has_content.pdf	True
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2409.07353
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11689
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9976999759674072
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Adversarial Robustness in Machine Learning
related_works	https://openalex.org/W2772917594, https://openalex.org/W2036807459, https://openalex.org/W2058170566, https://openalex.org/W2755342338, https://openalex.org/W2166024367, https://openalex.org/W3116076068, https://openalex.org/W2229312674, https://openalex.org/W2951359407, https://openalex.org/W2079911747, https://openalex.org/W1969923398
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2409.07353
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2409.07353
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2409.07353
primary_location.id	pmh:oai:arXiv.org:2409.07353
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2409.07353
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2409.07353
publication_date	2024-09-11
publication_year	2024
referenced_works_count	0
abstract_inverted_index.a	66, 79, 99, 110
abstract_inverted_index.AI	12
abstract_inverted_index.We	63, 143
abstract_inverted_index.as	109
abstract_inverted_index.at	200
abstract_inverted_index.by	13, 59, 77
abstract_inverted_index.in	15
abstract_inverted_index.no	120
abstract_inverted_index.of	51
abstract_inverted_index.on	5
abstract_inverted_index.or	40
abstract_inverted_index.to	23, 37, 123
abstract_inverted_index.Our	192
abstract_inverted_index.and	33, 53, 89, 126, 139, 152, 165, 189, 194
abstract_inverted_index.are	198
abstract_inverted_index.big	7
abstract_inverted_index.for	162, 167
abstract_inverted_index.our	117
abstract_inverted_index.the	35, 48, 54, 60, 73, 124
abstract_inverted_index.CLIP	74
abstract_inverted_index.COCO	161
abstract_inverted_index.LLMs	52
abstract_inverted_index.LVLM	107, 125
abstract_inverted_index.This	43, 82
abstract_inverted_index.both	47, 135, 185
abstract_inverted_index.code	193
abstract_inverted_index.from	46
abstract_inverted_index.have	9
abstract_inverted_index.high	177
abstract_inverted_index.into	105
abstract_inverted_index.that	70, 174
abstract_inverted_index.Large	0
abstract_inverted_index.OKVQA	166
abstract_inverted_index.cause	34
abstract_inverted_index.clean	90, 154, 178
abstract_inverted_index.image	163
abstract_inverted_index.model	36
abstract_inverted_index.novel	67
abstract_inverted_index.stems	45
abstract_inverted_index.these	19
abstract_inverted_index.three	147
abstract_inverted_index.using	156
abstract_inverted_index.which	29
abstract_inverted_index.while	180
abstract_inverted_index.Models	2
abstract_inverted_index.Unlike	114
abstract_inverted_index.attack	56, 150
abstract_inverted_index.bypass	30
abstract_inverted_index.cosine	85
abstract_inverted_index.incurs	127
abstract_inverted_index.method	118
abstract_inverted_index.models	20
abstract_inverted_index.offers	98
abstract_inverted_index.remain	21
abstract_inverted_index.robust	111, 195
abstract_inverted_index.safety	31
abstract_inverted_index.tasks.	17
abstract_inverted_index.vision	75, 112, 196
abstract_inverted_index.visual	61, 168
abstract_inverted_index.Siamese	80
abstract_inverted_index.against	94, 134, 146, 184
abstract_inverted_index.attacks	138, 188
abstract_inverted_index.between	87
abstract_inverted_index.defense	68
abstract_inverted_index.encoder	76
abstract_inverted_index.harmful	41
abstract_inverted_index.minimal	128
abstract_inverted_index.perform	153
abstract_inverted_index.propose	64
abstract_inverted_index.surface	57
abstract_inverted_index.trained	4
abstract_inverted_index.various	140
abstract_inverted_index.(LVLMs),	3
abstract_inverted_index.However,	18
abstract_inverted_index.accuracy	179
abstract_inverted_index.advanced	11
abstract_inverted_index.allowing	102
abstract_inverted_index.approach	83
abstract_inverted_index.attacks,	25, 28
abstract_inverted_index.distinct	148
abstract_inverted_index.encoder.	113
abstract_inverted_index.encoders	197
abstract_inverted_index.evaluate	144
abstract_inverted_index.existing	106
abstract_inverted_index.expanded	55
abstract_inverted_index.generate	38
abstract_inverted_index.inherent	49
abstract_inverted_index.previous	115
abstract_inverted_index.question	169
abstract_inverted_index.requires	119
abstract_inverted_index.samples,	91
abstract_inverted_index.seamless	103
abstract_inverted_index.standard	157
abstract_inverted_index.Extensive	171
abstract_inverted_index.Sim-CLIP+	97, 131, 145, 175
abstract_inverted_index.available	199
abstract_inverted_index.datasets,	8, 159
abstract_inverted_index.defenses,	116
abstract_inverted_index.excelling	14
abstract_inverted_index.improving	182
abstract_inverted_index.including	160
abstract_inverted_index.jailbreak	27, 141, 149, 190
abstract_inverted_index.maintains	176
abstract_inverted_index.maximizes	84
abstract_inverted_index.mechanism	69
abstract_inverted_index.modality.	62
abstract_inverted_index.overhead.	130
abstract_inverted_index.perturbed	88
abstract_inverted_index.protocols	32
abstract_inverted_index.solution,	101
abstract_inverted_index.Sim-CLIP+,	65
abstract_inverted_index.answering.	170
abstract_inverted_index.captioning	164
abstract_inverted_index.downstream	158
abstract_inverted_index.fine-tunes	72
abstract_inverted_index.introduced	58
abstract_inverted_index.leveraging	78
abstract_inverted_index.misleading	39
abstract_inverted_index.multimodal	6
abstract_inverted_index.resilience	93
abstract_inverted_index.responses.	42
abstract_inverted_index.robustness	183
abstract_inverted_index.similarity	86
abstract_inverted_index.strategies	151
abstract_inverted_index.structural	121
abstract_inverted_index.vulnerable	22
abstract_inverted_index.adversarial	24, 95, 137, 187
abstract_inverted_index.demonstrate	173
abstract_inverted_index.evaluations	155
abstract_inverted_index.experiments	172
abstract_inverted_index.integration	104
abstract_inverted_index.techniques.	142, 191
abstract_inverted_index.demonstrates	132
abstract_inverted_index.facilitating	92
abstract_inverted_index.particularly	26
abstract_inverted_index.adversarially	71
abstract_inverted_index.architecture.	81
abstract_inverted_index.architectures	108
abstract_inverted_index.computational	129
abstract_inverted_index.effectiveness	133
abstract_inverted_index.modifications	122
abstract_inverted_index.plug-and-play	100
abstract_inverted_index.significantly	10
abstract_inverted_index.substantially	181
abstract_inverted_index.vulnerability	44
abstract_inverted_index.gradient-based	136, 186
abstract_inverted_index.manipulations.	96
abstract_inverted_index.Vision-Language	1
abstract_inverted_index.vision-language	16
abstract_inverted_index.susceptibilities	50
abstract_inverted_index.https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-attack.git.	201
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	2
citation_normalized_percentile