Learning Dynamics of VLM Finetuning Article Swipe

PDF

J. Q. Zhang , Kaitong Cai , Jing Yang , Keze Wang ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2510.11978

Preference-based finetuning of vision--language models (VLMs) is brittle: trivially wrong negatives inject uninformative gradients that destabilize training. We recast alignment as \textbf{learning-dynamics--aware optimization} and introduce \textbf{Cooling-Weighted DPO (CW-DPO)}, a two-stage recipe that explicitly models and exploits the training trajectory. \textbf{Stage 1} performs supervised finetuning with \textbf{gentle negatives}: \textbf{low-weight smoothed supervision} that regularizes the base policy and curbs overconfidence without explicit penalties. \textbf{Stage 2} applies a DPO objective in which the \textbf{negative term is scaled by a cooling weight} computed from the model's \textbf{average token log-probability} on each negative, suppressing uninformative gradients from easy or off-distribution samples while preserving signal from hard negatives. In practice, we emphasize \textbf{on-policy negatives} and allow \textbf{mixed negatives} by blending a controllable fraction of dataset negatives to maintain contrast freshness. Throughout, we instrument training with $Δ\!\log p$ probes on positives and negatives as first-class signals for early stopping, curriculum design, and failure diagnosis. Across diverse VLM tasks, CW-DPO yields \textbf{more stable optimization}, \textbf{better calibration}, and \textbf{higher pairwise win-rates} than SFT-only and vanilla DPO, while \textbf{converging in fewer steps}. Ablations isolate the \textbf{cooling-weight mechanism} as the primary driver of these gains and show complementary benefits from mixing on-policy and dataset negatives. Taken together, our results show that \textbf{smoothing learning dynamics before cooling preferences} is a simple, general principle for robust VLM alignment.

Related Topics

General Dynamics F-16 Fighting Falcon

Learning Theory (Education)

Experiential Learning

Learning Environment

General Dynamics F-111 Aardvark

Machine Learning

General Dynamics

Attention (Machine Learning)

General Dynamics F-16 Fighting Falcon Operators

Learning

General Dynamics–Grumman F-111B

Stall (Fluid Dynamics)

Concepts

No concepts available.

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2510.11978
PDF: https://arxiv.org/pdf/2510.11978
OA Status: green
OpenAlex ID: https://openalex.org/W4415257533

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4415257533

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2510.11978

Digital Object Identifier
Title: Learning Dynamics of VLM Finetuning

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-10-13

Full publication date if available
Authors: J. Q. Zhang, Kaitong Cai, Jing Yang, Keze Wang

List of authors in order
Landing page: https://arxiv.org/abs/2510.11978

Publisher landing page
PDF URL: https://arxiv.org/pdf/2510.11978

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2510.11978

Direct OA link when available
Cited by: 0

Total citation count in OpenAlex

Full payload

id	https://openalex.org/W4415257533
doi	https://doi.org/10.48550/arxiv.2510.11978
ids.doi	https://doi.org/10.48550/arxiv.2510.11978
ids.openalex	https://openalex.org/W4415257533
fwci
type	preprint
title	Learning Dynamics of VLM Finetuning
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10320
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.48080000281333923
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Neural Networks and Applications
is_xpac	False
apc_list
apc_paid
language	en
locations[0].id	pmh:oai:arXiv.org:2510.11978
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2510.11978
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2510.11978
locations[1].id	doi:10.48550/arxiv.2510.11978
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2510.11978
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5033621150
authorships[0].author.orcid
authorships[0].author.display_name	J. Q. Zhang
authorships[0].author_position	first
authorships[0].raw_author_name	Zhang, Jusheng
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5018936277
authorships[1].author.orcid	https://orcid.org/0000-0002-3557-2784
authorships[1].author.display_name	Kaitong Cai
authorships[1].author_position	middle
authorships[1].raw_author_name	Cai, Kaitong
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5101962723
authorships[2].author.orcid	https://orcid.org/0000-0003-3074-6885
authorships[2].author.display_name	Jing Yang
authorships[2].author_position	middle
authorships[2].raw_author_name	Yang, Jing
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5088124671
authorships[3].author.orcid	https://orcid.org/0000-0002-7817-8306
authorships[3].author.display_name	Keze Wang
authorships[3].author_position	last
authorships[3].raw_author_name	Wang, Keze
authorships[3].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2510.11978
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-17T00:00:00
display_name	Learning Dynamics of VLM Finetuning
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10320
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.48080000281333923
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Neural Networks and Applications
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2510.11978
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2510.11978
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2510.11978
primary_location.id	pmh:oai:arXiv.org:2510.11978
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2510.11978
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2510.11978
publication_date	2025-10-13
publication_year	2025
referenced_works_count	0
abstract_inverted_index.a	28, 64, 75, 114, 207
abstract_inverted_index.1}	40
abstract_inverted_index.2}	62
abstract_inverted_index.In	102
abstract_inverted_index.We	17
abstract_inverted_index.as	20, 136, 177
abstract_inverted_index.by	74, 112
abstract_inverted_index.in	67, 169
abstract_inverted_index.is	6, 72, 206
abstract_inverted_index.of	2, 117, 181
abstract_inverted_index.on	85, 132
abstract_inverted_index.or	93
abstract_inverted_index.p$	130
abstract_inverted_index.to	120
abstract_inverted_index.we	104, 125
abstract_inverted_index.DPO	26, 65
abstract_inverted_index.VLM	149, 213
abstract_inverted_index.and	23, 34, 55, 108, 134, 144, 158, 164, 184, 191
abstract_inverted_index.for	139, 211
abstract_inverted_index.our	196
abstract_inverted_index.the	36, 52, 69, 80, 174, 178
abstract_inverted_index.DPO,	166
abstract_inverted_index.base	53
abstract_inverted_index.each	86
abstract_inverted_index.easy	92
abstract_inverted_index.from	79, 91, 99, 188
abstract_inverted_index.hard	100
abstract_inverted_index.show	185, 198
abstract_inverted_index.term	71
abstract_inverted_index.than	162
abstract_inverted_index.that	14, 31, 50, 199
abstract_inverted_index.with	44, 128
abstract_inverted_index.Taken	194
abstract_inverted_index.allow	109
abstract_inverted_index.curbs	56
abstract_inverted_index.early	140
abstract_inverted_index.fewer	170
abstract_inverted_index.gains	183
abstract_inverted_index.these	182
abstract_inverted_index.token	83
abstract_inverted_index.which	68
abstract_inverted_index.while	96, 167
abstract_inverted_index.wrong	9
abstract_inverted_index.(VLMs)	5
abstract_inverted_index.Across	147
abstract_inverted_index.CW-DPO	151
abstract_inverted_index.before	203
abstract_inverted_index.driver	180
abstract_inverted_index.inject	11
abstract_inverted_index.mixing	189
abstract_inverted_index.models	4, 33
abstract_inverted_index.policy	54
abstract_inverted_index.probes	131
abstract_inverted_index.recast	18
abstract_inverted_index.recipe	30
abstract_inverted_index.robust	212
abstract_inverted_index.scaled	73
abstract_inverted_index.signal	98
abstract_inverted_index.stable	154
abstract_inverted_index.tasks,	150
abstract_inverted_index.yields	152
abstract_inverted_index.applies	63
abstract_inverted_index.cooling	76, 204
abstract_inverted_index.dataset	118, 192
abstract_inverted_index.design,	143
abstract_inverted_index.diverse	148
abstract_inverted_index.failure	145
abstract_inverted_index.general	209
abstract_inverted_index.isolate	173
abstract_inverted_index.model's	81
abstract_inverted_index.primary	179
abstract_inverted_index.results	197
abstract_inverted_index.samples	95
abstract_inverted_index.signals	138
abstract_inverted_index.simple,	208
abstract_inverted_index.steps}.	171
abstract_inverted_index.vanilla	165
abstract_inverted_index.weight}	77
abstract_inverted_index.without	58
abstract_inverted_index.SFT-only	163
abstract_inverted_index.benefits	187
abstract_inverted_index.blending	113
abstract_inverted_index.brittle:	7
abstract_inverted_index.computed	78
abstract_inverted_index.contrast	122
abstract_inverted_index.dynamics	202
abstract_inverted_index.explicit	59
abstract_inverted_index.exploits	35
abstract_inverted_index.fraction	116
abstract_inverted_index.learning	201
abstract_inverted_index.maintain	121
abstract_inverted_index.pairwise	160
abstract_inverted_index.performs	41
abstract_inverted_index.smoothed	48
abstract_inverted_index.training	37, 127
abstract_inverted_index.$Δ\!\log	129
abstract_inverted_index.Ablations	172
abstract_inverted_index.alignment	19
abstract_inverted_index.emphasize	105
abstract_inverted_index.gradients	13, 90
abstract_inverted_index.introduce	24
abstract_inverted_index.negative,	87
abstract_inverted_index.negatives	10, 119, 135
abstract_inverted_index.objective	66
abstract_inverted_index.on-policy	190
abstract_inverted_index.positives	133
abstract_inverted_index.practice,	103
abstract_inverted_index.principle	210
abstract_inverted_index.stopping,	141
abstract_inverted_index.together,	195
abstract_inverted_index.training.	16
abstract_inverted_index.trivially	8
abstract_inverted_index.two-stage	29
abstract_inverted_index.(CW-DPO)},	27
abstract_inverted_index.alignment.	214
abstract_inverted_index.curriculum	142
abstract_inverted_index.diagnosis.	146
abstract_inverted_index.explicitly	32
abstract_inverted_index.finetuning	1, 43
abstract_inverted_index.freshness.	123
abstract_inverted_index.instrument	126
abstract_inverted_index.mechanism}	176
abstract_inverted_index.negatives.	101, 193
abstract_inverted_index.negatives}	107, 111
abstract_inverted_index.penalties.	60
abstract_inverted_index.preserving	97
abstract_inverted_index.supervised	42
abstract_inverted_index.win-rates}	161
abstract_inverted_index.Throughout,	124
abstract_inverted_index.destabilize	15
abstract_inverted_index.first-class	137
abstract_inverted_index.negatives}:	46
abstract_inverted_index.regularizes	51
abstract_inverted_index.suppressing	88
abstract_inverted_index.trajectory.	38
abstract_inverted_index.\textbf{more	153
abstract_inverted_index.controllable	115
abstract_inverted_index.preferences}	205
abstract_inverted_index.supervision}	49
abstract_inverted_index.\textbf{Stage	39, 61
abstract_inverted_index.\textbf{mixed	110
abstract_inverted_index.calibration},	157
abstract_inverted_index.complementary	186
abstract_inverted_index.optimization}	22
abstract_inverted_index.uninformative	12, 89
abstract_inverted_index.\textbf{better	156
abstract_inverted_index.\textbf{gentle	45
abstract_inverted_index.\textbf{higher	159
abstract_inverted_index.optimization},	155
abstract_inverted_index.overconfidence	57
abstract_inverted_index.\textbf{average	82
abstract_inverted_index.Preference-based	0
abstract_inverted_index.\textbf{negative	70
abstract_inverted_index.log-probability}	84
abstract_inverted_index.off-distribution	94
abstract_inverted_index.vision--language	3
abstract_inverted_index.\textbf{on-policy	106
abstract_inverted_index.\textbf{smoothing	200
abstract_inverted_index.\textbf{converging	168
abstract_inverted_index.\textbf{low-weight	47
abstract_inverted_index.\textbf{cooling-weight	175
abstract_inverted_index.\textbf{Cooling-Weighted	25
abstract_inverted_index.\textbf{learning-dynamics--aware	21
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	4
citation_normalized_percentile