Selective Structured State-Spaces for Long-Form Video Understanding Article Swipe

PDF

Jue Wang , Wentao Zhu , Pichao Wang , Xiang Yu , Linda Liu , Mohamed Omar , Roszilah Hamid ·

YOU? · · 2023 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2303.14526

Effective modeling of complex spatiotemporal dependencies in long-form videos remains an open problem. The recently proposed Structured State-Space Sequence (S4) model with its linear complexity offers a promising direction in this space. However, we demonstrate that treating all image-tokens equally as done by S4 model can adversely affect its efficiency and accuracy. To address this limitation, we present a novel Selective S4 (i.e., S5) model that employs a lightweight mask generator to adaptively select informative image tokens resulting in more efficient and accurate modeling of long-term spatiotemporal dependencies in videos. Unlike previous mask-based token reduction methods used in transformers, our S5 model avoids the dense self-attention calculation by making use of the guidance of the momentum-updated S4 model. This enables our model to efficiently discard less informative tokens and adapt to various long-form video understanding tasks more effectively. However, as is the case for most token reduction methods, the informative image tokens could be dropped incorrectly. To improve the robustness and the temporal horizon of our model, we propose a novel long-short masked contrastive learning (LSMCL) approach that enables our model to predict longer temporal context using shorter input videos. We present extensive comparative results using three challenging long-form video understanding datasets (LVU, COIN and Breakfast), demonstrating that our approach consistently outperforms the previous state-of-the-art S4 model by up to 9.6% accuracy while reducing its memory footprint by 23%.

Related Topics

Computer Science

Security Token

Artificial Intelligence

Concepts

Computer science Security token Robustness (evolution) Artificial intelligence Memory footprint Computer vision Machine learning Pattern recognition (psychology) Biochemistry Gene Chemistry Operating system Computer security

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2303.14526
PDF: https://arxiv.org/pdf/2303.14526
OA Status: green
Cited By: 3
Related Works: 10
OpenAlex ID: https://openalex.org/W4361193183

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4361193183

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2303.14526

Digital Object Identifier
Title: Selective Structured State-Spaces for Long-Form Video Understanding

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2023

Year of publication
Publication date: 2023-03-25

Full publication date if available
Authors: Jue Wang, Wentao Zhu, Pichao Wang, Xiang Yu, Linda Liu, Mohamed Omar, Roszilah Hamid

List of authors in order
Landing page: https://arxiv.org/abs/2303.14526

Publisher landing page
PDF URL: https://arxiv.org/pdf/2303.14526

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2303.14526

Direct OA link when available
Concepts: Computer science, Security token, Robustness (evolution), Artificial intelligence, Memory footprint, Computer vision, Machine learning, Pattern recognition (psychology), Biochemistry, Gene, Chemistry, Operating system, Computer security

Top concepts (fields/topics) attached by OpenAlex
Cited by: 3

Total citation count in OpenAlex
Citations by year (recent): 2025: 2, 2024: 1

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4361193183
doi	https://doi.org/10.48550/arxiv.2303.14526
ids.doi	https://doi.org/10.48550/arxiv.2303.14526
ids.openalex	https://openalex.org/W4361193183
fwci
type	preprint
title	Selective Structured State-Spaces for Long-Form Video Understanding
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11714
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9916999936103821
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1707
topics[0].subfield.display_name	Computer Vision and Pattern Recognition
topics[0].display_name	Multimodal Machine Learning Applications
topics[1].id	https://openalex.org/T10627
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9890999794006348
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1707
topics[1].subfield.display_name	Computer Vision and Pattern Recognition
topics[1].display_name	Advanced Image and Video Retrieval Techniques
topics[2].id	https://openalex.org/T10812
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9873999953269958
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1707
topics[2].subfield.display_name	Computer Vision and Pattern Recognition
topics[2].display_name	Human Pose and Action Recognition
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C41008148
concepts[0].level	0
concepts[0].score	0.8190096616744995
concepts[0].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[0].display_name	Computer science
concepts[1].id	https://openalex.org/C48145219
concepts[1].level	2
concepts[1].score	0.7777024507522583
concepts[1].wikidata	https://www.wikidata.org/wiki/Q1335365
concepts[1].display_name	Security token
concepts[2].id	https://openalex.org/C63479239
concepts[2].level	3
concepts[2].score	0.6377301812171936
concepts[2].wikidata	https://www.wikidata.org/wiki/Q7353546
concepts[2].display_name	Robustness (evolution)
concepts[3].id	https://openalex.org/C154945302
concepts[3].level	1
concepts[3].score	0.5640653967857361
concepts[3].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[3].display_name	Artificial intelligence
concepts[4].id	https://openalex.org/C74912251
concepts[4].level	2
concepts[4].score	0.5099500417709351
concepts[4].wikidata	https://www.wikidata.org/wiki/Q6815727
concepts[4].display_name	Memory footprint
concepts[5].id	https://openalex.org/C31972630
concepts[5].level	1
concepts[5].score	0.3788982331752777
concepts[5].wikidata	https://www.wikidata.org/wiki/Q844240
concepts[5].display_name	Computer vision
concepts[6].id	https://openalex.org/C119857082
concepts[6].level	1
concepts[6].score	0.37289655208587646
concepts[6].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[6].display_name	Machine learning
concepts[7].id	https://openalex.org/C153180895
concepts[7].level	2
concepts[7].score	0.3645690083503723
concepts[7].wikidata	https://www.wikidata.org/wiki/Q7148389
concepts[7].display_name	Pattern recognition (psychology)
concepts[8].id	https://openalex.org/C55493867
concepts[8].level	1
concepts[8].score	0.0
concepts[8].wikidata	https://www.wikidata.org/wiki/Q7094
concepts[8].display_name	Biochemistry
concepts[9].id	https://openalex.org/C104317684
concepts[9].level	2
concepts[9].score	0.0
concepts[9].wikidata	https://www.wikidata.org/wiki/Q7187
concepts[9].display_name	Gene
concepts[10].id	https://openalex.org/C185592680
concepts[10].level	0
concepts[10].score	0.0
concepts[10].wikidata	https://www.wikidata.org/wiki/Q2329
concepts[10].display_name	Chemistry
concepts[11].id	https://openalex.org/C111919701
concepts[11].level	1
concepts[11].score	0.0
concepts[11].wikidata	https://www.wikidata.org/wiki/Q9135
concepts[11].display_name	Operating system
concepts[12].id	https://openalex.org/C38652104
concepts[12].level	1
concepts[12].score	0.0
concepts[12].wikidata	https://www.wikidata.org/wiki/Q3510521
concepts[12].display_name	Computer security
keywords[0].id	https://openalex.org/keywords/computer-science
keywords[0].score	0.8190096616744995
keywords[0].display_name	Computer science
keywords[1].id	https://openalex.org/keywords/security-token
keywords[1].score	0.7777024507522583
keywords[1].display_name	Security token
keywords[2].id	https://openalex.org/keywords/robustness
keywords[2].score	0.6377301812171936
keywords[2].display_name	Robustness (evolution)
keywords[3].id	https://openalex.org/keywords/artificial-intelligence
keywords[3].score	0.5640653967857361
keywords[3].display_name	Artificial intelligence
keywords[4].id	https://openalex.org/keywords/memory-footprint
keywords[4].score	0.5099500417709351
keywords[4].display_name	Memory footprint
keywords[5].id	https://openalex.org/keywords/computer-vision
keywords[5].score	0.3788982331752777
keywords[5].display_name	Computer vision
keywords[6].id	https://openalex.org/keywords/machine-learning
keywords[6].score	0.37289655208587646
keywords[6].display_name	Machine learning
keywords[7].id	https://openalex.org/keywords/pattern-recognition
keywords[7].score	0.3645690083503723
keywords[7].display_name	Pattern recognition (psychology)
language	en
locations[0].id	pmh:oai:arXiv.org:2303.14526
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license	cc-by-nc-nd
locations[0].pdf_url	https://arxiv.org/pdf/2303.14526
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id	https://openalex.org/licenses/cc-by-nc-nd
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2303.14526
locations[1].id	doi:10.48550/arxiv.2303.14526
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2303.14526
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5100440604
authorships[0].author.orcid	https://orcid.org/0000-0002-3641-3136
authorships[0].author.display_name	Jue Wang
authorships[0].author_position	first
authorships[0].raw_author_name	Wang, Jue
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5031854562
authorships[1].author.orcid	https://orcid.org/0000-0001-9290-1778
authorships[1].author.display_name	Wentao Zhu
authorships[1].author_position	middle
authorships[1].raw_author_name	Zhu, Wentao
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5042680345
authorships[2].author.orcid	https://orcid.org/0000-0002-1430-0237
authorships[2].author.display_name	Pichao Wang
authorships[2].author_position	middle
authorships[2].raw_author_name	Wang, Pichao
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5100321699
authorships[3].author.orcid	https://orcid.org/0000-0003-2765-2749
authorships[3].author.display_name	Xiang Yu
authorships[3].author_position	middle
authorships[3].raw_author_name	Yu, Xiang
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5031896207
authorships[4].author.orcid	https://orcid.org/0000-0003-3687-9291
authorships[4].author.display_name	Linda Liu
authorships[4].author_position	middle
authorships[4].raw_author_name	Liu, Linda
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5101736497
authorships[5].author.orcid	https://orcid.org/0000-0002-9550-9840
authorships[5].author.display_name	Mohamed Omar
authorships[5].author_position	middle
authorships[5].raw_author_name	Omar, Mohamed
authorships[5].is_corresponding	False
authorships[6].author.id	https://openalex.org/A5012139103
authorships[6].author.orcid	https://orcid.org/0000-0002-4617-970X
authorships[6].author.display_name	Roszilah Hamid
authorships[6].author_position	last
authorships[6].raw_author_name	Hamid, Raffay
authorships[6].is_corresponding	False
has_content.pdf	True
has_content.grobid_xml	True
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2303.14526
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Selective Structured State-Spaces for Long-Form Video Understanding
has_fulltext	True
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11714
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9916999936103821
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1707
primary_topic.subfield.display_name	Computer Vision and Pattern Recognition
primary_topic.display_name	Multimodal Machine Learning Applications
related_works	https://openalex.org/W4388335561, https://openalex.org/W2970530566, https://openalex.org/W4288261899, https://openalex.org/W4307309205, https://openalex.org/W2967478618, https://openalex.org/W4385009901, https://openalex.org/W4385572700, https://openalex.org/W2997152889, https://openalex.org/W4387768015, https://openalex.org/W4285141722
cited_by_count	3
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	2
counts_by_year[1].year	2024
counts_by_year[1].cited_by_count	1
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2303.14526
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license	cc-by-nc-nd
best_oa_location.pdf_url	https://arxiv.org/pdf/2303.14526
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id	https://openalex.org/licenses/cc-by-nc-nd
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2303.14526
primary_location.id	pmh:oai:arXiv.org:2303.14526
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license	cc-by-nc-nd
primary_location.pdf_url	https://arxiv.org/pdf/2303.14526
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id	https://openalex.org/licenses/cc-by-nc-nd
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2303.14526
publication_date	2023-03-25
publication_year	2023
referenced_works_count	0
abstract_inverted_index.a	26, 58, 67, 169
abstract_inverted_index.S4	43, 61, 116, 215
abstract_inverted_index.S5	100
abstract_inverted_index.To	52, 156
abstract_inverted_index.We	190
abstract_inverted_index.an	10
abstract_inverted_index.as	40, 139
abstract_inverted_index.be	153
abstract_inverted_index.by	42, 107, 217, 227
abstract_inverted_index.in	6, 29, 78, 88, 97
abstract_inverted_index.is	140
abstract_inverted_index.of	2, 84, 110, 113, 164
abstract_inverted_index.to	71, 122, 130, 181, 219
abstract_inverted_index.up	218
abstract_inverted_index.we	33, 56, 167
abstract_inverted_index.S5)	63
abstract_inverted_index.The	13
abstract_inverted_index.all	37
abstract_inverted_index.and	50, 81, 128, 160, 204
abstract_inverted_index.can	45
abstract_inverted_index.for	143
abstract_inverted_index.its	22, 48, 224
abstract_inverted_index.our	99, 120, 165, 179, 208
abstract_inverted_index.the	103, 111, 114, 141, 148, 158, 161, 212
abstract_inverted_index.use	109
abstract_inverted_index.(S4)	19
abstract_inverted_index.23%.	228
abstract_inverted_index.9.6%	220
abstract_inverted_index.COIN	203
abstract_inverted_index.This	118
abstract_inverted_index.case	142
abstract_inverted_index.done	41
abstract_inverted_index.less	125
abstract_inverted_index.mask	69
abstract_inverted_index.more	79, 136
abstract_inverted_index.most	144
abstract_inverted_index.open	11
abstract_inverted_index.that	35, 65, 177, 207
abstract_inverted_index.this	30, 54
abstract_inverted_index.used	96
abstract_inverted_index.with	21
abstract_inverted_index.(LVU,	202
abstract_inverted_index.adapt	129
abstract_inverted_index.could	152
abstract_inverted_index.dense	104
abstract_inverted_index.image	75, 150
abstract_inverted_index.input	188
abstract_inverted_index.model	20, 44, 64, 101, 121, 180, 216
abstract_inverted_index.novel	59, 170
abstract_inverted_index.tasks	135
abstract_inverted_index.three	196
abstract_inverted_index.token	93, 145
abstract_inverted_index.using	186, 195
abstract_inverted_index.video	133, 199
abstract_inverted_index.while	222
abstract_inverted_index.(i.e.,	62
abstract_inverted_index.Unlike	90
abstract_inverted_index.affect	47
abstract_inverted_index.avoids	102
abstract_inverted_index.linear	23
abstract_inverted_index.longer	183
abstract_inverted_index.making	108
abstract_inverted_index.masked	172
abstract_inverted_index.memory	225
abstract_inverted_index.model,	166
abstract_inverted_index.model.	117
abstract_inverted_index.offers	25
abstract_inverted_index.select	73
abstract_inverted_index.space.	31
abstract_inverted_index.tokens	76, 127, 151
abstract_inverted_index.videos	8
abstract_inverted_index.(LSMCL)	175
abstract_inverted_index.address	53
abstract_inverted_index.complex	3
abstract_inverted_index.context	185
abstract_inverted_index.discard	124
abstract_inverted_index.dropped	154
abstract_inverted_index.employs	66
abstract_inverted_index.enables	119, 178
abstract_inverted_index.equally	39
abstract_inverted_index.horizon	163
abstract_inverted_index.improve	157
abstract_inverted_index.methods	95
abstract_inverted_index.predict	182
abstract_inverted_index.present	57, 191
abstract_inverted_index.propose	168
abstract_inverted_index.remains	9
abstract_inverted_index.results	194
abstract_inverted_index.shorter	187
abstract_inverted_index.various	131
abstract_inverted_index.videos.	89, 189
abstract_inverted_index.However,	32, 138
abstract_inverted_index.Sequence	18
abstract_inverted_index.accuracy	221
abstract_inverted_index.accurate	82
abstract_inverted_index.approach	176, 209
abstract_inverted_index.datasets	201
abstract_inverted_index.guidance	112
abstract_inverted_index.learning	174
abstract_inverted_index.methods,	147
abstract_inverted_index.modeling	1, 83
abstract_inverted_index.previous	91, 213
abstract_inverted_index.problem.	12
abstract_inverted_index.proposed	15
abstract_inverted_index.recently	14
abstract_inverted_index.reducing	223
abstract_inverted_index.temporal	162, 184
abstract_inverted_index.treating	36
abstract_inverted_index.Effective	0
abstract_inverted_index.Selective	60
abstract_inverted_index.accuracy.	51
abstract_inverted_index.adversely	46
abstract_inverted_index.direction	28
abstract_inverted_index.efficient	80
abstract_inverted_index.extensive	192
abstract_inverted_index.footprint	226
abstract_inverted_index.generator	70
abstract_inverted_index.long-form	7, 132, 198
abstract_inverted_index.long-term	85
abstract_inverted_index.promising	27
abstract_inverted_index.reduction	94, 146
abstract_inverted_index.resulting	77
abstract_inverted_index.Structured	16
abstract_inverted_index.adaptively	72
abstract_inverted_index.complexity	24
abstract_inverted_index.efficiency	49
abstract_inverted_index.long-short	171
abstract_inverted_index.mask-based	92
abstract_inverted_index.robustness	159
abstract_inverted_index.Breakfast),	205
abstract_inverted_index.State-Space	17
abstract_inverted_index.calculation	106
abstract_inverted_index.challenging	197
abstract_inverted_index.comparative	193
abstract_inverted_index.contrastive	173
abstract_inverted_index.demonstrate	34
abstract_inverted_index.efficiently	123
abstract_inverted_index.informative	74, 126, 149
abstract_inverted_index.lightweight	68
abstract_inverted_index.limitation,	55
abstract_inverted_index.outperforms	211
abstract_inverted_index.consistently	210
abstract_inverted_index.dependencies	5, 87
abstract_inverted_index.effectively.	137
abstract_inverted_index.image-tokens	38
abstract_inverted_index.incorrectly.	155
abstract_inverted_index.demonstrating	206
abstract_inverted_index.transformers,	98
abstract_inverted_index.understanding	134, 200
abstract_inverted_index.self-attention	105
abstract_inverted_index.spatiotemporal	4, 86
abstract_inverted_index.momentum-updated	115
abstract_inverted_index.state-of-the-art	214
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	7
citation_normalized_percentile