SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition Article Swipe

PDF

Yongkun Du , Zhineng Chen , Hongtao Xie , Caiyan Jia , Yu–Gang Jiang ·

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2411.15858

Connectionist temporal classification (CTC)-based scene text recognition (STR) methods, e.g., SVTR, are widely employed in OCR applications, mainly due to their simple architecture, which only contains a visual model and a CTC-aligned linear classifier, and therefore fast inference. However, they generally exhibit worse accuracy than encoder-decoder-based methods (EDTRs) due to struggling with text irregularity and linguistic missing. To address these challenges, we propose SVTRv2, a CTC model endowed with the ability to handle text irregularities and model linguistic context. First, a multi-size resizing strategy is proposed to resize text instances to appropriate predefined sizes, effectively avoiding severe text distortion. Meanwhile, we introduce a feature rearrangement module to ensure that visual features accommodate the requirement of CTC, thus alleviating the alignment puzzle. Second, we propose a semantic guidance module. It integrates linguistic context into the visual features, allowing CTC model to leverage language information for accuracy improvement. This module can be omitted at the inference stage and would not increase the time cost. We extensively evaluate SVTRv2 in both standard and recent challenging benchmarks, where SVTRv2 is fairly compared to popular STR models across multiple scenarios, including different types of text irregularity, languages, long text, and whether employing pretraining. SVTRv2 surpasses most EDTRs across the scenarios in terms of accuracy and inference speed. Code: https://github.com/Topdu/OpenOCR.

Related Topics

Computer Science

Artificial Intelligence

Computer Vision

Concepts

Encoder Computer science Speech recognition Artificial intelligence Computer vision Pattern recognition (psychology) Operating system

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2411.15858
PDF: https://arxiv.org/pdf/2411.15858
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4404986866

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4404986866

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2411.15858

Digital Object Identifier
Title: SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-11-24

Full publication date if available
Authors: Yongkun Du, Zhineng Chen, Hongtao Xie, Caiyan Jia, Yu–Gang Jiang

List of authors in order
Landing page: https://arxiv.org/abs/2411.15858

Publisher landing page
PDF URL: https://arxiv.org/pdf/2411.15858

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2411.15858

Direct OA link when available
Concepts: Encoder, Computer science, Speech recognition, Artificial intelligence, Computer vision, Pattern recognition (psychology), Operating system

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4404986866
doi	https://doi.org/10.48550/arxiv.2411.15858
ids.doi	https://doi.org/10.48550/arxiv.2411.15858
ids.openalex	https://openalex.org/W4404986866
fwci
type	preprint
title	SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10201
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9815999865531921
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Speech Recognition and Synthesis
topics[1].id	https://openalex.org/T10601
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9799000024795532
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1707
topics[1].subfield.display_name	Computer Vision and Pattern Recognition
topics[1].display_name	Handwritten Text Recognition Techniques
topics[2].id	https://openalex.org/T14339
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9320999979972839
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1707
topics[2].subfield.display_name	Computer Vision and Pattern Recognition
topics[2].display_name	Image Processing and 3D Reconstruction
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C118505674
concepts[0].level	2
concepts[0].score	0.7564139366149902
concepts[0].wikidata	https://www.wikidata.org/wiki/Q42586063
concepts[0].display_name	Encoder
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.644904375076294
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C28490314
concepts[2].level	1
concepts[2].score	0.5867303013801575
concepts[2].wikidata	https://www.wikidata.org/wiki/Q189436
concepts[2].display_name	Speech recognition
concepts[3].id	https://openalex.org/C154945302
concepts[3].level	1
concepts[3].score	0.4201323091983795
concepts[3].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[3].display_name	Artificial intelligence
concepts[4].id	https://openalex.org/C31972630
concepts[4].level	1
concepts[4].score	0.3681372404098511
concepts[4].wikidata	https://www.wikidata.org/wiki/Q844240
concepts[4].display_name	Computer vision
concepts[5].id	https://openalex.org/C153180895
concepts[5].level	2
concepts[5].score	0.35882246494293213
concepts[5].wikidata	https://www.wikidata.org/wiki/Q7148389
concepts[5].display_name	Pattern recognition (psychology)
concepts[6].id	https://openalex.org/C111919701
concepts[6].level	1
concepts[6].score	0.04807063937187195
concepts[6].wikidata	https://www.wikidata.org/wiki/Q9135
concepts[6].display_name	Operating system
keywords[0].id	https://openalex.org/keywords/encoder
keywords[0].score	0.7564139366149902
keywords[0].display_name	Encoder
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.644904375076294
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/speech-recognition
keywords[2].score	0.5867303013801575
keywords[2].display_name	Speech recognition
keywords[3].id	https://openalex.org/keywords/artificial-intelligence
keywords[3].score	0.4201323091983795
keywords[3].display_name	Artificial intelligence
keywords[4].id	https://openalex.org/keywords/computer-vision
keywords[4].score	0.3681372404098511
keywords[4].display_name	Computer vision
keywords[5].id	https://openalex.org/keywords/pattern-recognition
keywords[5].score	0.35882246494293213
keywords[5].display_name	Pattern recognition (psychology)
keywords[6].id	https://openalex.org/keywords/operating-system
keywords[6].score	0.04807063937187195
keywords[6].display_name	Operating system
language	en
locations[0].id	pmh:oai:arXiv.org:2411.15858
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2411.15858
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2411.15858
locations[1].id	doi:10.48550/arxiv.2411.15858
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2411.15858
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5102915298
authorships[0].author.orcid	https://orcid.org/0009-0000-9859-721X
authorships[0].author.display_name	Yongkun Du
authorships[0].author_position	first
authorships[0].raw_author_name	Du, Yongkun
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5080463909
authorships[1].author.orcid	https://orcid.org/0000-0003-1543-6889
authorships[1].author.display_name	Zhineng Chen
authorships[1].author_position	middle
authorships[1].raw_author_name	Chen, Zhineng
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5078162380
authorships[2].author.orcid	https://orcid.org/0000-0002-6249-5315
authorships[2].author.display_name	Hongtao Xie
authorships[2].author_position	middle
authorships[2].raw_author_name	Xie, Hongtao
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5085282915
authorships[3].author.orcid	https://orcid.org/0000-0003-0650-9564
authorships[3].author.display_name	Caiyan Jia
authorships[3].author_position	middle
authorships[3].raw_author_name	Jia, Caiyan
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5047962986
authorships[4].author.orcid	https://orcid.org/0000-0002-1907-8567
authorships[4].author.display_name	Yu–Gang Jiang
authorships[4].author_position	last
authorships[4].raw_author_name	Jiang, Yu-Gang
authorships[4].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2411.15858
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10201
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9815999865531921
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Speech Recognition and Synthesis
related_works	https://openalex.org/W2772917594, https://openalex.org/W2036807459, https://openalex.org/W2058170566, https://openalex.org/W2755342338, https://openalex.org/W2166024367, https://openalex.org/W3116076068, https://openalex.org/W2229312674, https://openalex.org/W2951359407, https://openalex.org/W2079911747, https://openalex.org/W1969923398
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2411.15858
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2411.15858
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2411.15858
primary_location.id	pmh:oai:arXiv.org:2411.15858
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2411.15858
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2411.15858
publication_date	2024-11-24
publication_year	2024
referenced_works_count	0
abstract_inverted_index.a	26, 30, 64, 80, 102, 124
abstract_inverted_index.It	128
abstract_inverted_index.To	57
abstract_inverted_index.We	162
abstract_inverted_index.at	151
abstract_inverted_index.be	149
abstract_inverted_index.in	14, 166, 205
abstract_inverted_index.is	84, 175
abstract_inverted_index.of	114, 188, 207
abstract_inverted_index.to	19, 49, 71, 86, 90, 106, 139, 178
abstract_inverted_index.we	61, 100, 122
abstract_inverted_index.CTC	65, 137
abstract_inverted_index.OCR	15
abstract_inverted_index.STR	180
abstract_inverted_index.and	29, 34, 54, 75, 155, 169, 194, 209
abstract_inverted_index.are	11
abstract_inverted_index.can	148
abstract_inverted_index.due	18, 48
abstract_inverted_index.for	143
abstract_inverted_index.not	157
abstract_inverted_index.the	69, 112, 118, 133, 152, 159, 203
abstract_inverted_index.CTC,	115
abstract_inverted_index.This	146
abstract_inverted_index.both	167
abstract_inverted_index.fast	36
abstract_inverted_index.into	132
abstract_inverted_index.long	192
abstract_inverted_index.most	200
abstract_inverted_index.only	24
abstract_inverted_index.text	5, 52, 73, 88, 97, 189
abstract_inverted_index.than	44
abstract_inverted_index.that	108
abstract_inverted_index.they	39
abstract_inverted_index.thus	116
abstract_inverted_index.time	160
abstract_inverted_index.with	51, 68
abstract_inverted_index.(STR)	7
abstract_inverted_index.Code:	212
abstract_inverted_index.EDTRs	201
abstract_inverted_index.SVTR,	10
abstract_inverted_index.cost.	161
abstract_inverted_index.e.g.,	9
abstract_inverted_index.model	28, 66, 76, 138
abstract_inverted_index.scene	4
abstract_inverted_index.stage	154
abstract_inverted_index.terms	206
abstract_inverted_index.text,	193
abstract_inverted_index.their	20
abstract_inverted_index.these	59
abstract_inverted_index.types	187
abstract_inverted_index.where	173
abstract_inverted_index.which	23
abstract_inverted_index.worse	42
abstract_inverted_index.would	156
abstract_inverted_index.First,	79
abstract_inverted_index.SVTRv2	165, 174, 198
abstract_inverted_index.across	182, 202
abstract_inverted_index.ensure	107
abstract_inverted_index.fairly	176
abstract_inverted_index.handle	72
abstract_inverted_index.linear	32
abstract_inverted_index.mainly	17
abstract_inverted_index.models	181
abstract_inverted_index.module	105, 147
abstract_inverted_index.recent	170
abstract_inverted_index.resize	87
abstract_inverted_index.severe	96
abstract_inverted_index.simple	21
abstract_inverted_index.sizes,	93
abstract_inverted_index.speed.	211
abstract_inverted_index.visual	27, 109, 134
abstract_inverted_index.widely	12
abstract_inverted_index.(EDTRs)	47
abstract_inverted_index.SVTRv2,	63
abstract_inverted_index.Second,	121
abstract_inverted_index.ability	70
abstract_inverted_index.address	58
abstract_inverted_index.context	131
abstract_inverted_index.endowed	67
abstract_inverted_index.exhibit	41
abstract_inverted_index.feature	103
abstract_inverted_index.methods	46
abstract_inverted_index.module.	127
abstract_inverted_index.omitted	150
abstract_inverted_index.popular	179
abstract_inverted_index.propose	62, 123
abstract_inverted_index.puzzle.	120
abstract_inverted_index.whether	195
abstract_inverted_index.However,	38
abstract_inverted_index.accuracy	43, 144, 208
abstract_inverted_index.allowing	136
abstract_inverted_index.avoiding	95
abstract_inverted_index.compared	177
abstract_inverted_index.contains	25
abstract_inverted_index.context.	78
abstract_inverted_index.employed	13
abstract_inverted_index.evaluate	164
abstract_inverted_index.features	110
abstract_inverted_index.guidance	126
abstract_inverted_index.increase	158
abstract_inverted_index.language	141
abstract_inverted_index.leverage	140
abstract_inverted_index.methods,	8
abstract_inverted_index.missing.	56
abstract_inverted_index.multiple	183
abstract_inverted_index.proposed	85
abstract_inverted_index.resizing	82
abstract_inverted_index.semantic	125
abstract_inverted_index.standard	168
abstract_inverted_index.strategy	83
abstract_inverted_index.temporal	1
abstract_inverted_index.alignment	119
abstract_inverted_index.different	186
abstract_inverted_index.employing	196
abstract_inverted_index.features,	135
abstract_inverted_index.generally	40
abstract_inverted_index.including	185
abstract_inverted_index.inference	153, 210
abstract_inverted_index.instances	89
abstract_inverted_index.introduce	101
abstract_inverted_index.scenarios	204
abstract_inverted_index.surpasses	199
abstract_inverted_index.therefore	35
abstract_inverted_index.Meanwhile,	99
abstract_inverted_index.inference.	37
abstract_inverted_index.integrates	129
abstract_inverted_index.languages,	191
abstract_inverted_index.linguistic	55, 77, 130
abstract_inverted_index.multi-size	81
abstract_inverted_index.predefined	92
abstract_inverted_index.scenarios,	184
abstract_inverted_index.struggling	50
abstract_inverted_index.(CTC)-based	3
abstract_inverted_index.CTC-aligned	31
abstract_inverted_index.accommodate	111
abstract_inverted_index.alleviating	117
abstract_inverted_index.appropriate	91
abstract_inverted_index.benchmarks,	172
abstract_inverted_index.challenges,	60
abstract_inverted_index.challenging	171
abstract_inverted_index.classifier,	33
abstract_inverted_index.distortion.	98
abstract_inverted_index.effectively	94
abstract_inverted_index.extensively	163
abstract_inverted_index.information	142
abstract_inverted_index.recognition	6
abstract_inverted_index.requirement	113
abstract_inverted_index.improvement.	145
abstract_inverted_index.irregularity	53
abstract_inverted_index.pretraining.	197
abstract_inverted_index.Connectionist	0
abstract_inverted_index.applications,	16
abstract_inverted_index.architecture,	22
abstract_inverted_index.irregularity,	190
abstract_inverted_index.rearrangement	104
abstract_inverted_index.classification	2
abstract_inverted_index.irregularities	74
abstract_inverted_index.encoder-decoder-based	45
abstract_inverted_index.https://github.com/Topdu/OpenOCR.	213
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	5
citation_normalized_percentile